从本地文件中提取特定的 HTML 内容答案

【问题标题】：Pulling specific HTML content from local files从本地文件中提取特定的 HTML 内容
【发布时间】：2017-02-22 23:21:48
【问题描述】：

我正在将静态 HTML 移动到 WordPress 上。

我试图想办法从文件中提取特定的 HTML 内容（标题标签、描述标签、<h1> 标签等）。我有大约 120 个本地文件，手动完成这一切将是一个漫长的过程。

但是，如果我可以将此数据转换为 CSV，我可以快速移动此站点。

有没有人对这种类型的流程有任何建议或经验？任何帮助将不胜感激。

【问题讨论】：

将每个 html 加载到浏览器（或类似浏览器）中，然后使用 DOM 方法简单地拉取其元素及其内容......我还投票以“搜索工具”来结束这个问题，这在 SO 上是题外话
感谢您尝试结束我的问题，因为我只是在询问方向而不是让某人为我做这件事。
我给了一个建议来帮忙，......这个问题在 SO 上是题外话，阅读我们的帮助中心，你会在那里找到它
写一个脚本来解析文件？对于 HTML，这可能是一件棘手的事情。另见Why not to parse HTML using RegEx 或this。
我最终不得不手动执行此操作。我能够使用正则表达式一次性完成所有页面的崇高文本。不得不采取一些技巧，但总的来说，我做得很好。

标签： javascript java python html scripting

【解决方案1】：

问题是关于从给定的 HTML 文件中提取某些 HTML 元素。有多种方法可以做到这一点。让我在下面指出其中的一些。

1) 使用带有库的脚本来执行此操作。对于 Java，请使用 JSOUP。

String br = "<html><source>foo bar bar</source></html>";
Document doc = Jsoup.parse(br, "", Parser.xmlParser());

for (Element sentence : doc.getElementsByTag("source"))
    System.out.println(sentence.text());
}

这将为您提供带有 HTML 标记 source 的元素列表。你可以对其他语言做同样的事情，比如python（使用BeautifulSoup）和NodeJS。

2) 您可以编写一个脚本来将 HTML 文件作为文本文件读取并搜索文本。

将所有 HTML 文件移动到一个文件夹中，并编写一个小程序来加载每个文件并搜索特定标签。稍后将其保存到 CSV 或任何首选输出。

3) 你可以用 grep 做同样的事情。

简单地进行搜索并将结果直接加载到 CSV 文件中。

还有多种其他方法可以做到这一点。既然您提到手动工作量较高，请尝试编写一个小脚本来完成工作。使用第一种方法，因为它更快更容易。

【讨论】：