【问题标题】:Pulling specific HTML content from local files从本地文件中提取特定的 HTML 内容
【发布时间】:2017-02-22 23:21:48
【问题描述】:

我正在将静态 HTML 移动到 WordPress 上。

我试图想办法从文件中提取特定的 HTML 内容(标题标签、描述标签、<h1> 标签等)。我有大约 120 个本地文件,手动完成这一切将是一个漫长的过程。

但是,如果我可以将此数据转换为 CSV,我可以快速移动此站点。

有没有人对这种类型的流程有任何建议或经验?任何帮助将不胜感激。

【问题讨论】:

  • 将每个 html 加载到浏览器(或类似浏览器)中,然后使用 DOM 方法简单地拉取其元素及其内容......我还投票以“搜索工具”来结束这个问题,这在 SO 上是题外话
  • 感谢您尝试结束我的问题,因为我只是在询问方向而不是让某人为我做这件事。
  • 我给了一个建议来帮忙,......这个问题在 SO 上是题外话,阅读我们的帮助中心,你会在那里找到它
  • 写一个脚本来解析文件?对于 HTML,这可能是一件棘手的事情。另见Why not to parse HTML using RegExthis
  • 我最终不得不手动执行此操作。我能够使用正则表达式一次性完成所有页面的崇高文本。不得不采取一些技巧,但总的来说,我做得很好。

标签: javascript java python html scripting


【解决方案1】:

问题是关于从给定的 HTML 文件中提取某些 HTML 元素。有多种方法可以做到这一点。让我在下面指出其中的一些。

1) 使用带有库的脚本来执行此操作。对于 Java,请使用 JSOUP。

String br = "<html><source>foo bar bar</source></html>";
Document doc = Jsoup.parse(br, "", Parser.xmlParser());

for (Element sentence : doc.getElementsByTag("source"))
    System.out.println(sentence.text());
}

这将为您提供带有 HTML 标记 source 的元素列表。你可以对其他语言做同样的事情,比如python(使用BeautifulSoup)和NodeJS。

2) 您可以编写一个脚本来将 HTML 文件作为文本文件读取并搜索文本。

将所有 HTML 文件移动到一个文件夹中,并编写一个小程序来加载每个文件并搜索特定标签。稍后将其保存到 CSV 或任何首选输出。

3) 你可以用 grep 做同样的事情。

简单地进行搜索并将结果直接加载到 CSV 文件中。

还有多种其他方法可以做到这一点。既然您提到手动工作量较高,请尝试编写一个小脚本来完成工作。使用第一种方法,因为它更快更容易。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-01-26
    • 1970-01-01
    • 1970-01-01
    • 2017-12-20
    • 2016-09-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多