【发布时间】:2017-02-22 23:21:48
【问题描述】:
我正在将静态 HTML 移动到 WordPress 上。
我试图想办法从文件中提取特定的 HTML 内容(标题标签、描述标签、<h1> 标签等)。我有大约 120 个本地文件,手动完成这一切将是一个漫长的过程。
但是,如果我可以将此数据转换为 CSV,我可以快速移动此站点。
有没有人对这种类型的流程有任何建议或经验?任何帮助将不胜感激。
【问题讨论】:
-
将每个 html 加载到浏览器(或类似浏览器)中,然后使用 DOM 方法简单地拉取其元素及其内容......我还投票以“搜索工具”来结束这个问题,这在 SO 上是题外话
-
感谢您尝试结束我的问题,因为我只是在询问方向而不是让某人为我做这件事。
-
我给了一个建议来帮忙,......这个问题在 SO 上是题外话,阅读我们的帮助中心,你会在那里找到它
-
写一个脚本来解析文件?对于 HTML,这可能是一件棘手的事情。另见Why not to parse HTML using RegEx 或this。
-
我最终不得不手动执行此操作。我能够使用正则表达式一次性完成所有页面的崇高文本。不得不采取一些技巧,但总的来说,我做得很好。
标签: javascript java python html scripting