【问题标题】:how extract html markup tags如何提取html标记标签
【发布时间】:2023-11-13 16:20:02
【问题描述】:

是否有文本编辑器、软件、脚本、代码、狙击手或类似的东西可以从 html 文件生成类似于图片上的输出? 在其他作品中,仅输出 html 标记标签。 谢谢你帮助我。 output sample Before and After

这是我需要的之前和之后的图像,因此你们可以了解我在寻找什么。我不太擅长详细说明事情。谢谢

【问题讨论】:

  • 我不知道,但您可以做的是解析文本并将引号 ("something") 之间的任何内容替换为空格 (" ")。
  • 谢谢,但实际上我不需要替换引号之间的任何内容,我需要的是摆脱标签之间的所有内容 >。
  • 所以你链接的输出样本不正确?
  • 样本只是一个样本,是正确的。
  • 我明白你在说什么。尝试构建一个正则表达式来捕获<> 之间的文本(char/num/punct)并排除不是的文本。给我几分钟的时间来回答。

标签: html tags markup


【解决方案1】:

我不知道执行此任务的工具。我认为研究这样的 html 文件的结构是一个有趣的想法。我也多次需要这个,所以我写了一个小小的命令行工具,它应该可以完成这项工作:

html_skeleton (https://github.com/antonharald/html_skeleton)


它的作用:

  1. 阅读文件
  2. 将 HTML 结构解析为虚拟 DOM
  3. 递归访问所有 HTML 元素。对于它们中的每一个:删除属性值,如果没有子项:删除它的文本内容。
  4. 将操作后的 DOM 转换为 HTML 代码并打印出来。

我没有时间测试它,所以很高兴听到它是否对你有用。

【讨论】:

  • 谢谢安东。是的,它对我有用。这是一个很棒的工具,如果可以作为书签附加到浏览器以处理远程文件而不是将文件保存在本地主机中,它可能会更好。感谢您分享此工具。