【问题标题】:How to do spell check on html and xml?如何对 html 和 xml 进行拼写检查?
【发布时间】:2011-07-30 19:49:54
【问题描述】:

我必须对大量大型 html 和 xml 文档(超过 30.000 个)进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试将BASH + linux 实用程序(sedgrep,...)与 hunspell 一起使用。 Hunspell 有选项 -H 强制它将文档检查为 HTML(对于 XML,该选项也适用)。但是有一个问题:它输出偏移量而不是行数,它也可以逐行检查,因为在这种情况下它会查看标签内部(他找不到封闭标签)。 那么完成任务的正确方法是什么?

【问题讨论】:

  • 你在普通的aspell 中到底缺少什么?
  • 我建议您在帖子中添加一个 XML 标记。 S.O. 有相当多的高级 XML 用户。祝你好运!
  • 我找不到如何强制aspell 输出行号而不是奇怪且有用的偏移量(如hunspell)。
  • Hunspell 现在有用于 XML 的 -X 选项。

标签: xml bash spell-checking hunspell


【解决方案1】:

我刚刚有一个similar problem。您应该能够通过使用那些未记录的开关来获得良好的输出,例如-u-U。但要小心,因为这些功能现在似乎是实验性的,我只是通过查看 hunspell 的来源才发现它们的存在。

所以本质上:

hunspell -H -u my-file.html

应该这样做。

另外,您还可以使用开关-u1-u2-u3

【讨论】:

    【解决方案2】:

    您是否尝试过使用tidy

    我没有在如此多的文件上使用它,但它可以很好地在 100 多个 HTML 页面中查找问题。您还可以在 XML 文件上使用它,并且能够接受具有许多我尚未探索的选项的配置文件。

    【讨论】:

    • 我找不到自定义字典规范的选项。可能吗?拼写检查如何快速可靠?
    • 如果无法将其添加到配置文件中,我不确定是否可以整齐地完成。立即解析 1 个 html 文件,但我不确定解析数千个文件需要多少。您还需要一个脚本或其他东西来解析结果,因为它们可能很冗长。
    猜你喜欢
    • 1970-01-01
    • 2012-03-03
    • 1970-01-01
    • 2016-01-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多