【发布时间】:2011-07-30 19:49:54
【问题描述】:
我必须对大量大型 html 和 xml 文档(超过 30.000 个)进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试将BASH + linux 实用程序(sed,grep,...)与 hunspell 一起使用。 Hunspell 有选项 -H 强制它将文档检查为 HTML(对于 XML,该选项也适用)。但是有一个问题:它输出偏移量而不是行数,它也可以逐行检查,因为在这种情况下它会查看标签内部(他找不到封闭标签)。
那么完成任务的正确方法是什么?
【问题讨论】:
-
你在普通的
aspell中到底缺少什么? -
我建议您在帖子中添加一个 XML 标记。 S.O. 有相当多的高级 XML 用户。祝你好运!
-
我找不到如何强制
aspell输出行号而不是奇怪且有用的偏移量(如hunspell)。 -
Hunspell 现在有用于 XML 的
-X选项。
标签: xml bash spell-checking hunspell