【发布时间】:2013-06-02 09:55:05
【问题描述】:
我们正在开发一种文档搜索引擎 - 主要专注于索引用户提交的 MS Word 文档。
我们注意到存在关键字填充滥用。
我们确定了两种主要的滥用行为:
- 重复同一个词,一次又一次
- 大量不相关的术语添加到文档中
通过添加字体颜色与文档背景颜色相同的文本或将字体大小设置为 1px 等方式,启用这两种滥用形式。
虽然确定背景颜色是否与文本颜色相同,但考虑到 MS 单词布局的复杂性,这很棘手 - 字体大小也是如此 - 因为任何截断似乎都可能是任意的 - 我们可能会不小心删除有效的如果我们将截断值设置得太大,则为文本。
我的问题是 - 是否有任何标准化的预处理或统计分析技术可用于减少此类关键字填充的影响?
任何指导将不胜感激!
【问题讨论】:
-
为什么要删除任何东西?为什么不尝试检测(最终这是你能做的最好的尝试)并通知用户或惩罚他们的排名,可以这么说。
-
除非您的容量非常大,否则是否可以进行有根据的猜测并标记文档以供管理员/版主审核?这可能有助于您避免因误报而惩罚他人。
-
@GrantThomas - 我们如何检测?你的意思是只看字体大小和颜色?
-
@ChrisSinclair 我们每天要处理大约 50k 份文件——太多了
-
也许您可以自动化其中一种光学字符识别过程(如this one)。将 MSWord 文档“打印”到图像上,通过 OCR 运行它,并可能将其用于文字。或者,如果 OCR 文本和 Word 文本之间存在显着差异,请将其标记以供审核。大概如果文本在视觉上被隐藏或超小,OCR 就不会识别它。