【发布时间】:2012-08-16 06:54:54
【问题描述】:
我正在构建一个文档分类器来对文档进行分类。
因此第一步是将每个文档表示为“特征向量”以用于训练目的。
经过一番研究,我发现我可以使用 Bag of Words 方法或 N-gram 方法将文档表示为向量。
使用 OCR 检索每个文档(扫描的 pdf 和图像)中的文本,因此某些单词包含错误。而且我不了解这些文档中使用的语言(无法使用词干提取)。
据我所知,我必须使用 n-gram 方法。还是有其他方法来表示文档?
如果有人可以将我链接到 N-Gram 指南,以便获得更清晰的图片并了解其工作原理,我将不胜感激。
提前致谢
【问题讨论】:
标签: algorithm machine-learning document-classification feature-extraction