【发布时间】:2009-09-21 09:11:21
【问题描述】:
我正在研究一个相当大的语料库,其中包含数万篇文章。我目前正在使用 PDFBox 进行各种成功的提取,并且我正在寻找一种以编程方式检查每个文件的方法,以查看提取是否成功。我目前正在考虑对它们中的每一个运行拼写检查器,但是语言可能会有所不同,我还不确定我正在处理哪些语言。带有分数的自然语言检测也可能是一个想法。
哦,任何方法也必须与 Java 配合得很好,要快速且相对快速地集成。
【问题讨论】:
-
顺便说一句,PDFBox 并没有得到积极维护,并且对一些较新的 PDF 格式以及其中嵌入了某些类型图像的 PDF 感到窒息。我发现的唯一一个在文本提取方面做得很好的库是 PDFTextStream,它非常好,但不是免费的。
-
我应该提到PDFTextStream的准确性也好得多。