【发布时间】:2011-12-22 19:54:56
【问题描述】:
我需要从上传的文档中提取纯文本以使其可搜索。文档可以是 MS Word 或 pdf(扫描或包含文本)。有问题的应用程序在 LAMP 堆栈上运行,但可以选择安装其他软件。您可以推荐任何工具、服务、库或它们的组合来完成此任务吗?
【问题讨论】:
-
对于扫描的文档,我认为您需要一些 OCR
-
从旧式 .doc 文件中提取文本是一件非常痛苦的事情。它们并不意味着易于解析。 .docx 稍微容易一些,因为它们大部分只是压缩的 .xml 文件。
-
@BlotClock 我知道。我没有明确提到它,因为我认为这是显而易见的。