【发布时间】:2012-01-05 08:05:30
【问题描述】:
是否有任何纯 C++ 库可以从 .doc 文件中提取纯文本?
我正在开发一个 C++ 程序来读取 .doc 和 .pdf 文件。我必须从文件中提取纯文本并将其写入 .txt 文件。
【问题讨论】:
-
stackoverflow.com/q/5671988/79455,尤其是 libopc
标签: c++
是否有任何纯 C++ 库可以从 .doc 文件中提取纯文本?
我正在开发一个 C++ 程序来读取 .doc 和 .pdf 文件。我必须从文件中提取纯文本并将其写入 .txt 文件。
【问题讨论】:
标签: c++
您始终可以使用 OIVT(我认为是 OutsideIn Viewer Technology)现在由 oracle 拥有。
老实说,这不是一个便宜的解决方案,虽然此产品允许您查看、打印等...我想如果我没记错的话,他们确实提供了将内容提取为文本或他们是另一种产品。它可以从几乎任何文档类型(包括 doc、docx、pdf(仅举几例))中执行此操作,而无需使用安装的“原始”应用程序,因为它们有自己的一组过滤器。
这是一个帮助您入门的链接
祝你好运
【讨论】:
对于文档 - 使用 Word object model 获取文档并提取文本。这个example 使用 OLE 自动化和 C 。另一个 link for DOCX 可能对你有帮助。
对于 PDF - 使用 Haru 。
【讨论】:
您可以查看 Abiword 使用的开源 C 库,wv。
您也可以调用批量转换工具
【讨论】:
wv 用 GCC 编译得很好,并用于跨平台的 Abiword。我真的不明白为什么你认为你使用的编译器很重要?
system()。
如果您想操作/读取 .doc 文件,您可以花时间学习格式并手动操作 .doc 文件。您可以通过MSDN page linking to the format-specification (PDF file) 获取它。
我承认,这需要大量阅读,但是如果您正在寻找创建软件来操作/读取文件,您应该具备相关的基础知识来支持它。
pdf 格式也是如此(它是一种开放格式,因此应该很容易找到这样的规范)。
【讨论】: