【发布时间】:2012-09-05 11:30:45
【问题描述】:
我知道 Apache Tika 是一个文本提取器。它可以从 doc、pdf、ppt 和许多其他文件格式中提取文本。现在我在ios中需要这个功能,所以我想知道有没有Apache Tika for ios的替代品?
如果没有ios这个库,你可以告诉我可以提取指定文件格式的工具。
提前谢谢你。
【问题讨论】:
标签: ios apache-tika
我知道 Apache Tika 是一个文本提取器。它可以从 doc、pdf、ppt 和许多其他文件格式中提取文本。现在我在ios中需要这个功能,所以我想知道有没有Apache Tika for ios的替代品?
如果没有ios这个库,你可以告诉我可以提取指定文件格式的工具。
提前谢谢你。
【问题讨论】:
标签: ios apache-tika
libopc 用于从 docx、xlsx、pptx 中提取文本。
Antiword 用于较旧的 MS 格式。
You can extract strings from a PDF using CoreGraphics also,和 也使用PDFiPhone。
如果您还想从 HTML 文档中提取文本,请查看 NSXMLParser。
【讨论】: