【发布时间】:2015-04-16 13:36:06
【问题描述】:
我浏览了 APACHE POI 项目,发现它对于从 MS Word 文件中提取文本内容很有用。具体来说,POI 中有一个名为Text Extraction 的功能可以有效地完成这项工作。我还听说过 Apache Tika 在内部使用 Apache POI。
现在,我们在 Rails 网络应用程序中要求从单词 (.doc) 文件中提取文本内容。我们可以将Apache POI / Apache Tika 集成到我的网络应用程序中以达到我的目的的可能性有哪些?
如果有人对此有相关经验,我很想听听它以及代码 sn-ps。
【问题讨论】:
-
为什么要关闭投票?这个问题非常技术性和具体性。我不知道如何在 Rails 项目中使用它,那么有什么更好的方法来询问它?
-
您查看过 Ruby 绑定的 POI 文档吗? poi.apache.org/poi-ruby.html
-
这个问题非常广泛,很难给出明确的答案。即使每个人都会“分享自己的经验”,也很难选择一个正确的答案,因为你没有提供这样做的客观标准。问题表明研究工作很少 - 可能您应该从阅读文档开始,搜索相关绑定(如@NickVeys 建议的那样),如果您偶然发现一些特定的东西,那么欢迎您提出。
标签: ruby-on-rails ruby apache apache-poi doc