Pdf解析挑战答案

【问题标题】：Pdf Parsing ChallengePdf解析挑战
【发布时间】：2011-12-10 01:31:39
【问题描述】：

我有以下问题：我有很多pdf格式的论文，我必须从每篇论文的第一页提取信息，然后将其保存到数据库中

我只需要提取，标题，摘要，关键字，作者列表，大学列表，电子邮件。我想做一个脚本来为每篇论文的每个字段获取一个字符串。

我该怎么做？有人已经这样做了吗？你向我推荐什么语言和工具？并且是否存在已经完成该数据库馈送的论文存储库？

考虑到 pdf 可能具有不同的编码，我也必须处理这个问题。对此的任何帮助都会很棒。

您好！

【问题讨论】：

标签： parsing pdf

【解决方案1】：

http://pdfbox.apache.org/

您必须检查 pdf 的安全性，它确实是文本而不是图像。检查pdfbox的命令行应用程序是否可以提取文本，然后您可以使用jar并使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

希望对你有帮助....

顺便说一句，它是java...

编辑。我没有将它用作 jar 库http://www.qoppa.com/pdftext/，但我使用了示例应用程序并且它可以工作，但我决定使用 pdfbox...

【讨论】：

【解决方案2】：

您需要一个 API 来阅读您的 pdf。

【讨论】：