【问题标题】:Pdf Parsing ChallengePdf解析挑战
【发布时间】:2011-12-10 01:31:39
【问题描述】:

我有以下问题:我有很多pdf格式的论文,我必须从每篇论文的第一页提取信息,然后将其保存到数据库中

我只需要提取,标题,摘要,关键字,作者列表,大学列表,电子邮件。我想做一个脚本来为每篇论文的每个字段获取一个字符串。

我该怎么做?有人已经这样做了吗?你向我推荐什么语言和工具? 并且是否存在已经完成该数据库馈送的论文存储库?

考虑到 pdf 可能具有不同的编码,我也必须处理这个问题。对此的任何帮助都会很棒。

example of a paper its here

您好!

【问题讨论】:

    标签: parsing pdf


    【解决方案1】:

    http://pdfbox.apache.org/

    您必须检查 pdf 的安全性,它确实是文本而不是图像。检查pdfbox的命令行应用程序是否可以提取文本,然后您可以使用jar并使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

    希望对你有帮助....

    顺便说一句,它是java...

    编辑。 我没有将它用作 jar 库http://www.qoppa.com/pdftext/,但我使用了示例应用程序并且它可以工作,但我决定使用 pdfbox...

    【讨论】:

    • 我一直在测试 pdfbox,它在使用 ruby​​ 编写脚本时效果非常好,谢谢!
    【解决方案2】:

    【讨论】:

    • 粗鲁但有趣。您知道您不能在此处发布指向 lmgtfy 的链接吗?可惜……有时它是正确的答案。
    猜你喜欢
    • 2018-01-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-07
    • 2018-12-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多