【发布时间】:2011-12-10 01:31:39
【问题描述】:
我有以下问题:我有很多pdf格式的论文,我必须从每篇论文的第一页提取信息,然后将其保存到数据库中
我只需要提取,标题,摘要,关键字,作者列表,大学列表,电子邮件。我想做一个脚本来为每篇论文的每个字段获取一个字符串。
我该怎么做?有人已经这样做了吗?你向我推荐什么语言和工具? 并且是否存在已经完成该数据库馈送的论文存储库?
考虑到 pdf 可能具有不同的编码,我也必须处理这个问题。对此的任何帮助都会很棒。
您好!
【问题讨论】: