【发布时间】:2012-02-29 10:42:26
【问题描述】:
这可能吗!?!
我有一堆旧报告需要导入数据库。但是,它们都是pdf格式的。有没有可以阅读 pdf 的 R 软件包?还是我应该把它留给命令行工具?
报告是用 excel 制作的,然后是 pdf 格式的,所以它们的结构很规则,但有很多空白的“单元格”。
【问题讨论】:
-
看一眼 CRAN,似乎没有任何图书馆可以做到这一点。您最好使用另一种具有此类库的语言(例如 Perl 和 Python,两者都有),获取您需要的数据,然后将其写入 R 可以读取的文件。
-
@JackManey 谢谢,我就是这么想的。在
tm包(文本挖掘)中有readPDF,但它并不完全是用户友好的,我认为它无论如何都使用命令行实用程序pdftotext。 -
你有我的同情。也许有一天我们会生活在一个所有数据都可以作为数据使用的世界中!
-
@gsk3 (+1) 我很感激你的哀悼......我大部分时间都希望这样做。既然人们都在关注,而我看起来不够努力……(stackoverflow.com/questions/3852354/…)证实了我的怀疑。
-
还有grImport包,它可以读取PDF文件,但它是用来提取矢量图形的——文本也会在那里,但可能不是非常有用的形式。
标签: linux r pdf scrape pdf-scraping