【发布时间】:2017-08-02 21:04:21
【问题描述】:
所以我遇到了一些处理将 PDF 转换为 HTML 或将它们转换为文本的帖子,但是它们都处理从保存到计算机的文件中进行的操作。有没有一种方法可以在不下载 PDF 文件本身的情况下从网页 PDF 中提取文本(因为我将通过遍历 URL 列表来处理大量文件)?
我也很好奇哪个是实现这一目标的最佳库。 pdfkit、pdf2txt、pdfminer等?
这是一个示例网站,我将使用以下格式:http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf
【问题讨论】:
-
即使在网络浏览器中查看 PDF 时,您也会将副本下载到本地缓存中。即使您正在查看的内容已保存在浏览器的 tmp 目录中的磁盘中,您的浏览器仍会向您显示远程 URL。为什么不做同样的事情?
标签: python web-scraping pdfminer