【问题标题】:Scrapy crawl data inside pdf fileScrapy在pdf文件中抓取数据
【发布时间】:2015-09-26 02:25:15
【问题描述】:

我想知道如何使用 scrapy 抓取 pdf 文件中的数据。我应该使用哪个模块,哪个是最好和有效的方法?你能给我一些关于这个的示例教程吗

谢谢!!

【问题讨论】:

    标签: python python-2.7 pdf scrapy pdf-extraction


    【解决方案1】:

    我建议你使用 Scrapy 获取 PDF 并使用PyPDF2 获取 PDF 中的内容。

    有关完整但有些陈旧(使用 pyPDF)的示例,请查看 this site

    【讨论】:

    • 感谢您的回答。我已尝试使用您给我的示例站点,但仍然遇到一些错误,例如 *** PdfReadError: EOF marker not found
    猜你喜欢
    • 2013-10-02
    • 2017-09-04
    • 1970-01-01
    • 2017-05-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-08-04
    • 1970-01-01
    相关资源
    最近更新 更多