【问题标题】:Extract embedded pdf document from a webpage从网页中提取嵌入的 pdf 文档
【发布时间】:2018-06-16 23:34:46
【问题描述】:

我正在尝试编写一个 Python 程序,该程序能够提取嵌入在网站(例如 PDF 查看器)中的 PDF 文件。但是,我还没有找到一种可靠的方法来实现这一点。

有没有一种方法或最佳实践来识别基于 MIME 类型的 PDF?

【问题讨论】:

  • mime-typeapplication/pdf
  • 你好艾文。感谢您的回复。但是在这种情况下,如果内容是嵌入的,如何识别 MIME 类型?
  • 还有some关于如何下载pdf的建议。您能否提供嵌入式 pdf 的示例(可能是站点链接)?
  • 当然,我只是上网找了一个包含嵌入式pdf的随机网页:issuu.com/futurepublishing/docs/art274.issuu当然这里有下载链接,但这不是目的。这实际上是关于如何识别是否嵌入了 pdf。 :)

标签: python pdf mime-types


【解决方案1】:

所以基本上你需要在html页面中搜索iframe并检查src属性,它应该包含pdf文件的url。

例如: <iframe src="/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf" style="border: none; width: 100%; height: 100%;" frameborder="0"></iframe> 来自https://pdfobject.com/examples/pdfjs-forced.html

因此需要的 pdf url 将是:https://pdfobject.com/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf

请注意,并非每个 pdf 网络阅读器都提供检查文件位置的功能。例如,您共享的 site 请勿这样做。

您可以使用urllibrequests 加载html 页面并使用beautifulsoup 或使用scrapy 或其他大量工具搜索html-tag。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2010-12-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-14
    • 2013-03-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多