从网页中提取嵌入的 pdf 文档

【问题标题】：Extract embedded pdf document from a webpage从网页中提取嵌入的 pdf 文档
【发布时间】：2018-06-16 23:34:46
【问题描述】：

我正在尝试编写一个 Python 程序，该程序能够提取嵌入在网站（例如 PDF 查看器）中的 PDF 文件。但是，我还没有找到一种可靠的方法来实现这一点。

有没有一种方法或最佳实践来识别基于 MIME 类型的 PDF？

【问题讨论】：

mime-type 是application/pdf
你好艾文。感谢您的回复。但是在这种情况下，如果内容是嵌入的，如何识别 MIME 类型？
还有some关于如何下载pdf的建议。您能否提供嵌入式 pdf 的示例（可能是站点链接）？
当然，我只是上网找了一个包含嵌入式pdf的随机网页：issuu.com/futurepublishing/docs/art274.issuu当然这里有下载链接，但这不是目的。这实际上是关于如何识别是否嵌入了 pdf。 :)

【解决方案1】：

所以基本上你需要在html页面中搜索iframe并检查src属性，它应该包含pdf文件的url。

例如： <iframe src="/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf" style="border: none; width: 100%; height: 100%;" frameborder="0"></iframe> 来自https://pdfobject.com/examples/pdfjs-forced.html

因此需要的 pdf url 将是：https://pdfobject.com/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf

请注意，并非每个 pdf 网络阅读器都提供检查文件位置的功能。例如，您共享的 site 请勿这样做。

您可以使用urllib 或requests 加载html 页面并使用beautifulsoup 或使用scrapy 或其他大量工具搜索html-tag。

【讨论】：