是否可以在浏览器 pdf 查看器中获取 HTML？

【问题标题】：is it possible to get HTML of a in browser pdf viewer?是否可以在浏览器 pdf 查看器中获取 HTML？
【发布时间】：2017-12-16 22:05:00
【问题描述】：

当您在浏览器中检查 pdf 查看器页面时，会有一个 html 结构，但是 urllib2 和 requests 都没有返回任何内容，并且 BS4 进入无限循环。

我只想要页面的标题（在头部）。

【问题讨论】：

【解决方案1】：

如果你使用 Mozilla 的 pdf.js，你应该可以做到这一点via the PDF.js API, as detailed in this Issue.

pdf.info.get('Title')

或

new Metadata(pdf.catalog.metadata)
metadata.get('dc:title')

【讨论】：