【发布时间】:2017-12-16 22:05:00
【问题描述】:
当您在浏览器中检查 pdf 查看器页面时,会有一个 html 结构,但是 urllib2 和 requests 都没有返回任何内容,并且 BS4 进入无限循环。
我只想要页面的标题(在头部)。
示例页面: http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf
【问题讨论】:
标签: html pdf web-scraping
当您在浏览器中检查 pdf 查看器页面时,会有一个 html 结构,但是 urllib2 和 requests 都没有返回任何内容,并且 BS4 进入无限循环。
我只想要页面的标题(在头部)。
示例页面: http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf
【问题讨论】:
标签: html pdf web-scraping
如果你使用 Mozilla 的 pdf.js,你应该可以做到这一点via the PDF.js API, as detailed in this Issue.
pdf.info.get('Title')
或
new Metadata(pdf.catalog.metadata)
metadata.get('dc:title')
【讨论】: