【问题标题】:is it possible to get HTML of a in browser pdf viewer?是否可以在浏览器 pdf 查看器中获取 HTML?
【发布时间】:2017-12-16 22:05:00
【问题描述】:

当您在浏览器中检查 pdf 查看器页面时,会有一个 html 结构,但是 urllib2 和 requests 都没有返回任何内容,并且 BS4 进入无限循环。

我只想要页面的标题(在头部)。

示例页面: http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf

【问题讨论】:

    标签: html pdf web-scraping


    【解决方案1】:

    如果你使用 Mozilla 的 pdf.js,你应该可以做到这一点via the PDF.js API, as detailed in this Issue.

    pdf.info.get('Title')
    

    new Metadata(pdf.catalog.metadata)
    metadata.get('dc:title')
    

    【讨论】:

    • 我目前正在使用python。希望从 head 标签中获得标题,但我似乎无法获得 html 结构。我对 PDF.js 不熟悉。
    猜你喜欢
    • 2014-07-26
    • 1970-01-01
    • 2010-09-09
    • 1970-01-01
    • 2021-04-11
    • 1970-01-01
    • 2017-06-20
    • 1970-01-01
    相关资源
    最近更新 更多