【问题标题】:Urllib returning html but no closing paragraph tagsUrllib 返回 html 但没有结束段落标签
【发布时间】:2018-09-27 20:20:08
【问题描述】:

我正在抓取总统辩论记录。我注意到当我的刮板拉出 html 元素时,它从不拉出段落结束标记 (</p>)。

例如

在浏览器中检查源

url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
req = urllib.request.Request(url_to_scrape)
resp = urllib.request.urlopen(req)
resp.read()

我认为发生了以下两种情况之一:

  1. urllib 以某种方式删除了结束标签(对于段落,其余的都很好)
  2. 原始源不包含结束标记,浏览器正在填充它们。

我如何确定它是哪一个,然后纠正它?

【问题讨论】:

  • 你能检查一下 Chrome 收到的实际数据包吗?在某些情况下,Chrome 会检测并纠正像这样的小遗漏以显示页面,即使它们不在数据包中。我的猜测是 Chrome 修复了这个问题,而实际来源很糟糕。
  • 是的,好电话。当我检查原始来源时,没有结束标签
  • 可以确认答案吗? :P

标签: python html python-3.x web-scraping urllib


【解决方案1】:

你能检查一下 Chrome 收到的实际数据包吗?在某些情况下,Chrome 会检测并纠正像这样的小遗漏以显示页面,即使它们不在数据包中。我的猜测是 Chrome 修复了这个问题,而实际来源很糟糕。

【讨论】:

    猜你喜欢
    • 2021-01-18
    • 2019-04-28
    • 1970-01-01
    • 2018-02-21
    • 1970-01-01
    • 1970-01-01
    • 2016-05-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多