【问题标题】:Urllib2: get content of html pageUrllib2:获取html页面的内容
【发布时间】:2016-09-06 19:17:48
【问题描述】:

我需要从一些 url 解析信息:

http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://drom.ru
http://novosibirsk.baza.drom.ru
http://moscow.drom.ru/volvo/xc70/21914186.html
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://novosibirsk.baza.drom.ru/kolpaki-reno-r15-kubera-30227564.html

我尝试从中解析一些信息

if 'drom.ru' in url:
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    page = response.read()
    soup = BeautifulSoup(page, 'html.parser')

但它会返回给我空白页面。 哪里有问题?

【问题讨论】:

    标签: python html urllib2


    【解决方案1】:

    第 1 步:您可以从浏览器访问网站吗? (如果没有,请转到第 4 步)

    第 2 步:您可以通过 wget、curl 等命令行访问网站吗? (如果没有,请转到第 4 步)

    第 3 步:检查代理问题/尝试其他库,例如 requests

    第 4 步:首先在浏览器/命令行中运行,然后返回第 1 步

    【讨论】:

      【解决方案2】:

      使用requests 会更容易。如果您没有安装requests 模块,请尝试通过pip install requests 安装它

      import requests
      
      if 'drom.ru' in url:
          r = requests.get(url)
          soup = BeautifulSoup(r.content, 'html.parser') # lxml works faster than html.parser
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-07-28
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多