Urllib2：获取html页面的内容答案

【问题标题】：Urllib2: get content of html pageUrllib2：获取html页面的内容
【发布时间】：2016-09-06 19:17:48
【问题描述】：

我需要从一些 url 解析信息：

http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://drom.ru
http://novosibirsk.baza.drom.ru
http://moscow.drom.ru/volvo/xc70/21914186.html
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://novosibirsk.baza.drom.ru/kolpaki-reno-r15-kubera-30227564.html

我尝试从中解析一些信息

if 'drom.ru' in url:
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    page = response.read()
    soup = BeautifulSoup(page, 'html.parser')

但它会返回给我空白页面。哪里有问题？

【问题讨论】：

标签： python html urllib2

【解决方案1】：

第 1 步：您可以从浏览器访问网站吗？（如果没有，请转到第 4 步）

第 2 步：您可以通过 wget、curl 等命令行访问网站吗？（如果没有，请转到第 4 步）

第 3 步：检查代理问题/尝试其他库，例如 requests

第 4 步：首先在浏览器/命令行中运行，然后返回第 1 步

【讨论】：

【解决方案2】：

使用requests 会更容易。如果您没有安装requests 模块，请尝试通过pip install requests 安装它

import requests

if 'drom.ru' in url:
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser') # lxml works faster than html.parser

【讨论】：