【发布时间】:2014-09-08 10:28:31
【问题描述】:
我需要一个 Python 战士来帮助我(我是菜鸟)!我正在尝试使用模块 urllib 从内部网站中抓取某些数据。但是,由于我的公司网站仅供员工查看,不向公众开放,我认为这就是我得到此代码的原因:
IOError: ('http 错误', 401, '未授权', )
我怎么会这样?它甚至不会使用 htmlfile.read() 读取网站
获取公共站点的示例代码:
import urllib
import re
htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")
htmltext = htmlfile.read()
regex = '<span id="yfs_l84_aapl">(.+?)</span>'
pattern = re.compile(regex)
price = re.findall(pattern,htmltext)
print price
【问题讨论】:
-
请不要用正则表达式解析html
-
@heinst 是的。Beautiful soup 是解析 HTML 的一种更简单的方法。 pypi.python.org/pypi/beautifulsoup4
-
好吧,我确实遇到了美丽的汤,但我避免安装,因为我的公司限制了很多我无法下载的东西:(但我相信我可以说服一些人。谢谢反馈!
标签: python web-scraping urllib intranet