【发布时间】:2015-09-29 23:06:57
【问题描述】:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re
random.seed(datetime.datetime.now())
def getLinks(articleUrl):
html = urlopen("http://en.wikipedia.org"+articleUrl)
bsObj = BeautifulSoup(html)
return bsObj.find("div", {"id":"bodyContent"}).findAll("a",href = re.compile("^(/wiki/)((?!:).)*$"))
getLinks('http://en.wikipedia.org')
操作系统是 Linux。上面的脚本吐出一个“urllib.error.URLError:”。查看了我在 google 上找到的许多解决此问题的尝试,但没有一个解决了我的问题(尝试的解决方案包括更改 env 变量并将名称服务器 8.8.8.8 添加到我的 resolv.conf 文件中)。
【问题讨论】:
-
除了你还没有弄清楚函数的第一行在做什么吗?
-
@IgnacioVazquez-Abrams 哦,天哪,我现在觉得自己很愚蠢。在编写其余部分之前,我只是将它放在那里以“测试”脚本,但是当我用实际的维基百科文章尝试它时,它停止给出 URL 错误。谢谢!
-
articleUrl的值是多少?