【发布时间】:2014-08-05 13:30:38
【问题描述】:
我想做一个 python 脚本,它会每隔 1 秒随机访问某个网站上的超链接。
从验证 url 开始:
def valid_url(url):
try:
urllib2.urlopen(url)
return True
except Exception, e:
return False
print valid_url('www.python.org')
- 我可以使用 re 获取超链接
import urllib2 import re url = 'http://www.python.org/' page = urllib2.urlopen(url) page = page.read() links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page) for link in links: print('href: %s, HTML text: %s' % (link[0], link[1]))
【问题讨论】:
-
到目前为止你得到了什么?
-
请提供更多信息,您到目前为止已经尝试过什么
-
从验证 url 开始:def valid_url(url): try: urllib2.urlopen(url) return True except Exception, e: return False print valid_url('www.python.org')
-
编辑问题并将其添加到那里..
-
谢谢。我对卡住溢出有点陌生...