【发布时间】:2015-08-09 09:53:13
【问题描述】:
所以我正在抓取一个网站并尝试输出这些跨度标签之间的任何内容(它会根据我抓取的 URL 而改变)
<span class="inviter-name">tickzapman12345</span>
import urllib2
import re
url = "http://beta.cursevoice.com/join/jt95"
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox')
response = urllib2.urlopen(req)
matchObj = re.search(r'<span class="inviter-name">(.*?)</span>',str(response))
f = open('output.txt','w')
f.write(str(matchObj))
f.close()
但是,当我检查输出文件时,它只显示“无”,我的正则表达式有问题吗?
【问题讨论】:
-
matchObj = re.search(r'<span class="inviter-name">(.*?)</span>',str(response)).group() -
AttributeError: 'NoneType' 对象没有属性 'group'
标签: regex python-2.7 parsing web-scraping