import urllib import re def getHtml(url): page=urllib.urlopen(url) html=page.read() return html html= getHtml("http://tieba.baidu.com/p/2460150866") print \'Size is:\',len(html) f=file(\'a.html\',\'w\') f.write(html) f.close()
Python的urllib模块还是很好用的,顺便把抓到的网页内容写到a.html里,然后模式匹配各个html标签,想得到什么都不是问题啦~~~