【发布时间】:2016-01-27 09:02:24
【问题描述】:
我制作了一个脚本,用于从网站的所有 76 个页面中获取每个 H1 标签。但是在这个过程中,我的程序复制了一个非常具体的行“Current Affairs January 2015”,因为这一行出现在每一页中。我可以编辑代码只打印 1 次吗?
这是我的代码:
from bs4 import BeautifulSoup as bs
import urllib
for i in range(2,77):
url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
soup = bs(urllib.urlopen(url1))
for link in soup.findAll('h1'):
print link.string
提前致谢。
【问题讨论】:
标签: python-2.7 web web-scraping