使用 BeautifulSoup 删除重复的标签内容答案

【问题标题】：Removing Duplicate Tag Content Using BeautifulSoup使用 BeautifulSoup 删除重复的标签内容
【发布时间】：2016-01-27 09:02:24
【问题描述】：

我制作了一个脚本，用于从网站的所有 76 个页面中获取每个 H1 标签。但是在这个过程中，我的程序复制了一个非常具体的行“Current Affairs January 2015”，因为这一行出现在每一页中。我可以编辑代码只打印 1 次吗？

这是我的代码：

from bs4 import BeautifulSoup as bs
import urllib


for i in range(2,77):
    url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
    soup = bs(urllib.urlopen(url1))
    for link in soup.findAll('h1'):
        print link.string

提前致谢。

【问题讨论】：

标签： python-2.7 web web-scraping

【解决方案1】：

from bs4 import BeautifulSoup as bs
import urllib


for i in range(2,77):
    url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
    soup = bs(urllib.urlopen(url1))
    uLinks = soup.findAll('h1')
    for index, item in enumerate(uLinks): 
          if i == 2:                
                print(item.string)                
          if i != 2:
                if index != 0:                                            
                      print(item.string)

【讨论】：