【问题标题】:Removing Duplicate Tag Content Using BeautifulSoup使用 BeautifulSoup 删除重复的标签内容
【发布时间】:2016-01-27 09:02:24
【问题描述】:

我制作了一个脚本,用于从网站的所有 76 个页面中获取每个 H1 标签。但是在这个过程中,我的程序复制了一个非常具体的行“Current Affairs January 2015”,因为这一行出现在每一页中。我可以编辑代码只打印 1 次吗?

这是我的代码:

from bs4 import BeautifulSoup as bs
import urllib


for i in range(2,77):
    url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
    soup = bs(urllib.urlopen(url1))
    for link in soup.findAll('h1'):
        print link.string

提前致谢。

【问题讨论】:

    标签: python-2.7 web web-scraping


    【解决方案1】:
    from bs4 import BeautifulSoup as bs
    import urllib
    
    
    for i in range(2,77):
        url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
        soup = bs(urllib.urlopen(url1))
        uLinks = soup.findAll('h1')
        for index, item in enumerate(uLinks): 
              if i == 2:                
                    print(item.string)                
              if i != 2:
                    if index != 0:                                            
                          print(item.string)
    

    【讨论】:

      猜你喜欢
      • 2020-02-26
      • 2014-03-12
      • 2023-03-27
      • 2014-10-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-22
      • 2015-02-20
      相关资源
      最近更新 更多