【问题标题】:Scape issue in beautiful soup, NoneType' object has no attribute 'find_all美丽汤中的景观问题,NoneType' 对象没有属性 'find_all
【发布时间】:2020-05-01 17:59:04
【问题描述】:

尝试执行此代码以抓取下面提到的特定网站/RSS 提要 继续获得:

Traceback(最近一次调用最后一次):

文件“C:\Users\Jeanne\Desktop\PYPDIT\pyscape.py”,第 28 行,在 成绩单 = [url_to_transcript(u) for u in urls]

文件“C:\Users\Jeanne\Desktop\PYPDIT\pyscape.py”,第 28 行,在 成绩单 = [url_to_transcript(u) for u in urls]

文件“C:\Users\Jeanne\Desktop\PYPDIT\pyscape.py”,第 17 行,在 url_to_transcript text = [p.text for p in soup.find(class_="itemcontent").find_all('p')]

AttributeError: 'NoneType' 对象没有属性 'find_all'

请指教。

import requests
from bs4 import BeautifulSoup
import pickle

def url_to_transcript(url):

page = requests.get(url).text
soup = BeautifulSoup(page, "lxml")
text = [p.text for p in soup.find(class_="itemcontent").find_all('p')]
print(url)
return text

范围内成绩单的 URL

urls = ['http://feeds.nos.nl/nosnieuwstech',
        'http://feeds.nos.nl/nosnieuwsalgemeen']

transcripts = [url_to_transcript(u) for u in urls]

【问题讨论】:

    标签: web-scraping beautifulsoup nonetype


    【解决方案1】:

    返回的 html 与您在页面上看到的不一样。您可以使用以下内容:

    import requests
    from bs4 import BeautifulSoup
     # import pickle
    
    urls = ['http://feeds.nos.nl/nosnieuwstech','http://feeds.nos.nl/nosnieuwsalgemeen']
    
    with requests.Session() as s:
        for url in urls:
            page = s.get(url).text
            soup = BeautifulSoup(page, "lxml")
            print(url)
            print([[i.text for i in desc.select('p')] for desc in soup.select('description')[1:]])
            print('--'*100)
    

    【讨论】:

    • 谢谢你,这很好用。
    • # # Pickle 文件供以后使用 # # 创建一个新目录来保存文本文件 # !mkdir transcripts # for i, c in enumerate(comedians): # with open("transcripts/" + c + ".txt", "wb") as file: #pickle.dump(transcripts[i], file) 你能帮我下一步吗,如何腌制选定的文本?
    • 嗨,请打开一个新问题。添加您的尝试并说明什么不起作用以及您尝试了什么。
    • 我提出了一个新问题,也许你可以帮助我完成下一步。 stackoverflow.com/questions/61558832/…
    猜你喜欢
    • 2020-11-09
    • 1970-01-01
    • 2014-07-29
    • 2019-04-06
    • 1970-01-01
    • 2018-07-19
    • 2016-09-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多