【问题标题】：Scape issue in beautiful soup, NoneType' object has no attribute 'find_all美丽汤中的景观问题，NoneType' 对象没有属性 'find_all
【发布时间】：2020-05-01 17:59:04
【问题描述】：

尝试执行此代码以抓取下面提到的特定网站/RSS 提要继续获得：

Traceback（最近一次调用最后一次）：

文件“C:\Users\Jeanne\Desktop\PYPDIT\pyscape.py”，第 28 行，在成绩单 = [url_to_transcript(u) for u in urls]

文件“C:\Users\Jeanne\Desktop\PYPDIT\pyscape.py”，第 17 行，在 url_to_transcript text = [p.text for p in soup.find(class_="itemcontent").find_all('p')]

AttributeError: 'NoneType' 对象没有属性 'find_all'

请指教。

import requests
from bs4 import BeautifulSoup
import pickle

def url_to_transcript(url):

page = requests.get(url).text
soup = BeautifulSoup(page, "lxml")
text = [p.text for p in soup.find(class_="itemcontent").find_all('p')]
print(url)
return text

范围内成绩单的 URL

urls = ['http://feeds.nos.nl/nosnieuwstech',
        'http://feeds.nos.nl/nosnieuwsalgemeen']

transcripts = [url_to_transcript(u) for u in urls]

【问题讨论】：

标签： web-scraping beautifulsoup nonetype

【解决方案1】：

返回的 html 与您在页面上看到的不一样。您可以使用以下内容：

import requests
from bs4 import BeautifulSoup
 # import pickle

urls = ['http://feeds.nos.nl/nosnieuwstech','http://feeds.nos.nl/nosnieuwsalgemeen']

with requests.Session() as s:
    for url in urls:
        page = s.get(url).text
        soup = BeautifulSoup(page, "lxml")
        print(url)
        print([[i.text for i in desc.select('p')] for desc in soup.select('description')[1:]])
        print('--'*100)

【讨论】：

谢谢你，这很好用。
# # Pickle 文件供以后使用 # # 创建一个新目录来保存文本文件 # !mkdir transcripts # for i, c in enumerate(comedians): # with open("transcripts/" + c + ".txt", "wb") as file: #pickle.dump(transcripts[i], file) 你能帮我下一步吗，如何腌制选定的文本？
嗨，请打开一个新问题。添加您的尝试并说明什么不起作用以及您尝试了什么。
我提出了一个新问题，也许你可以帮助我完成下一步。 stackoverflow.com/questions/61558832/…