【发布时间】:2020-06-22 04:20:48
【问题描述】:
我只有两周时间学习 python。
我正在抓取一个 XML 文件和循环 [item->description] 的元素之一,里面有 HTML,我怎样才能得到 p 里面的文本?
url="https://www.milenio.com/rss"
source=requests.get(url)
soup=BeautifulSoup(source.content, features="xml")
items=soup.findAll('item')
for item in items:
html_text=item.description
# This returns HTML code: <p>Paragraph 1</p> <p>Paragraph 2</p>
下一行可以工作,但我有一些内部、外部链接和图片,这不是必需的。
desc=item.description.get_text()
所以,如果我创建一个循环 o 试图获取所有 p,它不起作用。
for p in html_text.find_all('p'):
print(p)
AttributeError: 'NoneType' 对象没有属性 'find_all'
非常感谢!
【问题讨论】:
-
使用这个 SO 链接:stackoverflow.com/questions/2032172/…
标签: python beautifulsoup