【发布时间】:2020-02-21 08:51:09
【问题描述】:
我打算从 NYT 文章中提取文章文本。但是我不知道如何通过节名等html5标签进行提取。
import urllib.request
from bs4 import BeautifulSoup
html = urllib.request.urlopen('https://www.nytimes.com/2019/10/24/opinion/chuck-schumer-electric-car.html?action=click&module=Opinion&pgtype=Homepage')
soup = BeautifulSoup(html)
data = soup.findAll(text=True)
【问题讨论】:
标签: python html web-scraping beautifulsoup