【发布时间】:2020-01-04 01:49:33
【问题描述】:
我正在尝试抓取 Facebook 群组中的帖子:
URL = 'https://www.facebook.com/groups/110354088989367/'
headers = {
"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}
def checkSubletGroup():
page = requests.get(URL, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
posts = soup.find_all("div", {"class_": "text_exposed_root"})
print(soup.prettify())
for post in posts:
print(post)
checkSubletGroup()
div 和 class="text_exposed_root" 显然在那里,因为当我搜索 print(soup.prettify()) 时,我可以使用 CTRLf 找到它,但当我搜索 @987654325 时@它返回一个空列表,许多其他类名也很明显。
请帮忙。
【问题讨论】:
-
只有当
class_是关键字参数时才需要使用,而不是在字典中。 -
刚刚发现问题:所有
<div>在该页面的源代码中都被注释掉了。我猜bs4会忽略这些标签。
标签: python beautifulsoup