【发布时间】:2019-05-25 22:03:32
【问题描述】:
我对网络抓取完全不熟悉,想从以下位置抓取评论和属性回复:https://www.hostelworld.com/hosteldetails.php/HI-NYC-Hostel/New-York/1850#reviews
但是,我获得的 HTML 似乎是针对宿舍页面而不是带有评论的覆盖页面,我想知道如何从评论面板获取和抓取。
我可以使用下面的 sn-p 抓取用户评论,
from bs4 import BeautifulSoup
url = 'https://www.hostelworld.com/hosteldetails.php/HI-NYC-Hostel/New-York/1850#reviews'
response = requests.get(url)
SoupPage = BeautifulSoup(response.text, 'html.parser')
reviews = SoupPage.find_all(class_="review-info")
for rev in reviews:
text = rev.find(class_="notes")
但它似乎来自评论面板的不同来源,因为我没有看到与属性回复相对应的任何类或文本。任何帮助或建议将不胜感激。
【问题讨论】:
-
这是否需要登录,因为我在底部看到有关会话已过期的消息并且我无法查看所有评论 - 只有一小部分?
-
@QHarr 我不相信,我没有登录
-
我不太明白你所说的评论面板和宿舍页面是什么意思
-
@Fozoro 评论加载在旅馆页面顶部的叠加层(或滑出面板)上,而不是新页面。旅馆页面是指包含旅馆照片和描述及其设施的页面。这有帮助吗?
标签: python web-scraping beautifulsoup python-requests