【发布时间】:2020-06-04 13:50:29
【问题描述】:
我正在做一个关于beautifulsoup的项目
from bs4 import BeautifulSoup as soup
from requests import get
url = "https://www.yelp.com/search?find_desc=&find_loc=New+York%2C+NY&ns=1"
clnt = get(url)
page=soup(clnt.text,"html.parser")
container = page.findAll("div",{"class":"lemon--div__373c0__1mboc container__373c0__ZB8u4 hoverable__373c0__3CcYQ margin-t3__373c0__1l90z margin-b3__373c0__q1DuY padding-t3__373c0__1gw9E padding-r3__373c0__57InZ padding-b3__373c0__342DA padding-l3__373c0__1scQ0 border--top__373c0__3gXLy border--right__373c0__1n3Iv border--bottom__373c0__3qNtD border--left__373c0__d1B7K border-color--default__373c0__3-ifU"})
container = container[1]
url2= "https://www.yelp.com"+container.a["href"]
clnt2 = get(url2)
page2 = soup(clnt2.text, 'html.parser')
info = page2.find("div",{"class":"lemon--div__373c0__1mboc island__373c0__3fs6U u-padding-t1 u-padding-r1 u-padding-b1 u-padding-l1 border--top__373c0__19Owr border--right__373c0__22AHO border--bottom__373c0__uPbXS border--left__373c0__1SjJs border-color--default__373c0__2oFDT background-color--white__373c0__GVEnp"})
contact=info.div (Example contact variable)
在这个“信息”变量中,我得到了包含所有联系方式的 div,我想从这个 div 中获取联系号码
当我打印这个“信息”变量时,它还显示了联系号码。存在于变量中,包括其他详细信息,但是当我遍历 div 以获取联系号码时,我找不到它。 我还尝试获取所有子 div,甚至包括 div 本身的类,我无法得到它
给出的第一个网址是:https://www.yelp.com/search?find_desc=&find_loc=New+York%2C+NY&ns=1
第二个 url "url2" 是这个:https://www.yelp.com/biz/levain-bakery-new-york 里面有联系方式
任何解决方案???
【问题讨论】:
-
requests不要运行 java 脚本,所以你不会得到任何动态内容供 beautifulsoup 解析,使用 selenium 之类的东西而不是请求
标签: python html beautifulsoup tags