【发布时间】:2019-09-19 00:38:43
【问题描述】:
当我尝试获取网页上的链接时,bs4 不会捕获整个链接,它会在 **?ref**.... 之前停止。
我将通过代码解释问题:
imdb_link = "https://www.imdb.com/chart/top?ref_=nv_mv_250"
site = requests.get(imdb_link)
soup = BeautifulSoup(site.text,'lxml')
for items in soup.find("table",class_="chart").find_all(class_="titleColumn"):
link = items.find("a").get('href')
print(link)
输出是:
/title/tt0111161/
/title/tt0068646/
/title/tt0071562/
/title/tt0468569/
/title/tt0050083/
/title/tt0108052/
/title/tt0167260/
...and so on..
但这是错误的,正如您通过查看网页所看到的那样,因为它可能是:
/title/tt0111161/?ref_=adv_li_tt
/title/tt0068646/?ref_=adv_li_tt
...and so on...
如何获取整个链接?我的意思也是?ref_=adv_li_tt?
我使用 Python 3.7.4
【问题讨论】:
标签: python-3.x web-scraping beautifulsoup