【发布时间】:2018-06-28 06:47:23
【问题描述】:
我想从this 网站上抓取一些新闻链接。为此,我的代码是这样的:
from bs4 import BeautifulSoup
import requests
base = "https://www.philstar.com/business/"
page = requests.get(base)
soup = BeautifulSoup(page.text, "html.parser")
li_box = soup.find_all("href")
links = open("News article links.txt", "w+")
for a in li_box:
links.write(base+a['href']+"\n")
问题是,它只能找到登陆页面上显示的大约 15-16 个链接。如果您手动向下滚动到页面底部,您可以看到它加载了更多新闻内容。滚动更多,它将加载更多,依此类推。代码无法执行此“向下滚动以查看更多”部分。我如何抓取所有这些新闻(或者说,前 1000 个)?
【问题讨论】:
-
如果您想坚持使用
requests并仍然从该网页获取所有数据,请使用try manipulating this link according to the query。
标签: python html css web-scraping beautifulsoup