【发布时间】:2019-03-05 02:47:30
【问题描述】:
我想抓取网页https://www.quora.com/topic/Stack-Overflow-4/all_questions下的前200个问题的标题。我尝试了以下代码:
import requests
from bs4 import BeautifulSoup
url = "https://www.quora.com/topic/Stack-Overflow-4/all_questions"
print("url")
print(url)
r = requests.get(url) # HTTP request
print("r")
print(r)
html_doc = r.text # Extracts the html
print("html_doc")
print(html_doc)
soup = BeautifulSoup(html_doc, 'lxml') # Create a BeautifulSoup object
print("soup")
print(soup)
它给了我一条短信https://pastebin.com/9dSPzAyX。如果我们搜索href='/,我们可以看到 html 确实包含一些问题的标题。但是,问题是数量不够;实际上在网页上,用户需要手动向下滚动以触发额外加载。
有谁知道我如何模仿程序“向下滚动”以加载更多页面内容?
【问题讨论】:
标签: python web-scraping python-requests