发送带有许多查询参数的请求的可读方式是将pass URL parameters作为字典:
params = {
'q': 'minecraft', # search query
'gl': 'us', # country where to search from
'hl': 'en', # language
}
requests.get('URL', params=params)
但是,为了获得您在浏览器中看到的实际响应(输出/文本/数据),您需要发送额外的 headers,更具体地说:user-agent 需要充当“真实”当机器人或浏览器发送虚假的user-agent 字符串以宣布自己为不同的客户端时,用户访问。
您可以在我写的关于 how to reduce the chance of being blocked while web scraping 的博文中了解更多信息。
通过user-agent:
headers = {
'User-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582'
}
requests.get('URL', headers=headers)
online IDE中的代码和示例:
from bs4 import BeautifulSoup
import requests, lxml
headers = {
'User-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582'
}
params = {
'q': 'minecraft',
'gl': 'us',
'hl': 'en',
}
html = requests.get('https://www.google.com/search', headers=headers, params=params)
soup = BeautifulSoup(html.text, 'lxml')
for result in soup.select('.tF2Cxc'):
title = result.select_one('.DKV0Md').text
link = result.select_one('.yuRUbf a')['href']
print(title, link, sep='\n')
或者,您可以使用来自 SerpApi 的 Google Organic API 来实现相同的目的。这是一个带有免费计划的付费 API。
不同之处在于您不必从头开始创建和维护它。
要集成的代码:
import os
from serpapi import GoogleSearch
params = {
"engine": "google",
"q": "tesla",
"hl": "en",
"gl": "us",
"api_key": os.getenv("API_KEY"),
}
search = GoogleSearch(params)
results = search.get_dict()
for result in results["organic_results"]:
print(result['title'])
print(result['link'])
免责声明,我为 SerpApi 工作。