【发布时间】:2019-12-27 00:14:26
【问题描述】:
从事一个项目以自动搜索数千个谷歌搜索,并能够检查是否“未找到结果”并输入到数组中。
使用 BeautifulSoup,但我无法通过从 URL 导入 HTML 开始:
from bs4 import BeautifulSoup
import requests
html = requests.get('www.lifehack.org')
soup = BeautifulSoup(html,'html.parser')
软件包安装正常,但出现错误:
MissingSchema Traceback (most recent call last)
<ipython-input-28-8e881302fa25> in <module>
1 from bs4 import BeautifulSoup
2 import requests
----> 3 html = requests.get('www.lifehack.org')
4 soup = BeautifulSoup(html,'html.parser')
C:\Program Files (x86)\Anaconda\lib\site-packages\requests\api.py in get(url, params, **kwargs)
73
74 kwargs.setdefault('allow_redirects', True)
+很多类似的东西
我不确定如何解决这个问题。我希望能够快速将 HTML 直接导入程序,而不必复制并保存在本地 HTML 文件中
任何帮助将不胜感激,谢谢。
【问题讨论】:
-
您“搜索搜索”数以千计?谷歌搜索?您是否考虑过使用 Google 的 API?如果没有 API,我通常会使用 BeautifulSoup 来为一件特定的事情提取数据。您的问题可能与链接相关的重复。你在使用 Python 3 吗? stackoverflow.com/questions/17309288/…
-
正如@Ant 提到的那样,如果您尝试自动化 Google 搜索结果,您迟早会被 Google 阻止 IP,因为它违反了 ToS。看看 GoogleSearch API。
标签: python web-scraping beautifulsoup google-search-api