【问题标题】:Best package for scraping HTML with Python from site that needs cookies enabled [closed]从需要启用 cookie 的站点中使用 Python 抓取 HTML 的最佳软件包 [关闭]
【发布时间】:2023-12-04 03:45:01
【问题描述】:
我目前正在使用 Python 3.6 来抓取 URL 文件并搜索某个字符串。运行脚本后,返回的 HTML 表明需要启用 cookie。任何版本的 python 3.x 都不支持 Mechanize 和我发现的所有其他库。有人可以为我指出可以启用 cookie 以便呈现正确 HTML 的库的正确方向吗?
【问题讨论】:
标签:
python
web
web-crawler
urllib2
【解决方案1】:
您可以使用很棒的 requests 包来检索和发送 cookie。
发送 cookie:
cookies = {
cookies_are:'working'
}
requests.get(url, cookies=cookies)
检索 cookie:
r = requests.get(url)
r.cookies #return a dictionary
更多信息请查看requests documentation。希望对您有所帮助!