【发布时间】:2017-03-07 19:30:33
【问题描述】:
我有一个包含大约 10.000 个指向在线新闻文章的 URL 的列表。我使用 Requests-library (Python 3.5) 编写了一些代码来抓取这些新闻文章的 html 内容。目标是使用可读性模块检索文章内容并对其进行进一步分析。这在大多数情况下都有效。但是,所有网站都是荷兰语,因此受欧盟政策的约束,他们必须征得同意才能使用 cookie。其中一些,例如http://telegraaf.nl,通过加载一个单独的页面来执行此操作,用户必须在该页面中单击一个按钮。在这种情况下,我可以通过在 header 中传递一个 cookie 来获取正常的文章内容:
import requests
user_agent = 'Mozilla/5.0'
url = 'http://www.telegraaf.nl/dft/geld/werk-inkomen/27740808/__Vechten_om_werk_in_noorden__.html'
cookies_telegraaf = {'TMGCOOKIE': '{%22version%22:%22t3%22}'}
html = requests.get(url, headers={"User-Agent": user_agent}, cookies=cookies_telegraaf)
print(html.content)
这会打印出我需要的 html 内容。问题是,每个站点都需要不同的 cookie。所以我的问题是:有没有办法找出在每个网站的标头中传递的特定 cookie,而无需手动检查浏览器?
感谢您的帮助。
【问题讨论】:
标签: python cookies web-scraping python-requests