【发布时间】:2012-04-05 00:29:23
【问题描述】:
我正在使用 change.org 并尝试在请愿书上下载几个 cmets。为此,我想知道当用户点击“加载更多原因”时,cmets 是从哪里拉出来的。例如,看这里:
http://www.change.org/petitions/tell-usda-to-stop-using-pink-slime-in-school-food
查看 Chrome 中的 XHR 请求,我看到请求被发送到 http://www.change.org/petitions/tell-usda-to-stop-using-pink-slime-in-school-food/opinions?page=2&role=comments 当然,页码随着 cmets 被加载的次数而变化。
但是,当我在浏览器中尝试此链接时,它会导致一个空白页面。这是因为 url 中缺少一些数据,还是因为 javascript 中的某些身份验证步骤首先发出请求?
任何指针将不胜感激。谢谢!
编辑:感谢第一个响应,我看到当我使用控制台时正在接收数据。从 python 脚本发出请求时如何接收相同的数据。我是有模仿浏览器还是有办法只使用urllib?
【问题讨论】:
标签: python jquery xmlhttprequest screen-scraping web-scraping