【发布时间】:2015-01-13 15:49:33
【问题描述】:
我正在使用 python 库请求下载一些网页并在此之后进行一些解析,例如,获取页面的标题。但是,当某些网页上有<noscript> 标签时,请求似乎无法正确下载源代码。
例如,当我尝试获取https://www.coursera.org/course/startup 的来源时,我从请求中获得的来源与使用 Chrome 访问页面不同。获取的源请求与 Chrome 中的查看源选项相同。
那么有没有办法以某种方式“欺骗”<noscript> 标签?或者我需要使用其他东西而不是请求?
【问题讨论】:
-
也许可以尝试将
user agent标头伪装成 Chrome 发送的内容?但是您可能会收到 Javascript,而 Chrome 知道如何运行它(例如,构建带有 Ajax 请求的页面&c)Python 不能,因此您可能需要为此目的“机械化”浏览器。 -
@AlexMartelli 我试图伪造用户代理,但没有成功