【问题标题】:Web scraping sites that require javascript support [duplicate]需要javascript支持的网页抓取网站[重复]
【发布时间】:2009-08-11 21:38:53
【问题描述】:

可能重复:
Screen Scraping from a web page with a lot of Javascript

我只想在需要 javascript 支持的网站上执行表单输入和网页抓取等任务。而且我还需要在同一个会话中输入表单、抓取等。理想情况下,我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切,所以我不能使用 .NET。

我找到了 Python 的 webbrowser 库,但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互,那就太棒了。有什么建议么?谢谢!

【问题讨论】:

    标签: javascript webforms screen-scraping beautifulsoup mechanize


    【解决方案1】:
    【解决方案2】:

    您当然可以使用 Mozilla 编写一个 XUL 应用程序(使用 Firefox、Xulrunner 等运行它),它为 Web 浏览器编写脚本。 Javascript 通常用于此类任务。

    我发现棘手的是抑制浏览器会创建的所有类型的对话框 - 您实际上必须覆盖为每种类型的对话框调用的 XPCOM 服务器类的行为,并且有一个许多不同的(例如,如果您的站点决定重定向到具有过期证书的 https 站点)。

    当然,您不应该使用这种机制来违反任何网站关于机器人使用的政策。通常,您永远不应该使用机器人提交表单。

    【讨论】:

    • 以前从不知道 XUL。谢谢,我去看看。
    猜你喜欢
    • 2020-09-16
    • 2020-03-09
    • 2011-07-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多