【问题标题】:scrape external website that requires javascript being triggered抓取需要触发 javascript 的外部网站
【发布时间】:2018-08-17 21:59:49
【问题描述】:

由于phantomjs被废弃了,想知道有没有替代方法。例如chrome-webdriver 不是一个好的解决方案,因为它无法在 heroku 等远程主机上运行。

那么,是否有可能以某种方式抓取需要首先触发 javascript 的外部网站?请注意,应该可以从 nodejs 应用程序运行它。

【问题讨论】:

    标签: javascript node.js selenium-webdriver heroku web-scraping


    【解决方案1】:

    我正准备为你整理一些东西,然后我想得更好,然后用谷歌搜索了它。查看此构建脚本;它似乎准确地回答了你的问题。

    https://github.com/stomita/heroku-buildpack-phantomjs

    设置一个 git 分支并在必要时将其拉到本地,但这应该可以。基本上,您需要下载二进制文件,然后远程运行并运行“heroku run 'phantomjs'”或“heroku run 'bin/phantomjs'”

    【讨论】:

    • 我已经更新了我的问题,因为我刚刚意识到 phantomjs 已暂停。
    猜你喜欢
    • 2011-07-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-07
    • 2017-08-16
    相关资源
    最近更新 更多