【发布时间】:2017-02-02 13:48:25
【问题描述】:
我正在创建一个爬取网站、登录帐户并访问用户旅行信息的应用程序。
登录并转到显示旅行卡列表的页面后,我需要单击View journey history 链接。
所以问题出在这里:View journey history 链接只有在加载 Javascript 脚本后才会出现在页面上(我不太确定是哪个)。当我运行我的爬虫脚本并打印此页面时,我可以查看View journey history 链接(因为它会在浏览器上加载 javascript)。但是,当我尝试抓取此页面以查找此链接时,它没有找到它。我的假设是这个 PHP 库没有在后端运行 javascript(一种浏览器端语言)的设施。
在加载和处理完所有 javascript 脚本后,如何返回页面 html?
我正在使用Goutte 进行抓取。这个库使用Symfony BrowserKit,它应该模拟网络浏览器的行为,最好知道它是否有在返回 html 之前处理 javascript 的工具。
我对任何类型的解决方案都持开放态度,这意味着使用不同的库,甚至是不同的编程语言。
提前致谢。
【问题讨论】:
标签: php laravel symfony web-scraping goutte