【问题标题】:Web Crawler issue in perlperl 中的网络爬虫问题
【发布时间】:2014-04-25 06:51:59
【问题描述】:

我用 Perl 构建了一个网络爬虫。

我正在使用

HTML::ContentExtractor

LWP::UserAgent 

HTML::LinkExtor

提取文本表单网页。

示例代码参考链接web cralwer perl

问题:

问题在于它无法从扩展名为 .aspx 的网页中获取文本。 它适用于其他网页。我无法弄清楚为什么这个爬虫在aspx 页面上失败。

【问题讨论】:

  • 页面上有 JavaScript 吗?
  • 是的,那些网页有 Javascript。
  • 不支持javascript。您必须创建 POST 或获取请求
  • 你能建议我怎么做吗?我试过 $ua->post( $url, \%form ) $ua->post( $url, \@form ) 但没用.@run

标签: perl web-crawler libwww-perl


【解决方案1】:

要能够使用 JavaScript 访问网站进程,请使用 WWW::Mechanize::Firefox

【讨论】: