perl 中的网络爬虫问题

【问题标题】：Web Crawler issue in perlperl 中的网络爬虫问题
【发布时间】：2014-04-25 06:51:59
【问题描述】：

我用 Perl 构建了一个网络爬虫。

我正在使用

HTML::ContentExtractor

LWP::UserAgent 

HTML::LinkExtor

提取文本表单网页。

示例代码参考链接web cralwer perl

问题：

问题在于它无法从扩展名为 .aspx 的网页中获取文本。它适用于其他网页。我无法弄清楚为什么这个爬虫在aspx 页面上失败。

【问题讨论】：

页面上有 JavaScript 吗？
是的，那些网页有 Javascript。
不支持javascript。您必须创建 POST 或获取请求
你能建议我怎么做吗？我试过 $ua->post( $url, \%form ) $ua->post( $url, \@form ) 但没用.@run

标签： perl web-crawler libwww-perl

【解决方案1】：

要能够使用 JavaScript 访问网站进程，请使用 WWW::Mechanize::Firefox

【讨论】：

猜你喜欢

CUDA Vision Studio 内核问题 2025-11-21
使用 Eclipse 测试 PhoneGap 应用程序时不断收到“发生网络错误” 2025-11-21
ASP.NET 中的 SVN 与 Ankh 的日常使用基础知识 2025-11-21
产品价格的数据库设计取决于一天中的时间 2025-11-21
jQuery 元素 .index() 在不同容器中的位置 2025-11-21
Firefox iframe 中的 CSP 标头在具有动态内容的整个页面上工作 2025-11-21
使用索引同时从 numpy 2D 数组的行中减去多个值 2025-11-21
在 jsf 2.0 中创建菜单栏 2025-11-21
在项目生命周期中使用 Fortify Tool 1970-01-01
生成签名的 apk 时出现 DexArchiveMergerException 2025-11-21

相关资源

智睿网络投票评选管理系统 v10.8.8下载 2023-06-29

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式