【发布时间】:2008-10-10 07:46:52
【问题描述】:
虽然据我所见,HTML Scraping 有很好的文档记录,并且我了解它的概念和实现,但是从隐藏在身份验证表单后面的内容中进行抓取的最佳方法是什么。我指的是从我合法有权访问的内容中抓取,因此我正在寻找一种自动提交登录数据的方法。
我能想到的只是设置一个代理,从手动登录中捕获吞吐量,然后设置一个脚本来欺骗该吞吐量,作为 HTML 抓取执行的一部分。就语言而言,它可能会在 Perl 中完成。
有没有人有这方面的经验,或者只是一般的想法?
编辑 这是answered before,但使用.NET。虽然它验证了我认为应该如何完成,但是否有人有 Perl 脚本来执行此操作?
【问题讨论】:
标签: screen-scraping