【发布时间】:2011-04-09 19:53:57
【问题描述】:
我正在使用 Perl。
我有标签,例如:“XYZ_PKM_HTML” 我希望能够提供一个基本网址,例如:www.example.com 以及获取此标记出现的 HTML 页面(不一定是主页,这很容易)。 可能吗?任何想法? (或者已经做了模块,在cpan上看过,有一些有趣的东西,但无法安装)
谢谢,
【问题讨论】:
标签: html perl data-mining web-scraping
我正在使用 Perl。
我有标签,例如:“XYZ_PKM_HTML” 我希望能够提供一个基本网址,例如:www.example.com 以及获取此标记出现的 HTML 页面(不一定是主页,这很容易)。 可能吗?任何想法? (或者已经做了模块,在cpan上看过,有一些有趣的东西,但无法安装)
谢谢,
【问题讨论】:
标签: html perl data-mining web-scraping
MJD 在Higher-Order Perl 中有一个关于编写网络蜘蛛的扩展示例。这是第 4.7 节。见page 187 in Chapter 4。
当然,你也可以试试他提到的WWW::SimpleRobot模块。
【讨论】:
您似乎想要实现一个网站爬虫和一个搜索器。前者通常使用WWW::Mechanize,后者使用HTML::Twig
【讨论】:
在 Perl 中尝试 Web-Scraper。 Web-Scraper module info。 它易于使用,您可以搜索特定的标签或元素并从中获取数据。
【讨论】: