在网站 HTML 中查找标签答案

【问题标题】：Find Tags in website HTML's在网站 HTML 中查找标签
【发布时间】：2011-04-09 19:53:57
【问题描述】：

我正在使用 Perl。

我有标签，例如：“XYZ_PKM_HTML” 我希望能够提供一个基本网址，例如：www.example.com 以及获取此标记出现的 HTML 页面（不一定是主页，这很容易）。可能吗？任何想法？（或者已经做了模块，在cpan上看过，有一些有趣的东西，但无法安装）

谢谢，

【问题讨论】：

【解决方案1】：

MJD 在Higher-Order Perl 中有一个关于编写网络蜘蛛的扩展示例。这是第 4.7 节。见page 187 in Chapter 4。

当然，你也可以试试他提到的WWW::SimpleRobot模块。

【讨论】：

【解决方案2】：

您似乎想要实现一个网站爬虫和一个搜索器。前者通常使用WWW::Mechanize，后者使用HTML::Twig

【讨论】：

首先感谢您的回复。其次，我已经熟悉 Mechanize，但由于我从未真正实现过爬虫，我想知道如何解决它，如何让它通过所有站点链接，而不是其他与站点链接无关的链接（广告和这样的）。另外，如果网站有很多页面，它可能会运行很长时间，有什么建议吗？？

【解决方案3】：

在 Perl 中尝试 Web-Scraper。 Web-Scraper module info。它易于使用，您可以搜索特定的标签或元素并从中获取数据。

【讨论】：