【问题标题】:Find Tags in website HTML's在网站 HTML 中查找标签
【发布时间】:2011-04-09 19:53:57
【问题描述】:

我正在使用 Perl。

我有标签,例如:“XYZ_PKM_HTML” 我希望能够提供一个基本网址,例如:www.example.com 以及获取此标记出现的 HTML 页面(不一定是主页,这很容易)。 可能吗?任何想法? (或者已经做了模块,在cpan上看过,有一些有趣的东西,但无法安装)

谢谢,

【问题讨论】:

    标签: html perl data-mining web-scraping


    【解决方案1】:

    MJD 在Higher-Order Perl 中有一个关于编写网络蜘蛛的扩展示例。这是第 4.7 节。见page 187 in Chapter 4

    当然,你也可以试试他提到的WWW::SimpleRobot模块。

    【讨论】:

      【解决方案2】:

      您似乎想要实现一个网站爬虫和一个搜索器。前者通常使用WWW::Mechanize,后者使用HTML::Twig

      【讨论】:

      • 首先感谢您的回复。其次,我已经熟悉 Mechanize,但由于我从未真正实现过爬虫,我想知道如何解决它,如何让它通过所有站点链接,而不是其他与站点链接无关的链接(广告和这样的)。另外,如果网站有很多页面,它可能会运行很长时间,有什么建议吗??
      【解决方案3】:

      在 Perl 中尝试 Web-Scraper。 Web-Scraper module info。 它易于使用,您可以搜索特定的标签或元素并从中获取数据。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2022-10-30
        • 2012-02-08
        • 2021-11-17
        • 2013-01-05
        • 1970-01-01
        相关资源
        最近更新 更多