【问题标题】:Extract a particular table from multi-table html file using perl [closed]使用 perl 从多表 html 文件中提取特定表 [关闭]
【发布时间】:2012-10-13 20:34:17
【问题描述】:

我有一个包含三个表格的 html 文件。但我只想提取三个表中的一个。我该怎么做?

【问题讨论】:

    标签: perl html-parsing extract


    【解决方案1】:

    您可以使用已知的Perl 模块来执行此操作,例如:

    • LWP
    • WWW::Mechanize
    • HTML::TreeBuilder
    • HTML::TreeBuilder::XPath

    所有人都在http://search.cpan.org

    最后一个 Perl 模块非常有用,你可以使用 Xpath 表达式,例如:

    //table[0]/tr[3]/td[2]/text()
    

    例如,从第一个 table 打印第三个 tr 中第二个 td 元素的文本。

    【讨论】:

      【解决方案2】:

      HTML::Query 是一个很好的提取 HTML 文档部分的模块。

      它提供了一个类似 jQuery 的界面,用于选择要提取文档的哪个部分。

      【讨论】:

      • Mojo::DOM 提供了包括nth-of-type在内的一整套CSS3选择器,这似乎是HTML::Query所缺乏的
      猜你喜欢
      • 2012-04-28
      • 1970-01-01
      • 1970-01-01
      • 2011-04-26
      • 2011-10-16
      • 2011-10-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多