使用 perl 从多表 html 文件中提取特定表 [关闭]

【问题标题】：Extract a particular table from multi-table html file using perl [closed]使用 perl 从多表 html 文件中提取特定表 [关闭]
【发布时间】：2012-10-13 20:34:17
【问题描述】：

我有一个包含三个表格的 html 文件。但我只想提取三个表中的一个。我该怎么做？

【问题讨论】：

标签： perl html-parsing extract

【解决方案1】：

您可以使用已知的Perl 模块来执行此操作，例如：

LWP
WWW::Mechanize
HTML::TreeBuilder
HTML::TreeBuilder::XPath

所有人都在http://search.cpan.org

最后一个 Perl 模块非常有用，你可以使用 Xpath 表达式，例如：

//table[0]/tr[3]/td[2]/text()

例如，从第一个 table 打印第三个 tr 中第二个 td 元素的文本。

【讨论】：

【解决方案2】：

HTML::Query 是一个很好的提取 HTML 文档部分的模块。

它提供了一个类似 jQuery 的界面，用于选择要提取文档的哪个部分。

【讨论】：

Mojo::DOM 提供了包括nth-of-type在内的一整套CSS3选择器，这似乎是HTML::Query所缺乏的