【发布时间】:2012-10-13 20:34:17
【问题描述】:
我有一个包含三个表格的 html 文件。但我只想提取三个表中的一个。我该怎么做?
【问题讨论】:
标签: perl html-parsing extract
我有一个包含三个表格的 html 文件。但我只想提取三个表中的一个。我该怎么做?
【问题讨论】:
标签: perl html-parsing extract
您可以使用已知的Perl 模块来执行此操作,例如:
LWPWWW::MechanizeHTML::TreeBuilderHTML::TreeBuilder::XPath最后一个 Perl 模块非常有用,你可以使用 Xpath 表达式,例如:
//table[0]/tr[3]/td[2]/text()
例如,从第一个 table 打印第三个 tr 中第二个 td 元素的文本。
【讨论】:
HTML::Query 是一个很好的提取 HTML 文档部分的模块。
它提供了一个类似 jQuery 的界面,用于选择要提取文档的哪个部分。
【讨论】:
nth-of-type在内的一整套CSS3选择器,这似乎是HTML::Query所缺乏的