【发布时间】:2013-08-07 12:53:57
【问题描述】:
我想从一个 html 文件中提取所有表格并按以下方式打印它们的内容,每个单元格由\t 分隔,每一行由\n 分隔,每个表格由\n\n 分隔。以下是我的脚本,当我将其更改为 tr 上的 findvalues 时,将整个 tr 作为一个元素插入,我什至尝试了其他方法,例如 findnodes_as_strings ($path),我想将其修改为上述结构。
use strict;
use warnings;
use HTML::TreeBuilder::XPath;
my $tree= HTML::TreeBuilder::XPath->new;
$tree->parse_file( "html.html");
my @values=$tree->findvalues(q{//table//tr//td});
print $_, "\n" foreach(@values);
【问题讨论】:
-
您不使用HTML::TableExtract的原因是什么?
标签: html perl html-table html-tree