【发布时间】:2014-10-09 03:06:54
【问题描述】:
假设,我们有以下 HTML 文件:
test.htm
<!DOCTYPE html>
<html>
<head>
<title>test</title>
</head>
<body>
<b>weight:</b> 120kg<br>
<b>length:</b> 10cm<br>
</body>
</html>
如何从中获取以下数据?
{
'weight' => '120kg',
'length' => '10cm',
}
parser.pl
#!/usr/bin/perl
use strict;
use warnings;
use utf8;
use HTML::TreeBuilder;
my $root = HTML::TreeBuilder->new;
$root->parse_file('test.htm');
#what to do here?
$root->delete( );
【问题讨论】:
-
@MiguelPrz 会有什么好处?
-
恕我直言,这是一个
scraping task,您应该使用易于抓取的工具:例如:Web::Scraper 或Mojo::DOM。 HTML::TreeBuilder 级别太低。 -
@jm666 我以前从未使用过它们。会试试的,谢谢。
标签: perl html-parsing