【发布时间】:2015-03-18 08:40:18
【问题描述】:
我有以下代码,它使用HTML::TreeBuilder 来解析来自网站的 HTML。
my $urlToSpider = "http://www.yelp.com/biz/selden-standard-detroit";
my $html = get $urlToSpider;
$tree = HTML::TreeBuilder->new;
#print $html;
$tree->parse($html);
print $tree->as_HTML;
在上面的示例中,当我将print $tree->as_HTML 保存到文件时,HTML 结构与原始结构不同,尽管print $html 给出了正确的结构。
为什么模块解析不正确?
【问题讨论】:
-
它如何/什么解析不正确? (您可能不希望我们解析和比较 400kb 的 html?)
-
您不应期望往返转换匹配。你需要它是相同的吗?