【发布时间】:2015-06-14 08:47:00
【问题描述】:
我正在尝试提取与“tablehead1”类对应的
< td class="tablehead1"> Market < /td >
在解析时,我得到了整个 html 文件中存在的
我在下面的代码中哪里出错了?
use HTML::TokeParser;
open(DATA,"<KeyStats.html") or die "Can't open data";
my $p = HTML::TokeParser->new(*DATA);
while (my $token = $p->get_tag('td')) {
my $url = $token->[1]{class} || "tablehead1";
my $text = $p->get_trimmed_text("/td");
if (length($text)<30&&length($text)>0) { print "$text\n"; }
}
【问题讨论】:
-
另外
length($text)<30&&length($text)>0是可憎的。我所知道的不乏空格字符。加上$text and (length($text) < 30)好多了。
标签: html perl html-parsing