【发布时间】:2010-12-22 17:59:17
【问题描述】:
我正在尝试从名为 mirdeep 的程序解析 html 输出文件。我已经将脚本提取到了将数据提取到数组数组中的地步,并且我正在尝试从相应的列中提取我想要的特定信息。出于某种奇怪的原因,我不断得到本不应该出现的输出。
基本上它应该从 mirdeep AND 检测到的 mirbase miRNA 和未检测到的 mirbase miRNA 中提取计数,但不理会统计表和新部分。
但是,当前为未检测部分提取的计数奇怪地存储不正确。 (由于它们的输出方式,一些所谓的“明星”和“成熟”数据被放在不同的行而不是在同一行,所以我试图重新组合它们。我相当肯定重组中的错误是问题的根源。
我正在使用打印语句检查我的进度,并注意到一些应该只有成熟计数或星计数的数据两者都有,并且第二个数字似乎总是等于行的成熟计数下面在html文件中,这对我来说没有意义。有人可以帮我找出问题所在吗?这是我第一次广泛使用面向对象的包,所以这里可能会有任何错误。
Heres the script and an example data file
刚刚创建了一个帐户,由于某种原因我无法安装 HTML::TableExtract;
运行 make install make test 已返回错误状态,不会强制安装 在此命令期间失败:GAAS/HTML-Parser-3.68.tar.gz :make_test NO MSISK/HTML-TableExtract-2.10.tar.gz : make_test NO
似乎我的 perl 安装很糟糕,我试图使用 bioperl,出于某种原因,流浪汉使用 fink,它安装了 perl 的 OWN 副本,而不是为 perl 的主系统安装提供库。有人知道如何使 fink 与主要的 MAC perl 安装(和 cpan)一起玩吗?当我使用主 perl 时,它可以工作,但我无法将模块安装到较旧的 fink perl,我必须使用它来访问 bioperl。是不是很棒。
附:对此最困扰我的事情是,它并没有发生在每个数据项上,而且它发生的主要是那些一开始就不应该获得两个值的数据项。它似乎有点伪随机,但具有确定性,因为它每次都发生在相同的项目上。
【问题讨论】:
-
您需要双 tgz 脚本而不是使用 pastebin?
-
@Wooble:HTML 中有 5190 行 (673 KiB); Perl (15 KiB) 中的 613 行。使用 gzip 可能不是一个坏主意(尤其是对于 HTML)。两个已压缩的 tar 文件的 tar 的外部 gzip 可能不是必需的。相对路径名可能也不是必需的(但 GNU Tar 忽略了 '../' 部分)。
-
将
use strict; use warnings;添加到代码顶部会发生什么?
标签: perl