【发布时间】:2018-01-29 15:42:53
【问题描述】:
如何为对齐的 DNA 序列创建序列徽标?对于 Kevin Murphy 书中的给定序列(第 2 章,figure 2.5),我正在使用此wiki_link 导出徽标,但没有得到预期的结果。
DNA 序列:
- a t a g c c g g t a c g g c a
- t t a g c t g c a a c c g c a
- t c a g c c a c t a g a g c a
- a t a c c g c g a c c g c a
- t t a g c c g c t a g g t a
- t a g c c t c g t a c g t a
- t t a g c c g t t a c g g c c
- a t a t c c g g t a c a g t a
- a t a g c a g g t a c c g a a
- a c a t c c g t g a c g g a a
【问题讨论】:
-
你期待什么结果,你得到了什么结果,你的程序的Minimal, Complete, Verifiable Example是什么样的?请注意,尽管标题中有声明,但该 PDF 的图 2.5(b) 中的示例徽标显然不代表 2.5(a) 中显示的序列,因此您不应期望您的程序生成该徽标。文本也不匹配:它说第 7 列都是 G,但实际上该列包含一个 T。显然,这是本书中的一个已知错误。有关更多错误,请参阅cs.ubc.ca/~murphyk/MLbook/errata.html。
-
我已经根据相对频率计算了字符的大小。例如,第 5 个序列具有完全概率的 C,因此,相应的字符应该是序列标识中的大 C。同样,第 13 个位置是一个大 G。但不是第 7 个字符。感谢分享勘误表链接。 :)
标签: bayesian dna-sequence information-theory probability-distribution