【问题标题】:Creating sequence logo for DNA aligned sequences为 DNA 比对序列创建序列徽标
【发布时间】:2018-01-29 15:42:53
【问题描述】:

如何为对齐的 DNA 序列创建序列徽标?对于 Kevin Murphy 书中的给定序列(第 2 章,figure 2.5),我正在使用此wiki_link 导出徽标,但没有得到预期的结果。

DNA 序列:

  1. a t a g c c g g t a c g g c a
  2. t t a g c t g c a a c c g c a
  3. t c a g c c a c t a g a g c a
  4. a t a c c g c g a c c g c a
  5. t t a g c c g c t a g g t a
  6. t a g c c t c g t a c g t a
  7. t t a g c c g t t a c g g c c
  8. a t a t c c g g t a c a g t a
  9. a t a g c a g g t a c c g a a
  10. a c a t c c g t g a c g g a a

【问题讨论】:

  • 你期待什么结果,你得到了什么结果,你的程序的Minimal, Complete, Verifiable Example是什么样的?请注意,尽管标题中有声明,但该 PDF 的图 2.5(b) 中的示例徽标显然不代表 2.5(a) 中显示的序列,因此您不应期望您的程序生成该徽标。文本也不匹配:它说第 7 列都是 G,但实际上该列包含一个 T。显然,这是本书中的一个已知错误。有关更多错误,请参阅cs.ubc.ca/~murphyk/MLbook/errata.html
  • 我已经根据相对频率计算了字符的大小。例如,第 5 个序列具有完全概率的 C,因此,相应的字符应该是序列标识中的大 C。同样,第 13 个位置是一个大 G。但不是第 7 个字符。感谢分享勘误表链接。 :)

标签: bayesian dna-sequence information-theory probability-distribution


【解决方案1】:

如果您不需要开发自己的版本:

有一个python库可以解决这个问题。

https://pypi.python.org/pypi/weblogo

或网页版

http://weblogo.berkeley.edu/logo.cgi

【讨论】:

    【解决方案2】:

    你可以使用上面添加的 weblogo 来做,这里有一些用 python 做的代码

    from Bio.Seq import Seq
    from Bio import motifs
    instances = df['binding'] #just input the list of DNA sequences 
    m = motifs.create(instances)
    m.weblogo('logo.png')
    

    您必须在此处提供实例作为 DNA 序列列表,结果将保存为 logo.png 或者您可以根据需要将 png 更改为 jpeg 或 tiff。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-03-30
      • 2019-08-18
      • 2022-01-23
      • 2014-02-11
      • 2016-02-10
      相关资源
      最近更新 更多