【问题标题】:How to do decimal encoding of DNA sequences (dataset)?如何对 DNA 序列(数据集)进行十进制编码?
【发布时间】:2014-09-30 23:16:05
【问题描述】:

我需要对我以 FASTA 格式下载的 DNA 序列(核苷酸)序列执行 K 均值聚类和层次聚类。所以在执行聚类之前,我需要对 bases(a,t,c,g) 进行十进制编码.. 那么怎么做.. 这样我就可以在 MATLAB 中以矩阵形式获取这个输入?。

【问题讨论】:

  • 你有 Matlab 的生物信息学工具包吗?它可以直接加载FASTA。
  • 是的先生,我有 MATLAB 生物信息学工具包,但是为了执行 kmeans 聚类,我不需要数值数据.. 为此我需要将 a、c、t、g 转换为十进制值.. 如何这样做.. 还是直接加载 FASTA 文件我可以对这些 fasta 文件执行聚类?

标签: k-means hierarchical-clustering dna-sequence


【解决方案1】:

使用 nt2int 函数。相关文档如下:

http://www.mathworks.com/help/bioinfo/ref/nt2int.html

【讨论】:

    猜你喜欢
    • 2016-09-21
    • 1970-01-01
    • 2014-10-09
    • 2018-02-22
    • 2014-02-04
    • 1970-01-01
    • 2016-07-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多