【发布时间】:2020-02-12 11:00:45
【问题描述】:
我已经建立了我的基因簇,并且已经计算了测量它们的系统发育关系所需的距离。我使用的算法基本上可以衡量基因簇之间的距离,并在数据框中表示,例如(Input Example):
BGC1 BGC2 Distance
------------------------------
BGC31 BGC34 0.6
BGC34 BGC45 0.7
BGC34 BGC53 0.2
BGC53 BGC31 0.8
x <- data.frame(BGC1 = c('BGC31','BGC34','BGC34','BGC35'),
BGC2 = c('BGC34','BGC45','BGC53','BGC51'),
distance = c(0.6,0.7,0.2,0.8))
目标:是否可以仅基于此类数据构建树?我也想为此提供一个 .newick 文件,但我不确定这是否可以使用 R。
但是,我已经能够通过 Cytoscape 从这些数据创建网络可视化,但不可能是一棵树。对这个特定示例有什么进一步的建议吗?
再次感谢您的意见:)
【问题讨论】:
-
我的 R 很弱,但是:我不久前使用 python 的 BioPython 模块
Bio.Phylo.TreeConstruction和DistanceTreeConstructor和DistanceMatrix做到了这一点。将您的距离转换为DistanceMatrix的正确格式,将其转换为树并使用 upgma/nj 绘制树。 -
我也可以尝试使用 python,在这种情况下我只是偏爱 R,但是当您说将距离调整为正确的格式时?这意味着什么?抱歉我对此一无所知
-
来自biopython.org/DIST/docs/api/… :距离矩阵构造函数将名称和矩阵作为参数。这些名称只是您的基因名称的平面列表。矩阵是所有基因与所有基因的下三角格式距离矩阵。
-
@Pallie 是否可以用作此的输入,我在上面的示例中拥有的矩阵?目前我感兴趣的表由这三列组成。
标签: r cluster-analysis bioinformatics phylogeny distance-matrix