【发布时间】:2021-03-30 17:41:07
【问题描述】:
我们的目标是在加权边缘列表形式的 ppi 网络数据集中找到相似的基因。在我们使用图聚类算法之后,我们如何衡量这些聚类的相似性?
我们数据集的示例行:
Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244
提前致谢。
【问题讨论】:
标签: graph cluster-analysis bioinformatics similarity
我们的目标是在加权边缘列表形式的 ppi 网络数据集中找到相似的基因。在我们使用图聚类算法之后,我们如何衡量这些聚类的相似性?
我们数据集的示例行:
Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244
提前致谢。
【问题讨论】:
标签: graph cluster-analysis bioinformatics similarity
调整 rand 指数、Jaccard 相似度、完整性、同质性,这些都是应该给出集群相似度概念的度量。它们都在scipy中实现。
如果您的集群数量不太高,比如不超过 20,我非常喜欢制作 contingency matrix 来分析两个不同的集群结果。
当然,在这些情况下您不会有基本事实,但您仍然可以使用上述所有指标来查找结果之间的相似性。
【讨论】: