我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因？

【问题标题】：How can we compare graph clustering results to find similar genes in a Protein-Protein Interaction Network?我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因？
【发布时间】：2021-03-30 17:41:07
【问题描述】：

我们的目标是在加权边缘列表形式的 ppi 网络数据集中找到相似的基因。在我们使用图聚类算法之后，我们如何衡量这些聚类的相似性？

我们数据集的示例行：

Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244

提前致谢。

【问题讨论】：

标签： graph cluster-analysis bioinformatics similarity

【解决方案1】：

调整 rand 指数、Jaccard 相似度、完整性、同质性，这些都是应该给出集群相似度概念的度量。它们都在scipy中实现。

如果您的集群数量不太高，比如不超过 20，我非常喜欢制作 contingency matrix 来分析两个不同的集群结果。

当然，在这些情况下您不会有基本事实，但您仍然可以使用上述所有指标来查找结果之间的相似性。

【讨论】：