【发布时间】:2015-12-11 23:14:14
【问题描述】:
我正在从事一个涉及蛋白质相互作用网络聚类的项目,已经在相互作用蛋白质的图上制作了几种聚类算法,我对现在如何查看创建的聚类是否是任何 感到有些困惑好或不。
为了说明这一点,蛋白质相互作用网络代表蛋白质之间的成对连接,以及参与相同生物过程或共同执行特定功能的相互作用蛋白质的隔离组。这很重要,因为许多蛋白质和相互作用是未标记的,因此如果某个特定的许多标记蛋白质在一个簇中,则可以推断它们的功能。
与标记数据集可以显示或不显示正确分组数量的典型监督机器学习任务不同,没有先例良好蛋白质聚类及其相互作用,假设所有蛋白质都存在的聚类在它们的一个簇中与所有蛋白质都在一个簇中的簇一样好(尽管这没有信息意义)。当然也没有用于距离计算的特征向量,只有一种蛋白质是否与另一种蛋白质相互作用的二进制信息,所以这非常困难。
这个问题完全是探索性的,很难看出一个聚类是显着还是只是假的。
大多数学术论文都使用聚类分析技术来了解聚类和算法有多好。 IE。它们是否对边缘删除或节点删除、集群相关性等具有鲁棒性。我想看看是否有任何信息可以使用蛋白质数据库捞出,比如输入大量的交互(来自一个集群)并查看标记的那些倾向于参与相同的代谢过程。如果在一个代谢过程中涉及大量蛋白质,则可以推测未标记的蛋白质可能参与类似的过程或功能,或者类似地可能是或不是蛋白质结构域的一部分。
我刚刚开始深入研究生物信息学和一般研究,因此很有可能以前已经做过,而且我没有足够广泛地环顾四周。如果是这种情况,我将不胜感激链接。我会很感激任何可能的帮助,或者关于如何思考这个问题的想法。
【问题讨论】:
标签: bioinformatics protein-database