【问题标题】:Looking at the results of clustering algorithms on Protein Interaction Networks查看蛋白质交互网络上聚类算法的结果
【发布时间】:2015-12-11 23:14:14
【问题描述】:

我正在从事一个涉及蛋白质相互作用网络聚类的项目,已经在相互作用蛋白质的图上制作了几种聚类算法,我对现在如何查看创建的聚类是否是任何 感到有些困惑好

为了说明这一点,蛋白质相互作用网络代表蛋白质之间的成对连接,以及参与相同生物过程或共同执行特定功能的相互作用蛋白质的隔离组。这很重要,因为许多蛋白质和相互作用是未标记的,因此如果某个特定的许多标记蛋白质在一个簇中,则可以推断它们的功能。

与标记数据集可以显示或不显示正确分组数量的典型监督机器学习任务不同,没有先例良好蛋白质聚类及其相互作用,假设所有蛋白质都存在的聚类在它们的一个簇中与所有蛋白质都在一个簇中的簇一样好(尽管这没有信息意义)。当然也没有用于距离计算的特征向量,只有一种蛋白质是否与另一种蛋白质相互作用的二进制信息,所以这非常困难。

这个问题完全是探索性的,很难看出一个聚类是显着还是只是假的。

大多数学术论文都使用聚类分析技术来了解聚类算法有多好。 IE。它们是否对边缘删除或节点删除、集群相关性等具有鲁棒性。我想看看是否有任何信息可以使用蛋白质数据库捞出,比如输入大量的交互(来自一个集群)并查看标记的那些倾向于参与相同的代谢过程。如果在一个代谢过程中涉及大量蛋白质,则可以推测未标记的蛋白质可能参与类似的过程或功能,或者类似地可能是或不是蛋白质结构域的一部分。

我刚刚开始深入研究生物信息学和一般研究,因此很有可能以前已经做过,而且我没有足够广泛地环顾四周。如果是这种情况,我将不胜感激链接。我会很感激任何可能的帮助,或者关于如何思考这个问题的想法。

【问题讨论】:

    标签: bioinformatics protein-database


    【解决方案1】:

    如果我理解您的问题:您想知道您的聚集蛋白质相互作用网络是否识别出生物学相关的蛋白质复合物...

    我可以想到三种方法来做到这一点:

    1) 使用主要研究文献。获取一个集群并在 Pubmed 中搜索集群的每个成员,看看是否有任何与集群其他成员交互的报告。这将是耗时的,但也是最严格的。

    2) 将每个聚类提交给 GO 术语富集分析(David、funcassociate 等)或 Pathway 分析 (Kegg)。如果一个集群是“生物”相关的,它应该针对特定的 GO/Kegg 术语进行丰富。这只有在您的大多数蛋白质都有注释时才有效。

    3) 查看表达式数据。生物复合物往往具有相关的基因表达模式。在那里,一个集群的表达应该与它的成员相关,而不是与集群的非成员相关。

    我想到了第四个:

    4) 在具有丰富而深入的注释数据库的生物体中查找同源物,并在那里寻找相关性(酵母(S. cerevisiae 或 S. pombe*)、苍蝇(D. melanogaster )、蠕虫(C elegans)、小鼠和人类都有大型蛋白质相互作用数据库(即 Biogrid)。

    还有第五个:

    5) 使用基因筛选数据。在这种情况下,遗传上位性数据将在复合体中具有不同的关系。同一复合物中的蛋白质往往不会发生遗传相互作用。虽然单独/独立作用的复合物中的蛋白质可能具有遗传相互作用成分。请参阅 Charles Boone 博士(多伦多大学)关于如何对其进行建模的工作。

    最后的想法:

    一点点特定领域的知识将大大有助于帮助其他人相信您的结果。众所周知/研究过的复合体是否形成集群?在这个领域已经做了很多工作,Pubmed 将成为你的朋友。从 Biogrid 开始,然后从那里开始锻炼。

    祝你好运

    【讨论】:

    • 这真的很晚了,但非常感谢你,尤其是你友好的指点,通常我会因为不了解足够的生物学来理解这些术语而受到抨击,但你还没有这样做。最初我接受了您的 1-2 条建议,然后转到 3 条,最后是 4 条进行另一项不相关的工作。
    猜你喜欢
    • 1970-01-01
    • 2021-03-30
    • 2022-07-14
    • 1970-01-01
    • 2013-09-24
    • 2012-12-04
    • 1970-01-01
    • 2020-07-01
    • 2014-07-10
    相关资源
    最近更新 更多