【发布时间】:2017-10-19 00:26:04
【问题描述】:
嗨 Stack Overflow 社区。我想我正在尝试用 matplotlib 编写不可能的代码,所以如果有更适合我的不同 python 库,请告诉我!
我有一个蛋白质(蛋白质 x)的完整氨基酸序列(在图像中用大写字母表示)。这将是我的 x 轴。
我有两个 Excel 列:疾病和控制。这些列包含整个蛋白质 x 的氨基酸序列的一部分。有时有多个命中,其中疾病或对照列将包含两个相同的蛋白质 x 氨基酸部分。我希望将它们堆叠在一起,这样人们就可以看到疾病和控制对蛋白质 x 有多少打击。
令人困惑?抱歉,这是我使用 powerpoint 想出的示例。
氨基酸比较
黑色文本是参考序列。紫色是控制。粉红色是病。现在有意义吗?
我需要用一个巨大的数据集来做这件事,所以不,我不想“只用几个小时的 powerpoint”。我也想用我选择的任何参考序列来做。
我不是要求别人为我做我的工作。我需要有人指出我正确的方向。有专门的图书馆吗?我应该将所有内容都转换为数字然后重新标记为文本吗?
谢谢,我很感激任何建议。
【问题讨论】:
-
嗨,亚历克斯。如果您需要对大型数据集进行序列比对分析,您可以尝试使用 Biopython 生物信息学包 (biopython.org/wiki/AlignIO) 进行序列比对。对于可视化,我不确定 Python 是否有专为满足您的特定需求而设计的工具。 Matplotlib 是一个非常灵活的工具,可用于重现您的示例图,但拥有示例数据和您迄今为止尝试过的代码会很有帮助。
-
您的“疾病”和“控制”列到底是做什么的?除非您遗漏了巨大的比对细节,或者列的大小与 X 的长度相同,并且与其中的每个氨基酸一一对应,否则您所说的一切都没有意义。 @Brian,他不是在解释这些列与 X 的长度不是一对一的,而是它们自己的单个序列?
-
感谢您迄今为止的帮助和建议。是的,我还需要弄清楚如何将疾病和控制列的每一行与蛋白质 x 的序列对齐。疾病和控制列的行包含长度在 5-15 个字母之间的序列,这些序列应该与蛋白质 x 的一部分完美对齐(这在图像中显示为紫色和粉红色)。我想我可以使用 biopython 做到这一点,但很难想象我将如何可视化对齐的数据。
-
对于自定义图形,我有时会使用python以编程方式生成TikZ代码。不过,这可能会导致 pdf 文件很大。
标签: python pandas matplotlib bioinformatics