【发布时间】:2015-04-27 07:58:01
【问题描述】:
我有两个 fasta 文件。 每个文件都包含具有特定物种的已知 SNP 的大鼠或小鼠中短基因组区域的序列。
File_1 :
>Rat_1
GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Rat_2
AAGCGGCCGGTTTCCTTGGCGACGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Rat_3
GCAGCCATCTCTGCAACAATTGTGACAATGGCTGAGCCTAGCACAGACCCCAACAAAGAT
File_2 :
>Mouse_1
GGTGCCTGTGTATTACCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Mouse_1_2
AAGCGGCCGGTTTCCTTGGCGTCGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Mouse_1_3
GCAGCCATCTCTGCAACAATTGTGACAATGGTTGAGCCTAGCACAGACCCCAACAAAGAT
我要做的是找到 SNP 并在它周围提取大约 20 个碱基。 结果应如下所示...
Resut_file :
>Rat_1
CTGTGTATTGCCTCTGTC
^
>Mouse_1
CTGTGTATTACCTCTGTC
^
编程高手请赐教!!!
谢谢。
【问题讨论】:
-
这不是一个具体的编程问题,你基本上是想让我们写你的程序。另外,我们甚至不知道 SNP 是什么,因此很难找到它。
标签: linux dna-sequence