【发布时间】:2019-01-25 06:20:13
【问题描述】:
我正在寻找一种 R 解决方案,以根据与单独文件 (.csv) 中标头 ID 列表的匹配从 FASTA 文件中提取多个序列。
我是 R 新手,正在尝试找到一种方法: 获取一个包含将在 fasta 标头中的字符串的文件
header_ID_strings 文件如下所示: CAP357_2030、CAP357、CAP3571等……
我的 fasta 文件示例如下所示:
CAP357_2030
GTAAAATTAACCCCACTCTGTGTCACTCTAAATTGTACAACTGCAAAGGG
CAP357
GTAAAATTAACCCCACTCTGTGTCACTCTAAATTGTACAACTGCAAAGGGT
CAP3571
GTAAAATTAACCCCACTCTGTGTCACTCTAAATTGTACAACTGCAAAGGGT
CAP357_2040_011wpi_v1v3_1_004_00001_000.2
GTAAAATTAACCCCACTCTGTGTCACTCTAAATTGTACAACTGCAAAGGGT
CAP357_2050_013wpi_v1v3_1_047_00002_000.4
GTAAAATTAACCCCACTCTGTGTCACTCTAAATTGTACAACTGCAAAGGGT
我希望输出一个仅包含 header_ID 序列(在 .csv 中)的新 FASTA 文件,并丢弃我未提供的其他 ID。谢谢
【问题讨论】:
-
我怀疑这是否与一般子集问题不同(因为它是一个 csv 文件)。将文件读入 R 并按 ID 列中的值对其进行子集化。
-
你能澄清一下输出格式,它是在一个连续的字符串中,还是在序列之后有换行符?