【发布时间】:2016-03-25 18:57:47
【问题描述】:
我有一个 .vcf 文件,其中
column1 = chrom
column2 = pos
column3 = ID
column4 = reference
column5 = Alt
column6 = qual
column7 = filter
column8 = info
column9 = format
column 10 - 99 = 100 columns that have a number of either zero or one
我在文件中读到:
#!/usr/bin/env python
import pandas as pd
vcf=open('/Users/cmdb/Desktop/Lab6_GWAS/variants.vcf', 'r')
并且有这个不应该使用的
for line in vcf:
fields=line.strip().split()
A01=fields[9]
A02=fields[10]
A03=fields[11]
但是,这会花费太长时间,因为我想保存所有那些 零 和 1,以便稍后通过 Python 运行 PCA 分析。 PCA(主成分分析)。我想使用pandas,但不确定如何为这么多列做到这一点。
【问题讨论】: