【发布时间】:2021-12-06 00:15:02
【问题描述】:
我的 tsv 文件数据如下所示(模拟样本,真实数据有些不同,而且很大),
Group_one James,jaime,jim,jimmy Robert,Rob,bob Samuel,sam
Group_two Richard,rick,dick Rodney,Rod
因此,数据中的第一级是制表符分隔,数据中的第二级是逗号分隔。我要统计每个单元格中的数据
例如, Group_one 4 3 2 Group_two 2 2
(注意:计算不同版本的名称。
我想如下做,
第 1 步:读取中的每一行
第二步:使用split('\t')解析第一级
第三步:使用split(',')解析二级
第四步:使用len()统计第二批列表,使用end=''
导入系统
def main():
name_of_table_file = 'file name here'
with open(name_of_table_file,'rt') as file_name:
file_name_lines = file_name.readlines()
for lines in file_name_lines:
lines=lines.rstrip()
lines = lines.rsplit('\t')
for comma_separated_items in lines:
comma_separated_items = comma_separated_items.rsplit(',')
print(len(comma_separated_items),end='\t')
main()
我想出了以下代码,
问题是数据被打印为,
Group_one
Group_two
43232
代替:
Group_one 4 3 2
Group_two 3 2
(第一级数据中的行没有被维护,我在想 for 会在每行结束后打印到下一行)。
我试图查看是否可以将文件加载到 pandas 数据帧中,使用基于逗号的分隔来计算每个单元格,但在 google,here 上运气不佳。
我该如何解决这个问题?
【问题讨论】:
标签: python-3.x list