【发布时间】:2015-03-04 16:51:49
【问题描述】:
我有以下 pandas 代码 sn-p,它读取在我的 .csv 文件的特定列中找到的所有值。
sample_names_duplicates = pd.read_csv(infile, sep="\t",
engine="c", usecols=[4],
squeeze=True)
我文件的那个特定列最多包含 20 个值(样本名称),因此如果我可以动态删除重复项而不是存储它们然后删除重复项,它可能会更快。这是否可以删除以某种方式发现的重复项?
如果没有,有没有办法更快地做到这一点,而不必让用户明确命名她文件中的样本名称是什么?
【问题讨论】: