【发布时间】:2019-03-12 22:47:32
【问题描述】:
我有多个通过标记代码生成的 csv 文件。这些文件包含大写和小写的关键字。我想将所有这些文件合并到一个数据框中,其中包含所有小写的唯一值(总和)。你会建议什么来得到下面的结果?
初始 DF:
+---+---+----+-----+
| a | b | A | B |
+---+---+----+-----+
| 1 | 2 | 3 | 1 |
| 2 | 1 | 3 | 1 |
+---+---+----+-----+
结果
+---+---+
| a | b |
+---+---+
| 4 | 3 |
| 5 | 2 |
+---+---+
我无权访问创建 csv 文件的原始数据,因此我无法在前面的步骤中更正此问题。目前我已经尝试将 .lower() 映射到我创建的数据帧标题,但它返回具有相同名称的单独列,如下所示:
使用 pandas 不是必需的。我曾想过将 csv 文件转换为字典,然后尝试上述过程(结果比我想象的要复杂得多),或者使用列表。此外, group by 不会完成这项工作,因为它会删除不重复的列名。欢迎任何方法。
【问题讨论】:
标签: python pandas dataframe tokenize