【发布时间】:2017-03-08 21:22:03
【问题描述】:
寻求转换具有架构 COL1=INT、COL2=STR、COL3=STR 的 CSV 表:
输入样本
INT1, S1, S2
INT1, S1, S3
INT1, S2, S3
INT2, S1, S2
INT2, S1, S3
INT2, S1, S4
INT2, S2, S3
INT2, S2, S4
INT2, S3, S4
到输出 CSV/表,其中 COL2 或 COL3 中的唯一字符串输出为 COL1,后跟它们出现的唯一 COL1 INT 的列表(在输出表/CSV 的 COL2 中)。
输出 CSV/表格:
S1, [INT1, INT2]
S2, [INT1, INT2]
S3, [INT1, INT2]
S4, [INT2]
【问题讨论】:
-
独特是什么意思?列唯一还是第 2 列和第 3 列唯一?
标签: python csv pandas hive itertools