【发布时间】:2018-01-15 14:26:45
【问题描述】:
我有一个大数据集作为 csv (334MB),如下所示。
month, output
1,"['23482394','4358309','098903284'....(total 2.5 million entries)]"
2,"['92438545','23482394',323103404'....(total 2.2 million entries)]"
3,"[...continue
现在,我需要比较一个月的产出百分比与上个月的产出百分比重叠。
例如,当我比较第 1 个月和第 2 个月时,我想得到类似“第 2 个月的输出与第 1 个月有 90% 的重叠”,然后“第 3 个月与第 2 个月有 88% 的重叠”这样的结果
用 Python3 解决这个问题的最佳方法是什么?
【问题讨论】:
-
每个特定月份的值是否唯一且始终为整数?
-
334 MB 将适合普通计算机的 RAM,因此请确保不要过度设计这台计算机。请定义这种重叠:这些总是整数吗? “0”前缀重要吗?它们是独一无二的吗?订单是否相关?请添加一些代码,以展示如何在 python 中比较两个简短的示例字符串。这会让事情变得更容易。
-
@IvanSivak 每个月的值都是唯一的,它们总是整数。
-
如果值是唯一的 - “重叠”是什么意思?
-
@MBo 我的意思是一个月的列表中没有重叠。因此,从这个意义上说,价值是独一无二的。例如,当您比较 month1 和 month2 的值时,会有重叠。
标签: algorithm performance python-3.x string-comparison bigdata