【发布时间】:2017-10-08 17:30:09
【问题描述】:
我有一个非常大的 CSV 数据集(9 亿条记录),包含以下格式:
URL | IP | ActivityId
示例数据:
http://google.com/ | 127.0.0.1 | 2
http://google.com/ | 12.3.3.1 | 2
对于这种格式,我希望获取每个 URL 的所有唯一活动。
我尝试创建一个字典,其中键是 URL,值是一组独特的活动。但是,这在性能方面非常失败 - 它耗尽了所有 RAM 并且在时间方面非常缓慢(O(n) 操作)
还有其他更快的方法吗?
【问题讨论】:
标签: python python-2.7 csv pandas scikit-learn