【发布时间】:2011-05-29 03:46:15
【问题描述】:
我有一个大约 1GB 大的 CSV 文件,包含大约 5000 万行数据,我想知道将其保存为 CSV 文件还是将其存储为某种形式的数据库更好。我对 MySQL 了解不多,无法争论为什么我应该使用它或其他数据库框架,而不是将其保存为 CSV 文件。我基本上是在使用这个数据集进行广度优先搜索,所以一旦我获得了初始的“种子”设置 5000 万,我将其用作队列中的第一个值。
谢谢,
【问题讨论】:
-
每行大约 21.5 个字节。有哪些领域?请确认只有一种类型的数据记录。请解释一下“”“我基本上是在用这个数据集做一个广度优先搜索,所以一旦我得到了最初的“种子”设置 5000 万,我就用它作为我队列中的第一个值。“”“
-
“这取决于”您对数据的处理方式。提供更多信息以获得更好/有用的答案。
-
@John 实际上它现在应该更小了,因为在我使用标签进行测试之前,直到我意识到我可以在 MATLAB 中对数据进行一些操作。我对数据所做的事情是,我已经从 Twitter 列出了 1000 个用户 ID 的列表,称为 L1,它的副本称为 L2。然后我使用 L1 创建一个社交图谱,从该列表中获取一个用户,查找他的所有朋友,并将其附加到列表中。我对 L1 中的其他 999 个用户也这样做。然后从 L1 中删除 1000 个用户和重复项,然后将它们发送到 L2,并删除重复项。然后用新的 L1 重复。感谢您的帮助。
标签: python mysql database optimization csv