【发布时间】:2016-01-06 06:53:49
【问题描述】:
谁能告诉我们可以使用复制命令在 cassandra 中有效加载的 csv 文件的最大大小(行数或文件大小)。它有限制吗?如果是这样,将大小文件分解为多个文件并加载是个好主意,或者我们有更好的选择吗?非常感谢。
【问题讨论】:
谁能告诉我们可以使用复制命令在 cassandra 中有效加载的 csv 文件的最大大小(行数或文件大小)。它有限制吗?如果是这样,将大小文件分解为多个文件并加载是个好主意,或者我们有更好的选择吗?非常感谢。
【问题讨论】:
我之前遇到过这个问题......至少对我来说,在任何 datastax 或最大大小的 apache 文档中都没有明确的声明。基本上,它可能仅限于您的 pc/server/cluster 资源(例如 cpu 和内存)。
但是,在 jgong 发现的一篇文章中,here 声明您最多可以导入 10MB。对我来说,大约是 8.5MB。在 cassandra 1.2 here 的文档中,它声明您可以导入几百万行,并且您应该使用 bulk-loader 来处理更重的内容。
总而言之,我确实建议通过多个 csv 文件导入(只是不要让它们太小,以便您不断打开/关闭文件),这样您就可以处理正在导入的数据并更容易发现错误。可能会发生等待一个小时以加载文件失败并重新开始的情况,而如果您有多个文件,则不需要重新开始已经成功导入的文件。更不用说键重复错误了。
【讨论】:
查看 cassandra-9303 和 9302
并查看 brian 的 cassandra-loader
【讨论】: