【发布时间】:2015-03-25 12:20:38
【问题描述】:
我想将一个大型 CSV 文件加载到我的 cassandra 集群(此时为 1 个节点)。
基于:http://www.datastax.com/dev/blog/using-the-cassandra-bulk-loader-updated
我的数据由 CQLSSTableWriter 转换为 SSTables 文件,然后我使用 SSTableLoader 将该 SSTables 加载到已经包含一些数据的 cassandra 表中。
该 CSV 文件包含各种分区键。
现在假设使用了多节点 cassandra cluser。
我的问题:
1) 在多节点集群的情况下,我使用的加载过程是否正确?
2) SSTable 文件是否会被 SSTableLoader 拆分并发送到负责特定分区键的节点?
谢谢
【问题讨论】:
-
您的 CSV 文件有多大?
-
假设我的 CSV 有 100*10^6 行 - 我的意思是它是一个相当大的文件,不推荐使用 CQLSH COPY 命令(如此处所述:datastax.com/documentation/cql/3.1/cql/cql_reference/…)“COPY FROM用于将小型数据集(几百万行或更少)导入 Cassandra。要导入更大的数据集,请使用 Cassandra 批量加载程序。"
-
我用的是 Cassandra v2.0.11