【发布时间】:2013-08-14 08:50:25
【问题描述】:
使用 CQL 中提供的COPY 命令将大型 csv 文件导入 Cassandra 表时,有时会出现某些字段输入错误,从而导致如下错误:
Bad Request: line 1:1033 no viable alternative at input ','
Aborting import at record #277561 (line 277562). Previously-inserted values still present.
277561 rows imported in 8 minutes and 20.296 seconds.
识别并修复错误输入的字段后,接下来就是将 csv 文件的其余部分移植到表中。我能知道有没有好方法来恢复以前中止的 COPY 以便以前插入的行不会再次重新插入?或者,是否可以从csv文件的指定行而不是csv文件的开头执行COPY?
【问题讨论】:
-
为什么不删除你知道你已经插入的行?
-
因为csv文件很大,编辑和存储需要很长时间:(
-
检查csvfix。它可以将指定行之后的所有行删除到一个单独的文件中,听起来对你很有用。
-
试过 csvfix,但还是很慢 :~