【问题标题】:Export data from Cassandra query to a file将数据从 Cassandra 查询导出到文件
【发布时间】:2016-06-21 09:42:32
【问题描述】:

我有 x GB(x 从 25-40 GB 不等)的日常数据,这些数据位于 cassandra 中,我想将其导出到文件中。所以,我遇到了这个SO link。使用它您可以导出具有如下格式的查询数据:

select column1, column2 from table where condition = xy

所以,我在 cron 作业中安排了相同的方法。但是由于大量的数据进程在写入文本文件时被杀死。那么,在给定查询格式的情况下,还有哪些其他选项可以导出海量数据。

【问题讨论】:

  • 如果写入文件的大量数据真的是问题所在,那么您的问题没有解决方案,因为任何建议的解决方案都会写入相同数量的数据.当您尝试写入文件时,究竟会发生什么?

标签: cassandra crontab cassandra-2.0 datastax cqlsh


【解决方案1】:

是否考虑过使用 Spark 检索和处理您的数据?如果您使用 Datastax,您可以将此作为安装的一部分 (DSE Analytics)。使用 Spark,您应该能够从 C* 实例中读取数据并将其写入文本文件,而不受直接 CQL 语句的限制。

【讨论】:

    【解决方案2】:

    看看下面的 python 脚本,您可以在其中使用 scralling 来从 cassandra 中获取大量数据而不会超时。 query = "SELECT * FROM table_name",statement = SimpleStatement(query, fetch_size=100),results=session.execute(statement),for user_row in session.execute(statement):,for rw in user_row:,这适用于我非常有效率。我没有提到 cassandra 连接,我想我们可以很容易地在 python 中获取 cassandra 连接的代码。

    【讨论】:

      猜你喜欢
      • 2015-09-01
      • 2015-01-10
      • 1970-01-01
      • 1970-01-01
      • 2016-11-27
      • 1970-01-01
      • 2014-09-13
      • 2014-05-30
      • 2018-03-30
      相关资源
      最近更新 更多