Cassandra 大型 python 查询答案

【问题标题】：Cassandra large python queriesCassandra 大型 python 查询
【发布时间】：2015-02-08 02:03:52
【问题描述】：

我正在使用 python 驱动程序来获取一些时间序列数据。我想将数据放在一个 numpy 数组中。

所以问题是将我得到的 pagedResult 转换为一个 numpy 数组。目前我只做for row in result: out.append(row.price)。由于分页，这非常非常慢。我尝试使用statement = SimpleStatement(select_query, fetch_size=10**6)，但我得到了

cassandra.ReadTimeout: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'data_retrieved': False, 'required_responses': 1, 'consistency': 1}```

如何快速读取大约 10^7 行并将它们放入 numpy？

【问题讨论】：

标签： python numpy cassandra cassandra-2.0 datastax

【解决方案1】：

如果您的数据在多个分区中，您应该异步查询不同的分区。

如果您知道一些界限，您可以一次从不同的副本查询分区的多个切片。

请参阅文档中的以下页面，了解有关通过并行使用异步查询从 python 驱动程序中获得最大性能的建议：

https://github.com/datastax/python-driver/blob/master/docs/performance.rst

【讨论】：