【问题标题】:Cassandra large python queriesCassandra 大型 python 查询
【发布时间】:2015-02-08 02:03:52
【问题描述】:

我正在使用 python 驱动程序来获取一些时间序列数据。我想将数据放在一个 numpy 数组中。

所以问题是将我得到的 pagedResult 转换为一个 numpy 数组。 目前我只做for row in result: out.append(row.price)。由于分页,这非常非常慢。我尝试使用statement = SimpleStatement(select_query, fetch_size=10**6),但我得到了

cassandra.ReadTimeout: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'data_retrieved': False, 'required_responses': 1, 'consistency': 1}```

如何快速读取大约 10^7 行并将它们放入 numpy?

【问题讨论】:

    标签: python numpy cassandra cassandra-2.0 datastax


    【解决方案1】:

    如果您的数据在多个分区中,您应该异步查询不同的分区。

    如果您知道一些界限,您可以一次从不同的副本查询分区的多个切片。

    请参阅文档中的以下页面,了解有关通过并行使用异步查询从 python 驱动程序中获得最大性能的建议:

    https://github.com/datastax/python-driver/blob/master/docs/performance.rst

    【讨论】:

      猜你喜欢
      • 2022-08-10
      • 2013-05-15
      • 1970-01-01
      • 2017-09-19
      • 2017-04-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多