【发布时间】:2015-03-02 18:25:36
【问题描述】:
我有一个 Cassandra 安装,其中包含一个不超过 110k 条记录的表。
我在使用 PDI 5.3(最新版本)查询数据时遇到了很多麻烦。我经常在 Cassandra 方面失去记忆。
尽管我安装 Cassandra 的服务器不是最大的,4Gb RAM 和只有 2 个内核,但我仍然希望能够毫无问题地执行这个简单的任务。
在 cassandra /conf/cassandra-env.sh 中,我已配置:
MAX_HEAP_SIZE="4G"
HEAP_NEWSIZE="200M"
现在我可以查询的最大行数是 80k。 文档建议将 MAX_HEAP_SIZE 设置为机器 RAM 的 1/4。但对我来说,这意味着 1G 并且只有大约 20k 行要查询。
我可以通过在 PDI 中的 Cassandra input 步骤内使用 limit 关键字限制选择来判断我可以查询多少行。
我可以调整任何其他参数以获得更好的性能吗?这是一个开发服务器,在生产中我会期待超过 100 万行的查询。
安装 Cassandra 的服务器:Red Hat Enterprise Linux Server 6.6 版(圣地亚哥)
Cassandra 版本:apache-cassandra-2.1.2
编辑:版本已更新。
【问题讨论】:
-
您运行的是哪个版本的 C*?另外,您为什么要查询如此大量的数据?选择 1M 行是 oom 的好方法,在这个阶段你应该分页。但是,我们确实需要错误日志,我会发布答案,但它更多的是建议而不是解决方案。