【发布时间】:2011-07-19 09:27:57
【问题描述】:
我有一个应用程序可以将数十亿条记录写入 Cassandra 并按键删除重复项。然后它在连续的阶段按其他字段(例如标题)对它们进行分组,以便可以对相似记录组进行进一步处理。该应用程序分布在一组机器上,因为我需要它在合理的时间(几小时而不是几周)内完成。
应用程序的一个阶段是使用 hector 客户端将记录写入 Cassandra,并将记录存储在列族中,并使用记录的主键作为 Cassandra 键。时间戳设置为记录的最后更新日期,因此我只能获取每个键的最新记录。
后期阶段需要从 Cassandra 中读回所有内容,对记录执行一些处理,并使用各种其他键将记录添加回不同的列族,以便对记录进行分组。
我通过使用 Cassandra.Client.describe_ring() 来确定环中的哪台机器是哪个 TokenRange 的主机,从而完成了这个批量读取。然后,我将每个 TokenRange 的 master 与 localhost 进行比较,以找出本地机器拥有哪些令牌范围(远程读取对于这种类型的批处理来说太慢了)。一旦我知道本地每台机器上有哪些 TokenRanges,我就会使用 Cassandra.Client.describe_splits() 获得均匀大小的分割。
一旦我有一堆可以从本地 Cassandra 实例读取的大小均匀的拆分,我就开始尽可能快地使用 Cassandra.Client.get_range_slices() 和 ConsistencyLevel.ONE 读取它们,这样就不需要了进行任何远程读取。我一次获取 100 行,依次遍历整个 TokenRange(我尝试了各种批量大小,100 似乎最适合这个应用程序)。
这一切都在 Cassandra 0.7.0 上运行良好,只需稍微调整内存大小和列族配置。以这种方式,我每秒可以读取 4000 到 5000 条记录,并使本地磁盘尽可能地工作。
这是我在 Cassandra 0.7.0 下看到的拆分示例和速度:
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 20253030905057371310864605462970389448 : 21603066481002044331198075418409137847
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 21603066481002044331198075418409137847 : 22954928635254859789637508509439425340
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 22954928635254859789637508509439425340 : 24305566132297427526085826378091426496
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 24305566132297427526085826378091426496 : 25656389102612459596423578948163378922
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 25656389102612459596423578948163378922 : 27005014429213692076328107702662045855
10/12/20 20:13:08 INFO m4.BulkCassandraReader: split - 27005014429213692076328107702662045855 : 28356863910078000000000000000000000000
10/12/20 20:13:18 INFO m4.TagGenerator: 42530 records read so far at a rate of 04250.87/s
10/12/20 20:13:28 INFO m4.TagGenerator: 90000 records read so far at a rate of 04498.43/s
10/12/20 20:13:38 INFO m4.TagGenerator: 135470 records read so far at a rate of 04514.01/s
10/12/20 20:13:48 INFO m4.TagGenerator: 183946 records read so far at a rate of 04597.16/s
10/12/20 20:13:58 INFO m4.TagGenerator: 232105 records read so far at a rate of 04640.62/s
当我升级到 Cassandra 0.7.2 时,我不得不重新构建配置,因为有一些新选项等,但我小心翼翼地尝试从 0.7.0 配置中获取所有相关的调整设置工作。但是,使用新版本的 Cassandra,我每秒几乎无法读取 50 条记录。
这是我现在在 Cassandra 0.7.2 下看到的拆分和速度示例:
21:02:29.289 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 50626015574749929715914856324464978537 : 51655803550438151478740341433770971587
21:02:29.290 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 51655803550438151478740341433770971587 : 52653823936598659324985752464905867108
21:02:29.290 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 52653823936598659324985752464905867108 : 53666243390660291830842663894184766908
21:02:29.290 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 53666243390660291830842663894184766908 : 54679285704932468135374743350323835866
21:02:29.290 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 54679285704932468135374743350323835866 : 55681782994511360383246832524957504246
21:02:29.291 [main] INFO c.p.m.a.batch.BulkCassandraReader - split - 55681782994511360383246832524957504246 : 56713727820156410577229101238628035242
21:09:06.910 [Thread-0] INFO c.p.m.assembly.batch.TagGenerator - 100 records read so far at a rate of 00000.25/s
21:13:00.953 [Thread-0] INFO c.p.m.assembly.batch.TagGenerator - 10100 records read so far at a rate of 00015.96/s
21:14:53.893 [Thread-0] INFO c.p.m.assembly.batch.TagGenerator - 20100 records read so far at a rate of 00026.96/s
21:16:37.451 [Thread-0] INFO c.p.m.assembly.batch.TagGenerator - 30100 records read so far at a rate of 00035.44/s
21:18:35.895 [Thread-0] INFO c.p.m.assembly.batch.TagGenerator - 40100 records read so far at a rate of 00041.44/s
正如您可能从日志中看到的,代码已移至不同的包,但除此之外代码没有更改。它运行在相同的硬件上,所有的内存设置都是一样的。
我可以看到 Cassandra 版本之间的一些性能差异,但是像这样令人震惊的事情(100 倍的性能下降)似乎我必须缺少一些基本的东西。即使在 0.7.0 上调整列族和内存设置之前,它也从来没有那么慢。
有谁知道这是什么原因?是否有一些我可能会丢失的调整设置可能会导致这种情况? Cassandra 功能是否发生了变化以支持未记录的 hadoop?通读发行说明,我找不到任何可以解释这一点的东西。任何有关解决此问题的帮助,甚至只是解释它可能停止工作的原因都将不胜感激。
【问题讨论】:
标签: performance cassandra batch-processing