【问题标题】:Cassandra writing/reading from HadoopCassandra 从 Hadoop 写入/读取
【发布时间】:2014-06-14 03:54:08
【问题描述】:

我们想从 MR 作业的 mapper 和 reducer 读取/写入 Cassandra。如何减少与 Cassandra 的连接数? .

提前谢谢你 弗拉迪

【问题讨论】:

  • 这种问题是他们将 Cassandra 与 Hadoop 集成的原因。你应该利用这个事实,而不是规避它。
  • 你的意思是解决它的唯一方法是将 Cassandra 与 Hadoop 集成吗?

标签: hadoop cassandra


【解决方案1】:

限制作业中映射器和缩减器的数量以控制连接数。每个 map 和 reduce 使用自己的 jvm,因此也使用自己的连接。

如果您遇到的问题是超时,请尝试减少批量大小 (cassandra.range.batch.size),请参阅 http://wiki.apache.org/cassandra/HadoopSupport

【讨论】:

  • 不确定是否可以明确控制映射器的数量,请参阅:stackoverflow.com/questions/19570486/…
  • 您可以通过缩小范围将作业分成多个 - 另一个选项是上面提到的批量大小
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-10-06
  • 1970-01-01
  • 2014-01-31
  • 2015-05-17
  • 1970-01-01
  • 2012-02-24
  • 1970-01-01
相关资源
最近更新 更多