PiG + Cassandra + Hadoop答案

【问题标题】：PiG + Cassandra + HadoopPiG + Cassandra + Hadoop
【发布时间】：2016-11-15 11:50:27
【问题描述】：

我在 Cassandra (3.7) 集群上设置了 Hadoop (2.7.2)。我对使用 Hadoop MapReduce 没有任何问题。同样，我在 CQLSH 中创建表和键空间也没有问题。但是，我一直在尝试通过 hadoop 安装 PIG，以便访问 Cassandra 中的表。（安装 PIG 就很好）这是我遇到问题的地方。

我遇到过很多网站，其中大多数要么是 Cassandra 的过时版本，要么只是很模糊。我从这个网站收集到的一件事是我们可以使用 CqlStorage / CqlNativeStorage 加载访问 pig 中的 cassandra 表。但是，在最新版本中，这种支持似乎已被删除（自 2015 年以来）。 现在我的问题是，有什么解决方法吗？

我会在 cassandra 表上运行 mapreduce 作业，并且主要使用 PiG 进行查询。

提前致谢。

【问题讨论】：

标签： hadoop cassandra apache-pig

【解决方案1】：

所有的猪支持在 2.2 中被弃用并在 3.0 中被移除。 https://issues.apache.org/jira/browse/CASSANDRA-10542

所以我认为你在这里有点不走运。您也许可以使用带有现代 C* 的旧类，但 Pig 现在非常适合。 SparkSql 绝对是当前最喜欢的孩子（我可能有偏见，因为我在 Spark + Cassandra 连接器上工作）并且允许非常灵活地查询 C* 数据。

【讨论】：

谢谢拉斯。我现在也得出了同样的结论。我的工作主要集中在时间序列的预测分析上，我发现 Spark 可以支持更好的库。所以我会选择 Spark + Cassandra ......！再次感谢......！