【发布时间】:2016-02-28 16:06:26
【问题描述】:
我对这个故事中的不同参与者有点困惑:PySpark、SparkSQL、Cassandra 和 pyspark-cassandra 连接器。
据我了解,Spark 发展了很多,SparkSQL 现在是一个关键组件(带有“数据帧”)。显然,没有 SparkSQL 绝对没有理由工作,尤其是在连接到 Cassandra 时。
所以我的问题是:需要什么组件以及如何以最简单的方式将它们连接在一起?
在 Scala 中使用 spark-shell 我可以简单地完成
./bin/spark-shell --jars spark-cassandra-connector-java-assembly-1.6.0-M1-SNAPSHOT.jar
然后
import org.apache.spark.sql.cassandra.CassandraSQLContext
val cc = new CassandraSQLContext(sc)
cc.setKeyspace("mykeyspace")
val dataframe = cc.sql("SELECT count(*) FROM mytable group by beamstamp")
我如何使用pyspark 做到这一点?
这里有几个子问题以及我收集的部分答案(如果我错了,请纠正)。
是否需要 pyspark-casmandra(我不这么认为 - 我一开始不明白在做什么)
我需要使用
pyspark还是我可以使用我的常规jupyter notebook并自己导入必要的东西?
【问题讨论】:
标签: apache-spark cassandra pyspark pyspark-sql