Spark 流从 Twitter 获取数据并保存到 Cassandra答案

【问题标题】：Spark streaming get data from Twitter and save to CassandraSpark 流从 Twitter 获取数据并保存到 Cassandra
【发布时间】：2016-08-11 12:48:05
【问题描述】：

提到我的问题，我有一个问题

具体来说，我的问题是与 cassandra 连接并使用流式传输数据。因为我已经连接了 cassandra 和 spark 并且还从 twitter 获取数据。我这样做了，但是分开了。现在我想当我从 twitter 获取数据时，写一张表，其中一个键空间。我该怎么做？

我的代码在那里。

     val conf = new SparkConf()
  .set("spark.cassandra.connection.host", "127.0.0.1")
  .set("spark.cleaner.ttl", "5000")
  .setMaster("local[2]").setAppName("myapp")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(2))

val tweetsA = TwitterUtils.createStream(ssc, None, Array("searchword"))


val tweets_mystring = tweetsA.filter(_.getText.contains("searchword2")).map(ttext => ttext.getText)
tweets_mystring.map(??????).saveToCassandra("mykeyspace", "mytable")
//i can't write my map function like where ????

ssc.start()
ssc.awaitTermination(60000)
ssc.checkpoint(checkpointDir)
} 
}

【问题讨论】：

标签： scala hadoop apache-spark spark-streaming

【解决方案1】：

嘿，回复有点晚了，但我会调查一下 DataStax。它非常好地支持 Spark Streaming 和 Cassandra 的组合。易于使用的软件将数据流式传输到 Cassandra，并将继续得到支持，因为他们目前拥有约 1.9 亿美元的投资资金。下面是一个简单的使用示例。

https://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/spark/sparkSave.html

【讨论】：