【问题标题】:How to connect to CFS from Spark (DataStax Enterprise)?如何从 Spark(DataStax Enterprise)连接到 CFS?
【发布时间】:2015-02-12 16:42:54
【问题描述】:

我们可以从节点上的 spark-shell 访问DataStax Enterprise

build.sbt 中声明了以下依赖项:

libraryDependencies += "org.apache.spark" %% "spark-core" % ...

当我执行该行时:

sc.textFile("cfs://...")

我遇到了异常:

java.io.IOException: No FileSystem for scheme: cfs

如果我们将 Spark 与 SPARK_MASTER(DSE 中的节点)一起使用,我们还会收到“No FileSystem for scheme:cfs”异常。

问:如何使用 spark 访问 CFS?

  • 我们应该更改 libraryDependencies 吗?可能,DSE-spark 还有另一个版本吗?
  • 设置?

【问题讨论】:

    标签: cassandra apache-spark datastax-enterprise


    【解决方案1】:

    注意我对如何使用 DSE/Cassandra 和 Spark 几乎一无所知。

    更新:在Accessing Cassandra from Spark 中有一些关于如何使用 DSE 从 Spark 访问 Cassandra 数据的示例。似乎有 sc.cassandraTable 方法可以访问 Cassandra 表。这可能是解决方案。查看其他链接以了解 API。

    我认为你应该使用网站上的spark-cassandra-connector

    如果您编写需要访问 Cassandra 的 Spark 应用程序,此库适合您

    【讨论】:

    • 这个想法是只使用 CFS "cfs://"(看起来像 HDFS),而不直接使用 Cassandra。
    【解决方案2】:

    DataStax Enterprise Spark 已预先配置为使用 CFS。 所以以下应该工作: sh> dse spark scala> sc.textFile("cfs:/tmp/test.txt") 配置外部 spark 说来话长,至少需要为适当的 hadoop 版本重建 spark

    【讨论】:

      猜你喜欢
      • 2018-01-20
      • 2021-10-25
      • 2017-02-13
      • 1970-01-01
      • 2015-08-25
      • 2017-06-03
      • 2017-04-09
      • 2021-01-10
      • 1970-01-01
      相关资源
      最近更新 更多