【问题标题】:DataStax Enterprise: Submitting spark 0.9.1 app to DSE cluster in a right wayDataStax Enterprise:以正确的方式将 spark 0.9.1 应用程序提交到 DSE 集群
【发布时间】:2023-03-12 19:25:01
【问题描述】:

我有一个 8 个节点的正在运行的分析(已启用 Spark)dse 集群。 Spark Shell 工作正常。 现在我想构建一个 spark 应用程序,并使用命令“dse spark-class”将其部署到集群上,根据 dse 文档,我猜这是该工作的正确工具。

我使用 sbt 程序集构建了应用程序,并得到了我的应用程序的胖罐。 然后经过大量挖掘,我想出了导出环境变量 $SPARK_CLIENT_CLASSPATH,因为它被 spark-class 命令引用

export SPARK_CLIENT_CLASSPATH=<fat jar full path>

现在我可以调用了:

dse spark-class <main Class>

由于 classNotFound 异常,应用程序立即崩溃。它无法识别我的应用的内部类。

我能够使其工作的唯一方法是初始化 SparkConf,如下所示:

val conf = new SparkConf(true)
        .set("spark.cassandra.connection.host", "cassandrahost")
        .set("spark.cassandra.auth.username", "cassandra")            
        .set("spark.cassandra.auth.password", "cassandra")
        .setJars(Seq("fat-jar-full-path"))


val sc = new SparkContext("spark://masterurl:7077", "DataGenerator", conf) 

setJars 方法可以将我的 jar 分派给集群工作人员。

这是实现这一目标的唯一方法吗?我认为它非常丑陋且不便携。

是否可以通过外部配置来设置主 url、cassandra 主机和应用程序 jar 路径?

我已经看到从 Spark 1.0 开始有 spark-submit 命令允许在外部指定 app-jar。是否可以在 DSE 4.5.3 中将 spark 更新到 1.1 版?

非常感谢

【问题讨论】:

    标签: apache-spark datastax-enterprise


    【解决方案1】:

    您可以将 Spark 提交与今天(2014 年 12 月 3 日)刚刚发布的 DSE 4.6 一起使用,包括 Spark 1.1。

    以下是新功能:

    LDAP 身份验证增强审计日志记录:

    -Audit logging
    -configuration is decoupled from log4j Logging to a Cassandra table
    -Configurable consistency levels for table logging Optional
    -asynchronous logging for better performance when logging to a table
    

    Spark 增强功能:

    -Spark 1.1 integration Spark Java API support
    -Spark Python API (PySpark) support Spark SQL support Spark Streaming
    -Kerberos support for connecting Spark components to Cassandra DSE
    

    搜索增强:

    -Simplified, automatic resource generation
    -New dsetool commands for creating, reloading, and managing Solr core resources 
    -Redesigned implementation of CQL Solr queries for production usage
    -Solr performance objects
    -Tuning index size and range query speed 
    -Restricted query routing for experts 
    -Ability to use virtual nodes (vnodes) in Solr nodes. Recommended range: 64 to 256 (overhead increases by approximately 30%)
    

    在此处查看文档: http://www.datastax.com/documentation/datastax_enterprise/4.6/datastax_enterprise/newFeatures.html

    像往常一样,您可以使用您的凭据在此处下载:

    http://downloads.datastax.com/enterprise/opscenter.tar.gz

    http://downloads.datastax.com/enterprise/dse-4.6-bin.tar.gz

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-25
      • 2015-10-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-15
      相关资源
      最近更新 更多