【问题标题】:Import Error for module Datastax Spark Cassandra Connector模块 Datastax Spark Cassandra 连接器的导入错误
【发布时间】:2016-05-25 05:50:27
【问题描述】:

我尝试使用以下命令运行 python spark-shell:

 bin/pyspark --packages datastax:spark-cassandra-connector:1.5.0-RC1-s_2.11,org.apache.spark:spark-streaming-kafka_2.10:1.6.0

以下命令的输出表明它能够找到 spark-cassandra-connector 包:

resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
   confs: [default]
   found datastax#spark-cassandra-connector;1.5.0-RC1-s_2.11 in spark-packages
   found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
   found com.datastax.cassandra#cassandra-driver-core;3.0.0-rc1 in central
   found io.netty#netty-handler;4.0.33.Final in central
   found io.netty#netty-buffer;4.0.33.Final in central
   found io.netty#netty-common;4.0.33.Final in central

但是当我尝试使用以下任何命令导入包时,我得到导入错误:

from com.datastax import *
from com.datastax.spark.connector import *

输出:

ImportError: No module named com.datastax
ImportError: No module named com.datastax.spark.connector

谁能建议这里出了什么问题?

【问题讨论】:

  • 你好,你是怎么解决这个问题的?请说我

标签: python pyspark spark-streaming datastax spark-cassandra-connector


【解决方案1】:

据我所知,Cassandra 连接器没有一行 Python 代码,更不用说名称怪异的 Python 模块了。 Python 互操作性是使用 Data Sources API 实现的,无需任何额外的导入即可使用。

sqlContext.read.format("org.apache.spark.sql.cassandra").options(...).load(...)

即使确实如此,--packages 也仅用于分发 JVM 依赖项。外部依赖项(Python、R)必须独立分发或安装,例如使用PyFiles

【讨论】:

    猜你喜欢
    • 2020-10-17
    • 2017-03-04
    • 2015-05-24
    • 2016-08-11
    • 2020-02-12
    • 2015-08-16
    • 2015-03-12
    • 2016-02-04
    • 2017-02-13
    相关资源
    最近更新 更多