【发布时间】:2021-07-21 07:44:45
【问题描述】:
我正在尝试通过 PySpark 和 PyCharm IDE 将数据引入 Azure 数据资源管理器。但是,在运行我的代码时,我遇到了很多与缺少库有关的问题。
根据Azure Data Explorer connector's page,我需要安装connector's jar和kusto-ingest和kusto-data这两个依赖jar。
下载所有这 3 个 jar 并将它们导入 PySpark 后,我无法继续进行数据摄取,它不断返回我丢失的库错误。第一个是azure-storage lib,然后我安装并导入了jar,它要求adal4j lib,我也这样做,它要求oauth2 lib,然后是json lib,azure-client-authentication lib,javax mail lib ,等等。
我已经安装了 10 多个 jar,但我仍然无法运行此摄取。我是不是做错了什么?
我的 PySpark 版本是 2.4。你可以在下面看到我的代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('local[*]') \
.appName("Teste") \
.config('spark.jars', 'kusto-spark_2.4_2.11-2.5.2.jar,kusto-data-2.4.1.jar,kusto-ingest-2.4.1.jar,azure-storage-8.3.0.jar,json-20180813.jar,adal4j-1.6.5.jar') \
.getOrCreate()
# loading a test csv file
df = spark.read.csv('MOCK_DATA.csv', header=True, sep=',')
df.write.format("com.microsoft.kusto.spark.datasource")\
.option("kustoCluster", "myclustername")\
.option("kustoDatabase", "mydatabase")\
.option("kustoTable", "mytable")\
.option("kustoAadAppId", "myappid")\
.option("kustoAadAppSecret", "mysecret")\
.option("kustoAadAuthorityID", "myautorityid")\
.mode("Append")\
.save()
【问题讨论】:
标签: azure pyspark azure-data-explorer