【发布时间】:2016-05-02 06:31:16
【问题描述】:
我正在使用 simple-salesforce 包从 SFDC 提取数据。 我正在使用 Python3 编写脚本和 Spark 1.5.2。
我创建了一个包含以下数据的rdd:
[('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')]
[('Id', 'a0w1a0000003xAAI'), ('PackSize', 1.0), ('Name', 'B')]
[('Id', 'a0w1a00000xB3AAI'), ('PackSize', 30.0), ('Name', 'C')]
...
此数据在名为 v_rdd 的 RDD 中
我的架构如下所示:
StructType(List(StructField(Id,StringType,true),StructField(PackSize,StringType,true),StructField(Name,StringType,true)))
我正在尝试用这个 RDD 创建 DataFrame:
sqlDataFrame = sqlContext.createDataFrame(v_rdd, schema)
我打印我的 DataFrame:
sqlDataFrame.printSchema()
并获得以下信息:
+--------------------+--------------------+--------------------+
| Id| PackSize| Name|
+--------------------+--------------------+--------------------+
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
我希望看到实际数据,如下所示:
+------------------+------------------+--------------------+
| Id|PackSize| Name|
+------------------+------------------+--------------------+
|a0w1a0000003xB1A | 1.0| A |
|a0w1a0000003xAAI | 1.0| B |
|a0w1a00000xB3AAI | 30.0| C |
你能帮我找出我在这里做错了什么吗?
我的 Python 脚本很长,我不确定人们筛选它是否方便,所以我只发布了我遇到问题的部分。
提前致谢!
【问题讨论】:
标签: python-3.x pyspark spark-dataframe