【发布时间】:2021-02-10 06:27:42
【问题描述】:
我想将我的 results1 numpy 数组转换为数据框。作为记录,results1 看起来像
array([(1.0, 0.1738578587770462), (1.0, 0.33307021689414978),
(1.0, 0.21377330869436264), (1.0, 0.443511435389518738),
(1.0, 0.3278091162443161), (1.0, 0.041347454154491425)]).
我想将上面的内容转换为 pyspark RDD,其列标记为“limit”(元组中的第一个值)和“概率”(元组中的第二个值)。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('YKP').getOrCreate()
sc=spark.sparkContext
# Convert list to RDD
rdd = sc.parallelize(results1)
# Create data frame
df = sc.createDataFrame(rdd)
我不断收到错误
AttributeError: 'RemoteContext' object has no attribute 'createDataFrame'
当我运行它时。我不明白为什么这会给我一个错误,我该如何解决这个问题?
【问题讨论】:
-
createDataFrame是 sqlContext 的一部分。sqlContext = SQLContext(sc)
标签: python pyspark pyspark-dataframes