【发布时间】:2019-04-26 22:44:27
【问题描述】:
我有一个字典列表
说
list_ = [
{u'column1': u'test1', u'column2': u'None'},
{u'added_column1': u'test2', u'column2': u'None'}]
第一行有两列column1,column2
第二行有两列added_column1, column2
我想根据数据创建一个 spark 数据框,并且应该随着列表的变化而变化
有什么长期的解决办法吗?
目前
spark.createDataFrame(list_).show()
这可行,但我收到此警告。
用户警告:从 dict 推断架构已弃用,请使用 pyspark.sql.Row 而不是 warnings.warn("从 dict 推断架构是 已弃用,”
【问题讨论】:
-
它们实际上是 2 个问题:保持 spark 数据帧与 dict 同步,并从 dict 创建数据帧(与 this question 重复)
-
您分享的链接无法解决我的问题。如何创建具有不同字典的统一数据框?
-
我修复了链接。我把你的听写列表误认为是听写了。
-
新链接没有解决我的问题:(。寻找一个解决方案,其中根据字典列表添加新列。链接中的解决方案只创建两个列
-
那你的问题就更复杂了!但是可以使用
WithColumn添加一个新的列,我相信你可以搜索一堆相关的问题。顺便说一句,您正在创建而不是附加到原始帖子中的数据框。
标签: python json apache-spark pyspark