【问题标题】:Change Spark DataFrame to Standard R dataframe将 Spark 数据帧更改为标准 R 数据帧
【发布时间】:2018-03-02 18:45:37
【问题描述】:

我正在使用 Databricks,并已从数据湖上传了一个外部文件。我使用以下代码导入数据,使用库 SparkR:

df = read.df("adl://test.azuredatalakestore.net/test.csv", source = 'csv', header = TRUE)

它是一个 Spark DataFrame,它限制了我对其进行一些操作。我无法使用read.csv 导入文件,所以有没有办法可以将其更改为普通的DataFrame,以便执行一些更改。

【问题讨论】:

    标签: r apache-spark


    【解决方案1】:

    如果您的数据适合内存,您可以这样做:

     local_df <- collect(df)
    

    【讨论】:

    • 我不得不重新启动一切并再次尝试。现在可以了,谢谢
    • 这会将所有数据转储到驱动程序中,因此如果 spark DF 很大,内存可能会导致崩溃。如果您想查看数据,请尝试查看其前几行或样本。如果您想更好地查看整个数据,请将 spark DF 写入配置单元表并在那里查看。
    • 确实@abhiieor 我违背自己的意愿写了这个答案。但我知道,如果我不做其他一些聪明的人会。最终 OP 会发现他正在尝试做的是一种不好的做法。
    • 其实我不想玩 smart-a** 这就是为什么不给你贴标签,而是给 OP 更多的建议,以防他是 spark 的新手。为什么不通过利弊完成答案。
    • 我不是指你@abhiieor :)) 我管理这个标签。我所指的人会知道自己。我稍后会完成我的答案。我在通勤。
    猜你喜欢
    • 2019-01-16
    • 1970-01-01
    • 2015-09-08
    • 1970-01-01
    • 1970-01-01
    • 2016-09-27
    • 2020-07-24
    • 1970-01-01
    • 2022-08-09
    相关资源
    最近更新 更多