【发布时间】:2021-01-16 15:48:39
【问题描述】:
我正在使用 PySpark 并尝试使用 CSV 来存储我的数据。我将我拥有的 Numpy 数组转换为 DataFrame,它的格式如下:
label | 0 1 2 4 ... 768
---------------------------------------
1 | 0.12 0.23 0.31 0.72 ... 0.91
等等,将数组中“行向量”本身的每个值拆分为单独的列。该格式与 Spark 不兼容,它需要将 features 全部放在一列中。有没有办法可以将我的数组加载到该格式的 DataFrame 中?例如:
label | Features
------------------------------------------
1 | [0.12,0.23,0.31,0.72,...,0.91]
我尝试遵循 this thread 的建议,该建议详细说明了使用 Spark API 合并列,但是在加载我的标签时,我收到一个错误,因为标签成为向量的一部分,而不是 string 或 int价值。
【问题讨论】:
标签: python arrays pandas numpy apache-spark