【发布时间】:2020-01-31 20:56:15
【问题描述】:
我正在尝试使用 python 中的 Spark 从 parquet 文件中读取数据帧,但我的数据帧是字节编码的,所以当我使用 spark.read.parquet 和 df.show() 时,它看起来如下所示:
+---+----------+----+
| C1| C2| C3|
+---+----------+----+
| 1|[20 2D 2D]| 0|
| 2|[32 30 31]| 0|
| 3|[43 6F 6D]| 0|
+---+----------+----+
如您所见,这些值已转换为十六进制值...我已阅读 spark 数据帧的整个文档,但没有找到任何内容。可以转成UTF-8吗?
df.printSchema() 输出:
|-- C1: long (nullable = true)
|-- C2: binary (nullable = true)
|-- C3: long (nullable = true)
Spark 版本是 2.4.4
谢谢!
【问题讨论】:
-
可能只是
F.col('C2').astype('string')(未经测试)
标签: python-3.x dataframe apache-spark pyspark parquet