【发布时间】:2020-09-21 21:41:02
【问题描述】:
我将 df 从 pyspark 导出到 BigQuery。 df 有包含数组元素的列,如何将数组转换为连接字符串?每当我尝试查询导出的 BigQuery 表的数组列时,都会出现以下错误。
Error: Cannot access field element on a value with type ARRAY<STRUCT<element STRING>>
下面是导出到 BigQuery 的 pyspark 中的 df:
+-----------+----------+-------------------+------------------+
| antecedent|consequent| confidence| lift|
+-----------+----------+-------------------+------------------+
|[19, 6, 39]| [44]| 0.418945963975984|10.602038775664845|
|[19, 6, 39]| [35]|0.47298198799199465| 7.423073393311932|
|[19, 6, 39]| [322]| 0.47631754503002|4.6520592549063995|
|[19, 6, 39]| [308]| 0.4496330887258172| 5.856259667533207|
|[19, 6, 39]| [345]| 0.5196797865243495|5.4970336458402285|
下面是 BigQuery 中表的架构,它是在将 df 从 pyspark 导出到 bigquery 后生成的:
当被视为一个表格时,它是这样的:
【问题讨论】:
-
提供您查询的SQL语句,我们可以为您修复
标签: sql google-cloud-platform pyspark google-bigquery google-cloud-dataproc