【发布时间】:2021-04-15 00:09:15
【问题描述】:
我有一个场景,我在数据框列中有 XML 数据。
| sex | updated_at | visitors |
|---|---|---|
| F | 1574264158 | <?xml version="1.0" encoding="utf-8 |
我想解析 - 访问者列 - 使用 UDF 将嵌套的 XML 字段转换为 Dataframe 中的列
XML 格式
<?xml version="1.0" encoding="utf-8"?> <visitors> <visitor id="9615" age="68" sex="F" /> <visitor id="1882" age="34" sex="M" /> <visitor id="5987" age="23" sex="M" /> </visitors>
【问题讨论】:
标签: xml apache-spark pyspark apache-spark-sql user-defined-functions