【发布时间】:2021-09-21 15:00:18
【问题描述】:
有没有一种轻量级的解决方案,可以改变ORC文件中特定列的数据类型,而无需转换整列数据类型和重写整个orc文件?
以下是一个重量级的解决方案:
- 在 Spark 中读取 orc 文件
- 转换特定列的数据类型
- 将转换后的 orc 文件写入 HDFS
寻找一种轻量级的解决方案,我可以只更改嵌入的元数据信息。
谢谢!
【问题讨论】:
标签: apache-spark hadoop hdfs orc
有没有一种轻量级的解决方案,可以改变ORC文件中特定列的数据类型,而无需转换整列数据类型和重写整个orc文件?
以下是一个重量级的解决方案:
寻找一种轻量级的解决方案,我可以只更改嵌入的元数据信息。
谢谢!
【问题讨论】:
标签: apache-spark hadoop hdfs orc
这不是您要寻找的答案,但是不,您不能在不重新生成文件的情况下更改 ORC 中的列类型。您的建议是正确的方法。
ORC 在文件头中包含索引和聚合值,因此更改字符串 -> double 将需要扫描整个列,以便可以为现在的数字列计算最小值/最大值/平均值等。
【讨论】: