【发布时间】:2018-07-02 03:16:18
【问题描述】:
在 spark master 分支上 - 我尝试将带有“a”、“b”、“c”的单列写入镶木地板文件 f1
scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")
但保存的文件没有统计信息(最小值,最大值)
$ ls f1/*.parquet
f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet
$ parquet-tool meta f1/*.parquet
file: file:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet
creator: parquet-mr version 1.8.2 (build c6522788629e590a53eb79874b95f6c3ff11f16c)
extra: org.apache.spark.sql.parquet.row.metadata = {"type":"struct","fields":[{"name":"field1","type":"string","nullable":true,"metadata":{}}]}
file schema: spark_schema
--------------------------------------------------------------------------------
field1: OPTIONAL BINARY O:UTF8 R:0 D:1
row group 1: RC:3 TS:48 OFFSET:4
--------------------------------------------------------------------------------
field1: BINARY SNAPPY DO:0 FPO:4 SZ:50/48/0.96 VC:3 ENC:BIT_PACKED,RLE,PLAIN ST:[no stats for this column]
任何指针都将不胜感激。 谢谢。
【问题讨论】:
标签: apache-spark parquet