【问题标题】:Convert JSON to parquet in Java在 Java 中将 JSON 转换为镶木地板
【发布时间】:2019-08-09 13:00:57
【问题描述】:

我正在尝试在 Java 中将 JSON 转换为 parquet 格式,但出现异常。

输入 JSON:

{"list": [ {"mainBearingX": 0.178334,
            "gearBoxZ": 0.03885,
            "_t": 1560305236290000,
            "mainBearingZ": 0.034438,
            "gearBoxX": 0.035738,
            "mainBearingY": 0.029445,
            "gearBoxY": 0.040929,
            "generatorX": 0.776837,
            "generatorY": 0.124234,
            "ts_id":"t1"
           },
           {"mainBearingX": 0.169478,
            "gearBoxZ": 0.008242,
            "_t": 1560305236311000,
            "mainBearingZ": 0.007531,
            "gearBoxX": 0.025647,
            "mainBearingY": 0.029445,
            "gearBoxY": 0.026282,
            "generatorX": 0.770189,
            "generatorY": 0.117464,
            "ts_id": "t1"
           }
         ]
}

代码:

public static void toConvert(OutPut output) {
            String inputFile = "test.parquetFile";
            Path dataFile = new Path(inputFile);
            Schema schema = ReflectData.AllowNull.get().getSchema(OutPut.class);
            try (ParquetWriter<OutPut> writer = AvroParquetWriter.<OutPut>builder(dataFile)
                    .withSchema(schema)
                    .withDataModel(ReflectData.get())
                    .withConf(new Configuration())
                    .withCompressionCodec(CompressionCodecName.SNAPPY)
                    .withWriteMode(Mode.OVERWRITE)
                    .build()) {
            } catch (IOException e) {
                e.printStackTrace();
            }
public class OutPut {
    List<Map<String, Object>> list;
} 

例外:

Exception in thread "main" org.apache.parquet.schema.InvalidSchemaException: Cannot write a schema with an empty group: required group value {}
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:27)
at org.apache.parquet.schema.GroupType.accept(GroupType.java:226)
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:31)
at org.apache.parquet.schema.GroupType.accept(GroupType.java:226)
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:31)
at org.apache.parquet.schema.GroupType.accept(GroupType.java:226)
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:31)
at org.apache.parquet.schema.GroupType.accept(GroupType.java:226)
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:31)
at org.apache.parquet.schema.TypeUtil$1.visit(TypeUtil.java:37)
at org.apache.parquet.schema.MessageType.accept(MessageType.java:55)
at org.apache.parquet.schema.TypeUtil.checkValidWriteSchema(TypeUtil.java:23)
at org.apache.parquet.hadoop.ParquetFileWriter.<init>(ParquetFileWriter.java:228)
at org.apache.parquet.hadoop.ParquetWriter.<init>(ParquetWriter.java:273)
at org.apache.parquet.hadoop.ParquetWriter$Builder.build(ParquetWriter.java:494)

【问题讨论】:

  • 我只是在这里猜测,但也许Output 类中的list 应该定义为Map&lt;String,List&lt;Map&lt;String,Object&gt;&gt;&gt; 而不是考虑最外层的json 对象?
  • @RogerGustavsson:不,它不起作用,因为输入列表只是简单的地图列表。我也尝试用 Map>> 替换 List> 列表,但它没有用。出现错误:com.fasterxml.jackson.databind.JsonMappingException:无法将 java.util.LinkedHashMap 的实例反序列化出 [来源:(文件)处的 START_ARRAY 令牌;行:1,列:12](通过参考链
  • @mazaneicha : 用户:638764 你有什么想法吗?

标签: java json hadoop avro parquet


【解决方案1】:

问题是您的OutPut 类型包含Object 类型作为Map 中的值类型:

public class OutPut {
    List<Map<String, Object>> list;
}

您正在使用 ReflectData 通过自省来推断您的类型的 Avro 架构。但是它不能从 Object 类型推断出任何有用的东西。

如果您将OutPut 的定义更改为使用具体类型,例如:

public class OutPut {
    List<Map<String, Double>> list;
}

那么它应该可以工作。

【讨论】:

  • 我知道如果我将其更改为 List> 那么我将不会解释数据,就好像您忘记查看它的输入数据类型为 double, string , long like _t is long and "ts_id id String 同样 mainBearingX 是 double 类型,如果这很简单,为什么在这个世界上我会在这里发布这个问题。请在制作它之前理解这个问题。
  • 我已解决此问题并将我的内容发布到 medium.com medium.com/@rajnishtiwari2010/…
猜你喜欢
  • 2018-01-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-11-21
  • 2014-11-25
  • 2016-04-16
  • 2016-04-15
相关资源
最近更新 更多