【问题标题】:Spark row encoder: empty metadata火花行编码器:空元数据
【发布时间】:2026-02-02 09:45:01
【问题描述】:

我在 Java 中使用 spark,我正在从 RDD OF 行创建一个数据集。

我使用创建架构

Metadata meta = new MetadataBuilder().putString("type", "categorical").build();
StructField s = new StructField(name, IntegerType, true, meta);
StructType t = new StructType(new StructField[]{s});  
Encoder<Row> encoder = RowEncoder.apply(t);

我像这样在数据集中使用它

ds.flatMap((FlatMapFunction<Row, Row>) this::customFlatMapRow, encoder);

由于某些原因,在我编写表并检查架构的字段及其元数据之后,它们是空的(尽管我创建并设置它们的事实如上所示)。不知怎的,我失去了他们

【问题讨论】:

    标签: apache-spark apache-spark-sql


    【解决方案1】:

    如果您检查数据集的ExpressionEncoder,则元数据可用。

    代码

    Metadata meta = new MetadataBuilder().putString("type", "categorical").build();
    StructField s = new StructField("col", IntegerType, true, meta);
    StructType t = new StructType(new StructField[]{s});
    Encoder<Row> encoder = RowEncoder.apply(t);
    
    Dataset<Row> df = spark.createDataset(Arrays.asList(1, 2, 3), Encoders.INT()).toDF("col");
    Dataset<Row> df2 = df.flatMap((FlatMapFunction<Row, Row>) r -> Collections.singleton(r).iterator(), encoder);
    System.out.println(df2.exprEnc().schema().fields()[0].metadata());
    

    打印

    {"type":"categorical"}
    

    【讨论】: