【发布时间】:2019-10-04 08:28:15
【问题描述】:
目标
我想要达到的目标是
- 读取 CSV 文件(确定)
- 将其编码为
Dataset<Person>,其中Person对象有一个嵌套对象Address[]。 (抛出异常)
个人 CSV 文件
在一个名为person.csv的文件中,有以下数据描述了一些人:
name,age,address
"name1",10,"streetA~cityA||streetB~cityB"
"name2",20,"streetA~cityA||streetB~cityB"
第一行是架构,地址是一个嵌套结构。
数据类
数据类是:
@Data
public class Address implements Serializable {
public String street;
public String city;
}
和
@Data
public class Person implements Serializable {
public String name;
public Integer age;
public Address[] address;
}
读取无类型数据
我首先尝试从 Dataset<Row> 中的 CSV 读取数据,结果按预期工作:
Dataset<Row> ds = spark.read() //
.format("csv") //
.option("header", "true") // first line has headers
.load("src/test/resources/outer/person.csv");
LOG.info("=============== Print schema =============");
ds.printSchema();
root
|-- name: string (nullable = true)
|-- age: string (nullable = true)
|-- address: string (nullable = true)
LOG.info("================ Print data ==============");
ds.show();
+-----+---+--------------------+
| name|age| address|
+-----+---+--------------------+
|name1| 10|streetA~cityA||st...|
|name2| 20|streetA~cityA||st...|
+-----+---+--------------------+
LOG.info("================ Print name ==============");
ds.select("name").show();
+-----+
| name|
+-----+
|name1|
|name2|
+-----+
assertThat(ds.isEmpty(), is(false)); //OK
assertThat(ds.count(), is(2L)); //OK
final List<String> names = ds.select("name").as(Encoders.STRING()).collectAsList();
assertThat(names, hasItems("name1", "name2")); //OK
通过 UserDefinedFunction 编码
我的 udf 接受 String 并返回 Address[]:
private static void registerAsAddress(SparkSession spark) {
spark.udf().register("asAddress", new UDF1<String, Address[]>() {
@Override
public Address[] call(String rowValue) {
return Arrays.stream(rowValue.split(Pattern.quote("||"), -1)) //
.map(object -> object.split("~")) //
.map(Address::fromArgs) //
.map(a -> a.orElse(null)) //
.toArray(Address[]::new);
}
}, //
DataTypes.createArrayType(DataTypes.createStructType(
new StructField[]{new StructField("street", DataTypes.StringType, true, Metadata.empty()), //
new StructField("city", DataTypes.StringType, true, Metadata.empty()) //
})));
}
调用者:
@Test
void asAddressTest() throws URISyntaxException {
registerAsAddress(spark);
// given, when
Dataset<Row> ds = spark.read() //
.format("csv") //
.option("header", "true") // first line has headers
.load("src/test/resources/outer/person.csv");
ds.show();
// create a typed dataset
Encoder<Person> personEncoder = Encoders.bean(Person.class);
Dataset<Person> typed = ds.withColumn("address2", //
callUDF("asAddress", ds.col("address")))
.drop("address").withColumnRenamed("address2", "address")
.as(personEncoder);
LOG.info("Typed Address");
typed.show();
typed.printSchema();
}
这导致了这个执行:
原因:java.lang.IllegalArgumentException:值 (Address(street=streetA, city=cityA)) 的类型 (ch.project.data.Address) 不能 转换为结构体
为什么它不能从Address 转换为Struct?
【问题讨论】:
-
尝试将
Address[] address;替换为List<Address> address; -
不幸的是同样的例外。还有什么想法吗?在我看来,Spark 无法推断架构。你怎么看?
标签: java apache-spark apache-spark-sql user-defined-functions