【发布时间】:2016-04-25 00:26:51
【问题描述】:
JavaRDD<Person> prdd = sc.textFile("c:\\fls\\people.txt").map(
new Function<String, Person>() {
public Person call(String line) throws Exception {
String[] parts = line.split(",");
Person person = new Person();
person.setName(parts[0]);
person.setAge(Integer.parseInt(parts[1].trim()));
person.setSal(Integer.parseInt(parts[2].trim()));
return person;
}
});
RDD<Person>personRDD = prdd.toRDD(prdd);
Dataset<Person> dss= sqlContext.createDataset(personRDD , Encoders.bean(Person.class));
GroupedDataset<Row, Person> dq=dss.groupBy(new Column("name"));
我必须在数据集上按名称计算年龄和工资组的总和。 请帮助如何查询数据集?我尝试使用 GroupedDataset 但不知道如何继续。 谢谢
【问题讨论】:
标签: java hadoop apache-spark