【发布时间】:2017-06-16 19:19:48
【问题描述】:
我正在尝试根据一个的数据创建“n”dataframes。我正在检查dataframe 中column 的整数值,并循环用于在列中创建“n”dataframes 的sql 语句与Integers 一样多。
这是我的代码:
val maxvalue = spark.sql("SELECT MAX(column4) as maxval FROM mydata").collect()(0).getInt(0)
for( i <- 0 to maxvalue){
var query = "SELECT column1,colum2,colum3 FROM mydata WHERE column4 = "+ i
val newdataframe = spark.sql(query)
//add dataframe to List
}
我需要创建“n”dataframes,但我不知道如何在循环之前声明 List 类型并填充到 for 中。
现有的dataframe 数据类型:
// +------------+------------+------------+------------+
// | column1| column2| column3| column4|
// +------------+------------+------------+------------+
// | String| Double| Int| Int|
// +------------+------------+------------+------------+
新的dataframes 数据类型:
// +------------+------------+------------+
// | column1| column2| column3|
// +------------+------------+------------+
// | String| Double| Int|
// +------------+------------+------------+
【问题讨论】:
-
请添加示例数据,目前您的代码无法重现。
-
我已经添加了数据框数据类型
标签: sql scala list apache-spark dataframe