【发布时间】:2017-04-24 21:16:17
【问题描述】:
我是 Spark 1.6 的新手。我想阅读一个镶木地板文件并进行处理。 为了简化假设有一个具有这种结构的镶木地板:
id, amount, label
我有 3 条规则:
amount < 10000 => label=LOW
10000 < amount < 100000 => label=MEDIUM
amount > 1000000 => label = HIGH
如何在 spark 和 scala 中做到这一点?
我尝试这样的事情:
case class SampleModels(
id: String,
amount: Double,
label: String,
)
val sc = SparkContext.getOrCreate()
val sqlContext = new SQLContext(sc)
import sqlContext.implicits._
val df = sqlContext.read.parquet("/path/file/")
val ds = df.as[SampleModels].map( row=>
MY LOGIC
WRITE OUTPUT IN PARQUET
)
这是正确的方法吗?它有效率吗? “MYLOGIC”可能更复杂。
谢谢
【问题讨论】:
标签: scala apache-spark parquet