从 org.apache.spark.sql.Row 中提取信息答案

【问题标题】：Extract information from a `org.apache.spark.sql.Row`从 org.apache.spark.sql.Row 中提取信息
【发布时间】：2015-01-20 00:21:49
【问题描述】：

我有Array[org.apache.spark.sql.Row]由sqc.sql(sqlcmd).collect()返回：

Array([10479,6,10], [8975,149,640], ...)

我可以得到各个值：

scala> pixels(0)(0)
res34: Any = 10479

但他们是Any，而不是Int。

如何将它们提取为Int？

The most obvious solution 无效：

scala> pixels(0).getInt(0)
java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Int

PS。我可以做pixels(0)(0).toString.toInt 或pixels(0).getString(0).toInt，但他们觉得不对...

【问题讨论】：

标签： scala apache-spark apache-spark-sql

【解决方案1】：

使用getInt 应该可以。这是一个人为的例子作为概念证明

import org.apache.spark.sql._
sc.parallelize(Array(1,2,3)).map(Row(_)).collect()(0).getInt(0)

这个返回 1

然而，

sc.parallelize(Array("1","2","3")).map(Row(_)).collect()(0).getInt(0)

失败。因此，它看起来像是以字符串形式出现的，您必须手动转换为 int。

sc.parallelize(Array("1","2","3")).map(Row(_)).collect()(0).getString(0).toInt

documentation 声明getInt：

以 int 形式返回第 i 列的值。如果 i 处的值不是整数，或者为 null，此函数将抛出异常。

所以，它似乎不会尝试为你投射

【讨论】：

【解决方案2】：

Row class（另见https://spark.apache.org/docs/1.1.0/api/scala/index.html#org.apache.spark.sql.package）有getInt(i: Int)、getDouble(i: Int)等方法。

还请注意，SchemaRDD 是 RDD[Row] 加 schema，它告诉您哪个列具有哪种数据类型。如果您使用.collect()，您只会得到一个Array[Row]，没有有该信息。因此，除非您确定自己的数据是什么样的，否则请从 SchemaRDD 获取架构，然后收集行，然后使用正确的类型信息访问每个字段。

【讨论】：

好吧，我猜是因为它是一个字符串？我不知道您的数据来自哪里，但是如果您查看架构，它应该表明第一列是字符串类型。
注意：在 Spark 1.3 中，SchemaRDD 被称为 DataFrame。

【解决方案3】：

答案是相关的。您不需要使用 collect 而是需要调用方法 getInt getString 和 getAs 以及以防数据类型复杂

val popularHashTags = sqlContext.sql("SELECT hashtags, usersMentioned, Url FROM tweets")
var hashTagsList =  popularHashTags.flatMap ( x => x.getAs[Seq[String]](0))

【讨论】：