【发布时间】:2018-06-12 07:12:34
【问题描述】:
我有一个包含混合内容的 XML 文档,我在 Dataframe 中使用自定义模式来解析它。我遇到了一个问题,架构只会拾取“测量”的文本。
XML 看起来像这样
<QData>
<Measure> some text here
<Answer>Answer1</Answer>
<Question>Question1</Question>
</Measure>
<Measure> some text here
<Answer>Answer1</Answer>
<Question>Question1</Question>
</Meaure>
</QData>
我的架构如下:
def getCustomSchema():StructType = {StructField("QData",
StructType(Array(
StructField("Measure",
StructType( Array(
StructField("Answer",StringType,true),
StructField("Question",StringType,true)
)),true)
)),true)}
当我尝试访问 Measure 中的数据时,我只会收到“此处的一些文本”,而当我尝试从 Answer 获取信息时它会失败。我也只是得到一个 Measure。
编辑:这就是我尝试访问数据的方式
val result = sc.read.format("com.databricks.spark.xml").option("attributePrefix", "attr_").schema(getCustomSchema)
.load(filename.toString)
val qDfTemp = result.mapPartitions(partition =>{val mapper = new QDMapper();partition.map(row=>{mapper(row)}).flatMap(list=>list)}).toDF()
case class QDMapper(){
def apply(row: Row):List[QData]={
val qDList = new ListBuffer[QData]()
val qualData = row.getAs[Row]("QData") //When I print as list I get the first Measure text and that is it
val measure = qualData.getAs[Row]("Measure") //This fails
}
}
【问题讨论】:
-
你的 spark.read 命令是什么?
-
我正在使用 val Qdata = row.getAs[Row]("QData") 获取数据。我试过 val measure = Qdata.getAs[Row]("Measure") 但它失败了
-
您可以尝试使用 Databrick 的库来读取 xml 文档作为数据框。 val df = sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Measure").load("test.xml")
-
这就是我正在使用的,但我已经为它创建了一个自定义架构。就在 .load("test.xml") 之前,我有 .schema(getCustomSchema)。
-
亲爱的未来人。我还没有找到解决这个确切问题的方法。我们刚刚添加了一个流程,将“这里的一些文本”包含在它自己的 XML 标记中,数据块解析器按预期工作。
标签: scala apache-spark dataframe xml-parsing