【问题标题】:How to disable scientific notation in spark-xml如何在 spark-xml 中禁用科学计数法
【发布时间】:2016-07-05 06:39:19
【问题描述】:

如何在使用 databrick spark-xml 库读取 xml 文件时禁用科学计数法。 这是场景,我的 XML 文件包含带有这样空格的数值

<V1>42451267 </V1>

我得到的是 4.2451267E7 而不是 42451267

我该如何解决它

我的代码和xml文件在下面

val xmlLocation = "sampleFile/xml/sample.xml"
val rootTag = "RTS"
val rowTag = "COLUMNTYPE"
val sqlContext = MySparkDriver.getSqlContext().
  read.format("com.databricks.spark.xml")
if (rootTag != null && rootTag.size == 0)
  sqlContext.option("rootTag", rootTag)
sqlContext.option("rowTag", rowTag)
val xmlDF = sqlContext.load(xmlLocation)
xmlDF.show(false)

输出

[WrappedArray(4232323.0, 4.2451267E7),21-11-2000 01:04:34,NTS,212212112,100.0,100.0]

预计

[WrappedArray(4232323, 42451267),21-11-2000 01:04:34,NTS,212212112,100.0000,100.0000]

XML 文件

<RTS>
<COLUMNTYPE>
    <D1>
        <V1>4232323</V1>
        <V1>42451267 </V1>
        <V2>21-11-2000 01:04:34</V2>
        <V3>NTS</V3>
        <V4>212212112</V4>
        <V7>100.0000</V7>
        <V8>100.0000 </V8>

    </D1>
</COLUMNTYPE>
</RTS>

任何帮助将不胜感激。

【问题讨论】:

  • 如果您想要特定格式,请不要使用数字。使用所需格式的字符串。
  • 感谢回复,但我该如何确定数据类型
  • @zero323 请帮帮我

标签: scala apache-spark dataframe scientific-notation


【解决方案1】:

我不确定所有这些的意义何在,但我在这里看到基本上有两种选择:

  • 如果所有字段都可以解释为大整数,或者您的目标是将它们作为整数,则使用类型转换应该或多或少地提供您想要的东西,而不会显着丧失功能:

    case class D1(
      v1: Seq[Double], v2: String, v3: String, v4: Long, v7: Double, v8: Double
    )
    case class ColumnType(d1: D1)
    
    val df = Seq(ColumnType(D1(
      Seq(4232323, 42451267), 
      "21-11-2000 01:04:34",
      "NTS",
      212212112,
      100.0000,
      100.0000
    ))).toDF()
    
    df.select(struct(
      $"d1.v1".cast("array<bigint>").alias("v1"),
      $"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
    ).alias("d1"))
    
  • 如果您出于演示原因需要特定的数字格式,您可以将数据转换为格式化字符串数组:

    val toFormatted = udf((xs: Seq[Double]) => xs.map(x => f"$x%4.0f"))
    
    df.select(struct(
      toFormatted($"d1.v1").alias("v1"),
      $"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
    ).alias("d1"))
    

【讨论】:

    【解决方案2】:

    TypeCast 类的 isLong 函数无法预测数据类型,因为您的值“42451267”包含空格

    但是,如果您想将其视为长值,请定义您自己的自定义架构,其中“V1”列数据类型为 StringType

    val xmlLocation = "sampleFile/xml/sample.xml"
    val rootTag = "RTS"
    val rowTag = "COLUMNTYPE"
    val sqlContext = MySparkDriver.getSqlContext().
      read.format("com.databricks.spark.xml")
    if (rootTag != null && rootTag.size == 0)
      sqlContext.option("rootTag", rootTag)
    sqlContext.option("rowTag", rowTag)
    

    自定义架构

    val customSchema = StructType(Array(
      StructField("D1", StructType(
        Seq(StructField("V1", ArrayType(StringType, true), true),
          StructField("V2", StringType, true),
          StructField("V3", StringType, true),
          StructField("V4", LongType, true),
          StructField("V7", DoubleType, true),
          StructField("V8", DoubleType, true))), true)))
    sqlContext.schema(customSchema)
    

    为修剪值创建 udf

    import org.apache.spark.sql.functions._
    val toTrim = udf((xs: Seq[String]) => xs.map(_.trim()))
    

    应用 udf 并将类型转换为 long

    val xmlDF = sqlContext.load(xmlLocation).select(struct(
      toTrim(col("D1.V1")).cast("array<long>").alias("V1"),
      col("D1.V2"), col("D1.V3"), col("D1.V4"), col("D1.V7"), col("D1.V8"))
      .alias("D1"))
    xmlDF.printSchema
    xmlDF.show(false)
    

    【讨论】:

      猜你喜欢
      • 2011-07-18
      • 1970-01-01
      • 2018-07-09
      • 2013-09-27
      • 2021-01-27
      • 1970-01-01
      • 2019-09-05
      相关资源
      最近更新 更多