【问题标题】:convert string with nanosecond into timestamp in spark将带有纳秒的字符串转换为火花中的时间戳
【发布时间】:2020-09-17 23:13:37
【问题描述】:

有没有办法将带有纳秒的时间戳值转换为 spark 中的时间戳。我从 csv 文件中获取输入,并且 timstamp 值的格式为 12-12-2015 14:09:36.992415+01:00。这是我试过的代码。

val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00"))

val dateraw_df = sc.parallelize(date_raw_data).toDF("ID", "TIMESTAMP_VALUE")

val ts = unix_timestamp($"TIMESTAMP_VALUE", "MM-dd-yyyy HH:mm:ss.ffffffz").cast("double").cast("timestamp")

val date_df = dateraw_df.withColumn("TIMESTAMP_CONV", ts).show(false)

输出是

+---+-----------------------+---------------------+
|ID |TIMESTAMP_VALUE        |TIMESTAMP_CONV       |
+---+-----------------------+---------------------+
|1  |12-12-2015 14:09:36.992|null                 |
+---+-----------------------+---------------------+

我能够使用MM-dd-yyyy HH:mm:ss.SSS 格式转换以毫秒为单位的时间戳。问题在于纳秒和时区格式。

【问题讨论】:

  • 更正了 TIMESTAMP_CONV 列上的输出为空,表示转换失败。
  • 您可以尝试将自定义架构提供给 CSV,并将列值作为时间戳
  • 我尝试使用自定义模式`import org.apache.spark.sql.types._; val customSchema = StructType( Seq(StructField("ID", DataTypes.IntegerType, true), StructField("TIMESTAMP_VALUE", DataTypes.TimestampType, true) ) ); ` 但是现在我得到错误 java.lang.ClassCastException: scala.Tuple2 cannot be cast to java.lang.Integer
  • 也许我应该提到我使用的是 spark 1.6
  • 为什么不 TimeUnit.NANOSECONDS.convert(time, TimeUnit.MILLISECONDS) ????

标签: datetime apache-spark apache-spark-sql


【解决方案1】:

unix_timestamp 不会在这里做。即使您可以解析字符串(AFAIK SimpleDateFormat 不提供所需的格式),unix_timestamp has only second precision(强调我的):

def unix_timestamp(s: Column, p: String): Column

将具有给定模式的时间字符串(参见 [http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html])转换为 Unix 时间戳(以秒为单位),如果失败则返回 null。

您必须创建自己的函数来解析这些数据。一个粗略的想法:

import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

def to_nano(c: Column) = {
  val r = "([0-9]{2}-[0-9]{2}-[0-9]{4} [0-9]{2}:[0-9]{2}:[0-9]{2})(\\.[0-9]*)(.*)$"
  // seconds part
  (unix_timestamp(
    concat(
      regexp_extract($"TIMESTAMP_VALUE", r, 1),
      regexp_extract($"TIMESTAMP_VALUE", r, 3)
    ), "MM-dd-YYYY HH:mm:ssXXX"
  ).cast("decimal(38, 9)") + 
  // subsecond part
  regexp_extract($"TIMESTAMP_VALUE", r, 2).cast("decimal(38, 9)")).alias("value")
}

Seq("12-12-2015 14:09:36.992415+01:00").toDF("TIMESTAMP_VALUE")
  .select(to_nano($"TIMESTAMP_COLUMN").cast("timestamp"))
  .show(false)

// +--------------------------+
// |value                     |
// +--------------------------+
// |2014-12-28 14:09:36.992415|
// +--------------------------+

【讨论】:

    【解决方案2】:

    如果您不关心纳秒,这里有一个没有 UDF 的肮脏技巧来完成这项工作。 (我不能在需要的地方使用 UDF,也不能修改源)

    select CAST(UNIX_TIMESTAMP(substr(date,0,length(date)-4), "yyyy-MM-dd'T'HH:mm:ss.SSS") AS TIMESTAMP);
    

    例如

    select CAST(UNIX_TIMESTAMP(substr("2020-09-14T01:14:15.596444Z",0,length("2020-09-14T01:14:15.596444Z")-4), "yyyy-MM-dd'T'HH:mm:ss.SSS") AS TIMESTAMP);
    

    我基本上将字符串从纳秒部分中剥离出来,并使用 spark SimpleDateFormat 兼容解析器解析其余部分。

    请未来的雇主,不要用这个回复来评判我。

    【讨论】:

      猜你喜欢
      • 2019-05-28
      • 2019-10-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-02
      • 1970-01-01
      • 2018-12-09
      • 1970-01-01
      相关资源
      最近更新 更多