【问题标题】:Spark alternative for Redshift REGEXP_SUBSTR functionRedshift REGEXP_SUBSTR 函数的 Spark 替代方案
【发布时间】:2017-09-27 01:23:07
【问题描述】:

尝试将部分 Redshift 查询转换为 SparkSQL 或 SQL 和 UDF 的组合:

REGEXP_SUBSTR(referrer, '[^/]+\\.[^/:]+') as referrer_domain,

尝试使用regexp_extract(referrer, '[^/]+\\.[^/:]+', 1),但这似乎不是以相同的方式工作并且返回的结果不一致。

任何指针表示赞赏!

【问题讨论】:

  • 你可以试试 regexp_replace(referrer, '[^/]+\\.[^/:]+', $1)

标签: apache-spark apache-spark-sql amazon-redshift pyspark-sql


【解决方案1】:

你应该可以在 spark sql 中使用 regexp_extract,像这样 -

regexp_extract(columnName, '(YourRegex)', 1) as aliasName

注意正则表达式周围的 () 以捕获组。希望对您有所帮助!

【讨论】:

  • 请查看原始问题 - 您发布的是相同的代码提供了不同/不一致的结果。
  • 不。您正在谈论的代码中缺少圆括号。
  • 如果您提供示例输入和预期输出也会有所帮助。这样,解决方案提供商可以确认更多。谢谢。
猜你喜欢
  • 2015-09-10
  • 1970-01-01
  • 1970-01-01
  • 2018-11-14
  • 1970-01-01
  • 2017-11-06
  • 1970-01-01
  • 2018-09-13
  • 1970-01-01
相关资源
最近更新 更多