【问题标题】:Split function in SparkSpark中的拆分功能
【发布时间】:2017-10-24 18:19:18
【问题描述】:

我想将地址分成两列,分别为 streetno 和 streetname,例如 select address1 from customer

前样的地址

2719 石溪博士 并将它们存储到街道编号为 2719 和街道名称为 STONE CREEK DR。

从表中选择 regexp_extract(address1,'(?

样本数据:

Input

预期输出:

Output

但是当我运行上述查询时,我在 spark 中没有得到任何结果,而是在 Hive 中得到结果。

【问题讨论】:

    标签: apache-spark pyspark


    【解决方案1】:

    如果我理解正确:

    >>> qry = """
    ... select split(addressl, '\\\s+')[0] as streetnumber,
    ...        regexp_replace(addressl, '^\\\d+\\\s+', '') as streetname
    ... from table"""
    >>> spark.sql(qry).show()
    +------------+-----------------+
    |streetnumber|       streetname|
    +------------+-----------------+
    |         100|HORACE GREELEY RD|
    |          55|    School Street|
    |        2893|       MASHIE CIR|
    |        1200|         JEWEL DR|
    |         201|       W RIVER RD|
    +------------+-----------------+
    

    【讨论】:

    • @balajis,很高兴我能帮上忙。 :) 如果您认为 accepting 回答了您的问题,请考虑其答案
    猜你喜欢
    • 1970-01-01
    • 2013-02-08
    • 2016-02-26
    • 2011-11-17
    • 1970-01-01
    • 1970-01-01
    • 2012-07-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多