【问题标题】:array sliding with spark dataframes数组滑动火花数据帧
【发布时间】:2019-04-12 00:48:24
【问题描述】:

假设数据为 T_32_P_1_A_420_H_60_R_0.30841494477846165_S_0 使用scala spark dataframe,如何拆分成如下格式

T 32
P 1
A 420
H 60
R 0.30841494477846165
S 0

非常感谢任何建议。

提前致谢

【问题讨论】:

  • 您想要一行包含 T、P、A、H、R、S 列的数据?
  • 数据是`T_32_P_1_A_420_H_60_R_0.30841494477846165_S_0`单行吗?还是整个数据?
  • 您能否再添加一些输入和预期结果
  • 另一个例子

标签: apache-spark dataframe sliding


【解决方案1】:

另一个例子

+-------+-------------+-----------------------------------------------------------------------------+
|Pcode  |Pname        |Pdetails                                                                     |
+-------+-------------+-----------------------------------------------------------------------------+
|Water12|HimalayaWater|Price,1.20;Qty,250ml;Brand,Himalaya;Class,Liquid                             |
|Snack23|Mad Pringles |Price,0.65;Qty,165 g;Brand,MadLtd;Class,Snacks;Batch,12312334;Exp,12/Feb/2012|
+-------+-------------+-----------------------------------------------------------------------------+

我希望将 pdeatils 拆分为两列 Type 和 Value,预期输出为

+-------+-------------+-----+-----------+
|Pcode  |Pname        |Type |Value      |
+-------+-------------+-----+-----------+
|Water12|HimalayaWater|Price|1.20       |
|Water12|HimalayaWater|Qty  |250ml      |
|Water12|HimalayaWater|Brand|Himalaya   |
|Water12|HimalayaWater|Class|Liquid     |
|Snack23|Mad Pringles |Price|0.65       |
|Snack23|Mad Pringles |Qty  |165 g      |
|Snack23|Mad Pringles |Brand|MadLtd     |
|Snack23|Mad Pringles |Class|Snacks     |
|Snack23|Mad Pringles |Batch|12312334   |
|Snack23|Mad Pringles |Exp  |12/Feb/2012|
+-------+-------------+-----+-----------+

【讨论】:

    猜你喜欢
    • 2020-08-09
    • 2018-02-15
    • 1970-01-01
    • 1970-01-01
    • 2016-05-01
    • 2018-02-18
    • 1970-01-01
    • 2018-10-27
    • 2017-05-16
    相关资源
    最近更新 更多