【发布时间】:2019-10-10 06:58:35
【问题描述】:
我想根据 Pyspark DataFrame 中行的第一个字符来拆分文件。
原始数据有一列,数据包括
文件名(如'DATE20191009')
文件内容(如'1'、'2'、'3')
输入示例文件(Pyspark DataFrame):
column1
Date20191009
1
2
3
Date20191010
1
4
5
我想获得一个 Pyspark DataFrame,其文件名作为数据的拆分。
文件名放在DataFrame的column1,文件的内容放在DataFrame的column2。
预期输出(Pyspark 数据帧)
column1 column2
Date20191009 [1,2,3]
Date20191010 [1,4,5]
我尝试了 Pandas DataFrame 和 Pyspark DataFrame.collect(),但都因数据量过大(超过 900 万行)而失败。
【问题讨论】:
-
请提供拆分信息,例如您将考虑第 1 列的哪个值和第 2 列的哪个值以及第一次出现的含义
-
感谢您的建议,我更详细地描述了我的问题。
-
谢谢,但我想要更多细节。您的最终名称将具有任何模式,以便我可以在文件名和文件内容中区分它。对于您的示例,我可以看到文件名的名称中始终包含 DATE 并且内容具有数值。是这种情况,请确认。
-
原始数据中,文件名以DATE开头加具体日期,文件内容为中文,这里我用NUMBER代替。
标签: python dataframe apache-spark pyspark apache-spark-sql