【发布时间】:2016-09-13 20:09:35
【问题描述】:
我有一个尺寸为 100*512 的 csv 文件,我想在 spark 中进一步处理它。该文件的问题在于它不包含标题,即 column names 。我需要这些列名以在 machine learning 中进行进一步的 ETL。我在另一个文件(文本文件)中有列名。我必须将这些列名作为标题放在上面提到的 csv 文件中。
例如
CSV 文件:-
ab 1 23 sf 23 hjh
hs 6 89 iu 98 adf
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
列标题文件:-
一、二、三、四、五、六
我想要这样的输出:-
一二三四五六
ab 1 23 sf 23 hjh
hs 6 89 iu 98 adf
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
请提出一些将列标题添加到 CSV 文件的方法。(不替换 csv 文件的行。 我通过将其转换为 pandas 数据框进行了尝试,但无法获得预期的输出。
【问题讨论】:
-
只需在将 csv 数据输入文件之前写入包含标题的行。你试过什么?
-
你说的不替换csv文件的行是什么意思?