【发布时间】:2017-08-24 13:19:11
【问题描述】:
我有带有特殊分隔符的文本文件:
35¡1682¡231¡20.00000000¡50.00000000¡0.00000000¡0.00000000¡304.1100¡333.110000
¡I¡1¡0¡10¡SHORT NAME
1105682¡0¡100000.00000000¡100000.00000000¡1105682¡D¡D
我想根据存在的特殊分隔符¡ 在 spark 中拆分此文件。
请提出解决方法。
此命令的输出为
val input_header = sc.textFile(path).first()
当我在 RDD 中读取这个文件并显示它的内容时。其显示分隔符为?
【问题讨论】:
-
您检查过文件的 UTF 编码吗?
标签: hadoop apache-spark pyspark apache-spark-sql spark-dataframe