【发布时间】:2018-02-23 11:10:45
【问题描述】:
在 pyspark 中读取带有换行符的 CSV 我想用 pyspark 阅读一个“合法的”(它遵循RFC4180)CSV,它在某些行中有断线(CRLF)。下一个代码示例显示了使用 Notepad++ 打开它时的样子:
我尝试通过 sqlCtx.read.load 使用 format ='com.databricks.spark.csv. 读取它,结果在这些特定情况下,数据集显示两行而不是一行。我使用的是 Spark 2.1.0.2 版本。
是否有任何读取 csv 的命令或替代方法允许我将这两行仅作为一个读取?
【问题讨论】:
标签: python-3.x csv apache-spark pyspark