【发布时间】:2016-12-15 18:56:53
【问题描述】:
我正在尝试从 csv 文件中读取数据,将每一行拆分为相应的列。
但是当特定列本身带有逗号时,我的正则表达式会失败。
例如:a,b,c,"d,e,g,",f
我想要这样的结果:
a b c "d,e, g," f
这是 5 列。
这里是用逗号分割字符串的正则表达式
,(?=(?:"[^"]?(?:[^"])*))|,(?=[^"]+(?:,)| ,+|$)
但它对少数字符串失败,而对其他字符串有效。
我正在寻找的是,当我使用 pyspark 从 csv 读取数据到 dataframe/rdd 时,我想加载/保留所有列而不会出现任何错误
谢谢
【问题讨论】:
-
如果有多个开箱即用的选项,为什么还要麻烦呢? stackoverflow.com/a/34528938/1560062
标签: python regex csv pyspark rdd