【发布时间】:2016-07-02 16:08:11
【问题描述】:
我尝试使用内部依赖于 apache commons 库 (https://github.com/databricks/spark-csv) 的 apache sparks CSV reader 解析一个相当复杂的 CSV。
我尝试了不同的组合
quoteMode 和 escape 但无法使其工作,例如防止异常。您是否有任何提示哪些参数会支持这种嵌套结构?
ERROR CsvRelation$: Exception while parsing line: "Gabriella's Song" From The Motion Picture "The Mission";
java.io.IOException: (line 1) invalid char between encapsulated token and delimiter
我知道sed 可用于预处理数据。但是,如果集成到 Spark 中会很棒,例如如果不需要进一步的预处理。我没有找到指定正则表达式的可能性。
CSV 文件如下所示:
"Gabriella's Song" From The Motion Picture "The Mission";
【问题讨论】:
-
您是否厌倦了使用替代解析引擎?
-
到目前为止不是因为我不知道哪个引擎会支持它。你知道这样的引擎吗?
-
您在这里没有太多选择 :)
spark-csv仅支持univocity作为替代方案。 -
但是
spark-csvsupportsparserLib- 不应该在那里集成其他 CSV 库吗? -
对于这个输入设置quote选项到
"以外的东西就足够了。问题是它是否适合你。
标签: csv apache-spark apache-commons