【问题标题】:SnappyData importing data from multiple csv files into column or row tablesSnappyData 将数据从多个 csv 文件导入列或行表
【发布时间】:2017-06-29 13:43:52
【问题描述】:

我是 SnappyData 的新手,我正在尝试将大量数据导入其中。因此,数据是从不同的来源创建的,并以 csv 文件的形式存储到每个位置的 zip 文件中。假设 zip 的结构是 zip1、zip2... zipn 并且每个 zip 包含完全相同的(header.csv、detail1.csv、detail2.csv、... detail15.csv)每个 .csv 具有相同的结构,这意味着来自 zip1 的 detail5.csv 与来自 zipn 的 detail5.csv 具有相同的列。所以我的问题是如何自动化导入?这样一堆数据有导入命令吗?第一次很容易,因为我使用创建外部表,但是如何导入其余的 idata?或者,更好的是,如何将所有数据导入列(因为我们有很多数据)或行(因为我们可以根据数据来自的位置对数据进行分区)表?

【问题讨论】:

  • 我会尽快为您解答

标签: csv import snappydata


【解决方案1】:

导入 CSV 的最快方法是使用 DataframeReader 中对 CSV 的内置 spark 支持。 Afaik,不支持您需要的自定义级别。但是,您可以轻松运行 snappy-job 以选择这些归档文件中具有相同架构的文件,并使用 org.apache.spark.sql.DataFrameReader.csv 并行读取

【讨论】:

    猜你喜欢
    • 2012-08-23
    • 1970-01-01
    • 1970-01-01
    • 2016-06-23
    • 1970-01-01
    • 2012-04-17
    • 2012-05-15
    • 1970-01-01
    • 2012-05-15
    相关资源
    最近更新 更多