【发布时间】:2019-08-08 11:47:00
【问题描述】:
从链接sql-data-sources-parquet 我看到下面的代码 sn-p 存储数据拼花格式,但是 根据我对wiki 的理解,它只是一种格式,而不是存储引擎。所以 Parquet 将存储 某些存储引擎(如 HDFS/S3/Cassandra 等)上特定格式的数据。不是吗?所以我的问题是下面的代码 sn-p 将 存储数据,因为我没有看到任何提及 HDFS/S3/Cassandra 等存储引擎
Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");
// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");
// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");
【问题讨论】:
标签: java apache-spark parquet