【发布时间】:2017-02-07 21:26:21
【问题描述】:
我读过
- What is the difference between Spark DataSet and RDD
- Difference between DataSet API and DataFrame
- http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes
- https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
在 Spark 1.6 中,Dataset 似乎更像是改进的 DataFrame ("Conceptually Spark DataSet is just a DataFrame with additional type safety")。在 Spark 2.0 中,它看起来更像 improved RDD。前者有一个关系模型,后者更像一个列表。对于 Spark 1.6,据说 Datasets 是 DataFrames 的扩展,而在 Spark 2.0 中,DataFrames 只是包含 Type [Row] 的 Datasets,使 DataFrames 成为 Datasets 的特例,使 DataFrames 成为 Datasets 的特例。现在我有点困惑。 Spark 2.0 中的数据集在概念上更像 RDD 还是 DataFrame? RDD 与 Spark 2.0 中的数据集之间的概念有什么区别?
【问题讨论】: