【发布时间】:2016-12-13 04:33:30
【问题描述】:
我有两个数据集名称 dataset1 和 dataset2 和 dataset1 就像
empid empame
101 john
102 kevin
而dataset2 就像
empid empmarks empaddress
101 75 LA
102 69 NY
dataset2 将非常庞大,我需要对这两个数据集进行一些操作,并且需要从以上两个datasets 中获取结果。
据我所知,现在我有两种选择来处理这些数据集:
1.将dataset1(较小的)存储为hive查找表,并通过Spark
进行处理2.通过使用 Spark 广播变量,我们可以处理这些dataset。
请任何人建议我哪个是更好的选择。
【问题讨论】:
-
现在这些数据集存在于配置单元或文本文件中吗?
-
存在于文本文件中
标签: hadoop apache-spark dataframe spark-dataframe lookup