【发布时间】:2020-08-11 06:05:32
【问题描述】:
我有两个 TSV 格式的数据集。我想在 spark scala 中读取 TSV 文件并执行分析。文件 1 有 8 月数据,文件 2 有 9 月数据。 如何在 spark 中使用 scala 读取两个 tsv 文件并将输出保存到另一个 tsv 文件。我想在两个 RRD 上使用交集操作
以下是两种 TSV 文件格式。 文件 1
文件 2
输出文件应该有两个月份都可以访问的 App_Name。
输出文件数据。
【问题讨论】:
-
你至少尝试过什么吗?
-
我已读取文件但无法执行交集操作以获得所需的 o/p val spark = SparkSession.builder.getOrCreate() val file1 = spark.read.option("sep", " \t").csv("file1path") val file2 = spark.read.option("sep", "\t").csv("file2path")
标签: scala apache-spark rdd