【发布时间】:2019-07-17 13:10:37
【问题描述】:
比较具有相同架构和主键列的两个 csv 文件(数百万行)并打印出差异的最佳方法是什么。例如,
CSV1
Id name zip
1 name1 07112
2 name2 07234
3 name3 10290
CSV2
Id name zip
1 name1 07112
2 name21 07234
4 name4 10290
比较修改后的文件 CSV2 和原始数据 CSV1,
输出应该是
Id name zip
2 name21 07234 Modified
3 name3 10290 Deleted
4 name4 10290 Added
Spark SQL 新手,我正在考虑将数据导入 Hive 表,然后运行 Spark SQL 来识别更改。
1) 是否有任何行修改方法可用于识别行是否已修改,而不是比较每列中的值? 2) 有没有更好的方法可以使用 Spark 或其他 HDFS 工具来实现?
感谢反馈
【问题讨论】:
-
投反对票:你试过什么?
-
如果它有效,请接受答案,但它确实......
-
@thebluephantom 是的.. 它有效!我还将使用哈希码(以识别修改的行)针对自定义 C#/python 代码运行一些基准测试。希望这种火花方法会表现得更好。感谢您的帮助!
标签: apache-spark hive apache-spark-sql hdfs bigdata