【发布时间】:2019-08-25 10:17:09
【问题描述】:
我有一个当前的 Spark 管道,它在相对少量的数据上运行。对这么多数据的性能测试只能让我到目前为止,理想情况下我想在大量数据上测试火花管道。
是否有任何方法或工具可以模拟或模拟大量输入数据以供 spark 处理,尤其是当输入来自 Amazon S3 时?当我开始获得大量数据时,我不希望火花爆炸。
如果有帮助,我有一个输入数据必须遵守的 JSON 模式。
我不介意解决方案是在 spark 本身中生成假输入数据还是在 s3 上生成假输入数据。
【问题讨论】:
标签: json apache-spark amazon-s3