【发布时间】:2017-11-06 16:15:50
【问题描述】:
我们正在 PySpark 中开发大量小型 Spark 应用程序。问题是所有程序都需要非常相似的设置,并且经常需要做一些常见的事情,比如创建目录和类似的事情。应用程序通常只是简单地进行查询并将其写入 CSV 文件。我想知道是否有人知道管理这类脚本的好方法,以使每个应用程序都专注于逻辑而不是样板。
在 Web 开发中,人们发明了 Spring 来简化常见任务并具有合理的默认值。在 Spark 世界中,我们又回到了使用 shell 脚本来运行 Spark 应用程序。打包 pyspark 应用程序是否有最佳实践? Spark 文档只解释了机制,而不是编写 Spark 应用程序的日常使用。
【问题讨论】:
标签: apache-spark pyspark