【发布时间】:2017-05-05 22:22:09
【问题描述】:
我是 Apache Spark 的初学者,我确实有以下任务:
我正在从数据源读取记录 - 在 spark 转换中 - 需要通过调用外部 Web 服务的数据来增强这些记录,然后才能对其进行进一步处理。
webservice在一定程度上会接受并行调用,但一次只允许发送几百条记录。此外,它很慢,因此尽可能多地进行批处理和并行请求肯定会有所帮助。
有没有办法以合理的方式用火花做到这一点?
我想到了读取记录,将它们预处理到另一个数据源,然后一次读取“API-Queue”数据源 500 条记录(如果可能有多个进程)并将记录写入下一个数据源,并使用这个结果数据源做最后的转换。
需要遵守这些奇怪限制的唯一地方是在 API 调用中(这就是为什么我认为一些中间数据格式/数据源是合适的)。
你有什么想法或方向吗?
【问题讨论】:
标签: apache-spark