【发布时间】:2016-03-10 11:01:48
【问题描述】:
我每个 4 machine learning models 的大小为 2GB,即总共有 8GB。我一次收到大约100 requests 的请求。每个请求都占用1sec。
我有一台机器有15GB RAM。现在,如果我在 Gunicorn 中增加 number of workers,总内存消耗会很高。所以我不能将工人人数增加到 2 人以上。
所以我对此有几个问题:
- 工人如何在他们之间
share models or memory? - 哪种类型的工人适合,
sync or async考虑到上述情况? - 如果是解决方案,如何在
Gunicorn中使用preload选项?我使用它,但它没有帮助。可能是我做错了。
这是我正在使用的 Flask 代码
https://github.com/rathee/learnNshare/blob/master/agent_api.py
【问题讨论】:
标签: concurrency flask machine-learning gunicorn