【发布时间】:2011-08-28 01:51:09
【问题描述】:
我在 Google 上花了一些时间寻找 R 的队列/负载平衡器包。
我想要达到的目标:
- 从远程前端执行多个相互独立的 R 函数
- 利用 2 个双核服务器作为 R 后端
知道:
- 每个函数通常在 10 到 30 秒内处理完毕
- 平均每 5 分钟(但它可以同时)将一组要执行的 8-15 个函数发送到后端(排队处理:先进先出)。 5分钟是平均值,也可以同时发送几套
- 2x2 R 实例已经在运行,加载所需的包后,它们始终相同,因此无需一直重新加载它们
- 正在传输的输入数据量非常低:最大 50k
这里没有代码并行化主题(snow、snowfall foreach、condor等传统集群方案)
你知道一个为 R 设计的好的包/工具可以提供帮助吗?
非常感谢!
【问题讨论】:
-
我不知道存在任何东西。作为一个起点,我会考虑像 Redis + doRedis 包这样的东西。 Resque 是基于 Redis (github.com/defunkt/resque) 构建的流行 ruby 队列管理器。
-
嗨,诺亚,感谢您的回答。据我了解,redis 是一个可以被 R 以外的其他客户端访问的数据库,但是与非并行计算的 MySQL 相比有什么优势呢?
标签: r job-scheduling queuing workload