【发布时间】:2012-09-14 07:32:44
【问题描述】:
我正在尝试将我的计算与rpc:pmap 并行化。但我对它的性能有点困惑。
这是一个简单的例子:
-module(my_module).
-compile(export_all).
do_apply( X, F ) -> F( X ).
首先——在单节点上测试:
1> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{208198,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
之后我连接了第二个节点(我的操作系统中的第二个 erlang shell 进程):
(foo@Stemm.local)24> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{446284,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
我终于连接了第三个节点:
(foo@Stemm.local)26> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{483399,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
所以 - 我的 三节点性能比单节点性能更差。
我意识到节点之间的通信存在一些开销。但是我怎么知道在哪些情况下在多个节点上执行计算更好呢?
编辑:
我在 shell 中的逐步测试:
1> c(my_module).
{ok,my_module}
2>
2> List = lists:seq(1,10000).
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27,28,29|...]
单节点性能测试:
3> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{207346,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
进入网络环境:
4> net_kernel:start([one]).
{ok,<0.20066.0>}
(one@Stemm.local)5> erlang:set_cookie(node(), foobar).
true
添加第二个节点:
(one@Stemm.local)6> net_kernel:connect('two@Stemm.local').
true
(one@Stemm.local)7>
(one@Stemm.local)7> nodes().
['two@Stemm.local']
用两个节点测试性能:
(one@Stemm.local)8> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{510733,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
连接第三个节点:
(one@Stemm.local)9> net_kernel:connect('three@Stemm.local').
true
(one@Stemm.local)10> nodes().
['two@Stemm.local',
'three@Stemm.local']
用三个节点测试性能:
(one@Stemm.local)11> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{496278,
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27|...]}
P.S. 我猜性能会下降,因为我在同一台物理机器中将每个节点创建为一个新的 erlang-shell 进程。但我不知道我是否正确。
【问题讨论】:
-
能否在调用 timer:tc 之前尝试生成列表?例如seq=lists:seq(1,10000), timer:tc(..., Seq)。
-
@Isac 是的,我试过了,但得到了类似的结果。我已经用 shell 中的分步测试描述编辑了我的问题。
标签: performance parallel-processing erlang pmap