【发布时间】:2018-04-10 05:25:08
【问题描述】:
我正在尝试弄清楚 set.seed() 函数在 R 中的工作原理。
我很好奇set.seed( 3 ) 和set.seed( 4 ) 是否比set.seed( 3 ) 和set.seed( 100 ) 更容易产生重复样本?
如果是,在出现set.seed( 4 ) 生成的样本中的匹配项之前,set.seed( 3 ) 可以生成多少个唯一样本?
如果不是,我是否可以得出结论,set.seed( n ) 中的不同 n 只要它们不同就没有任何意义?
我听说了一些与独立随机流有关的事情?这个n和那个有关系吗?
如果是,如何定义一个独立的随机流? 我已经阅读了What does the integer while setting the seed mean?,但它似乎没有回答我的问题。
【问题讨论】:
-
哎呀......这很难回答,因为它取决于底层的 PRNG。通常你会期望任何 2 个种子是两个不同的 PRNG 路径......如果由唯一种子(无论是 1 和 2 还是 1 和 1000)播种,这对于两个独立的流来说也足够了......但实际上播种很困难,纯粹的 MersenneTwister 实现可能会惩罚您仅通过使用 2 个不同的种子来获得独立的流(同时保持所有其他参数;可能隐藏在 R 中,常量)。您的问题也非常非正式且难以处理(在匹配之前生成...)更准确!
-
这也可能有额外的帮助:stats.stackexchange.com/questions/86285/…
标签: r random parallel-processing seed