【问题标题】:Normal distribution of large random strings大随机字符串的正态分布
【发布时间】:2014-10-08 16:48:16
【问题描述】:

在编码理论中我遇到了一个问题:

从F(2,n)的一个字段中选择两个随机字符串,即每个位只能取0和1,字符串长度为n位。

现在,我们想知道两个字符串之间不同位数的分布。 (即汉明距离)

实验表明它非常接近0.5,并且分布是正态分布。有什么方法可以证明这一点吗?

(简单模型就像,我将两个硬币扔 n 次并计算差异的数量,例如 0.49n;然后重复这个实验足够大的 k 次。这个差异数量在 k 上的分布是什么?)

【问题讨论】:

  • 你好,这个问题对 math.stackexchange.com 有好处
  • 这个问题似乎离题了,因为它纯粹是关于统计数据,与编程无关

标签: random distribution probability random-sample


【解决方案1】:

不同位的个数是一组自变量(即一个指示变量,不同为1,相同为0)的总和,它们的方差都是有限的;因此该数字的分布近似为高斯分布,并且随着n 的增加而变得更加高斯。

确切的分布是二项式的,因为它是具有恒定概率的独立 0/1 变量的总和(指标变量都具有相同的概率,即指标=1 为 1/2,指标=0 为 1/2) .

我正在凭记忆工作;未经本人验证,请勿接受此答案。

【讨论】:

    【解决方案2】:

    令 X 和 Y 是独立的随机变量,其值是从长度为 n 的二进制字符串集合中统一抽取的:X, Y ~ U({0,1}n)。

    令 d(X, Y) 为汉明距离。

    那么 d(X, Y) 是一个从Binomial distribution 中抽取的随机变量,有 n 个可能的事件,每个事件的概率 p = 0.5: d(X, Y) ~ B(n, 0.5)。

    它的期望是 0.5 × n。

    其标准差为 0.5 × √n。

    【讨论】:

      【解决方案3】:

      如果位以 1/2 的概率得到 0 或 1 独立绘制,则位置 k 的一致性可以以第一个字符串的第 kth 位置的结果为条件 -无论是 0 还是 1,第二个字符串都有 1/2 的匹配概率。这使得 p=1/2 的逐位分布Bernoulli。汉明距离是这些伯努利结果的总和,n 个独立伯努利的总和具有binomial(n,p) 分布——这是一个精确的结果。你的实验应该产生 n/2 的平均值和 np(1-p) 或 n/4 的方差。 Central Limit Theorem 告诉我们二项分布将收敛到正态分布,即 n --> 无穷大。工程经验法则是,当 np > 10 和 n(1-p) > 10 时,近似值就足够了。

      【讨论】:

        猜你喜欢
        • 2015-03-05
        • 2011-03-17
        • 2020-05-01
        • 2013-02-23
        • 1970-01-01
        • 2017-07-24
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多