列表的随机化答案

【问题标题】：Randomization of a list列表的随机化
【发布时间】：2021-07-02 14:02:43
【问题描述】：

我有一份 20,000 名学生的名单，这些学生根据他们在 Excel 表中的学术地位列出 - 本科生、研究生、博士、兼职。我想得到一个随机的学生名单。我可以使用 RAND 函数来创建一个随机列表，但是，存在一个表示不足和过度的问题。博士生在名单中最少，本科生最多，因此存在代表性不足和过多的问题。我该如何解决？

【问题讨论】：

你需要每个组（本科生和博士）的体重相同吗？
这似乎更像是数学或统计类型的问题，而不是编程问题
解决方案是弄清楚你想如何解决过度代表性的问题：你想随机抽取博士生样本和按比例随机抽取本科生样本，还是...... .?
我发现这必须让你朝着正确的方向前进：got-it.ai/solutions/excel-chat/excel-tutorial/random/…
请提供一个样本，以便帮助您的人更容易复制。

标签： excel excel-formula excel-2007

【解决方案1】：

似乎最公平的方法是分别对待每个组。将所有博士生、非全日制博士生、本科生和研究生分开，这样一个博士生就与其他博士生相比具有公平的权重，依此类推。

然后是博士、兼职、本科和研究生的每个“获胜者”的结果。那么每个“获胜者”都有四分之一的机会获胜。

【讨论】：

“赢家”是什么意思？这如何解决代表性问题？
除非我弄错了，否则我对问题的理解是博士、研究生、本科生和兼职学生的数量不成比例，所以当使用 Excel 随机选择一个学生最多的组时in 将比其他人更频繁地被选中。我的建议是通过每组随机选择一名学生来给每组加权 0.25。然后随机选择这 4 名学生中的一名，这样学生最少的小组就有相同的机会被选为最大的小组
OP 想要什么并不完全清楚。我意识到，作为一个新的贡献者，除非有人回答你的答案，否则你不能发表评论。这不是最好的游戏化规则，因为新贡献者在提出答案之前无法寻求明确性。如果目标是赋予每个组相同的权重，那么您的方法是有意义的。我赞成您的回答 - 希望您能尽快达到 50，以便您可以评论问题。

【解决方案2】：

您对选择方法的关注是正确的。如果学术标准是混合人群中的一个区别因素，那么这是一个可能的解决方案。

Excel 2007 具有挑战性，因此我将提出一个有点繁重的解决方案，因为我不确定我能否在我的 PC 上可靠地重新创建该环境。如果这是 Excel 2019 或 365，我不会提出我将要介绍的内容。所以，这可能缺乏优雅。

第 1 步 - 创建您的目标样本量表

如果您希望每个学术地位的样本量具有统计学意义，那么您需要一个表格，其中包含每个组（即本科生、研究生、博士等）的人口规模以及目标样本量作为这些人口规模的函数。这是我创建的一个示例，用于说明如何实施解决方案。您将需要一个包含真实数据的类似表格：

为了创建目标样本量表，我使用了以下参考：https://www.surveymonkey.com/mp/sample-size-calculator/。

你可以把它放在你喜欢的任何地方，但我在我命名为 ref 的工作表的单元格 A1:C5 中有我的。

第 2 步 - 按学术地位区分学生

现在您需要按学术地位来区分学生。您可以以任何对您有意义的方式执行此操作：

将每个组放入单独的工作表中；
将每个组放入同一工作表上的单独表格中；
将每个组放在同一个表中，但在表内将它们分开

重点是让它们分开。

由于我的不确定性，这就是我做事不同的地方超过 Excel 2007。我希望将列表放在一起，但这将需要一些关于 Excel 2007 将如何进行的大型假设交付结果。

为了说明这项技术，我创建了一个名为 Academic Standing 的专栏和另一个名为 Student ID 的专栏，假设您已经拥有类似的东西。我制作了一组只有博士生的数据，另一组只有研究生的数据，等等。你可以随心所欲地这样做，但由于我将用于选择的方法，它们需要分开。

然后，我在每个学生行旁边创建了一个名为 RandKey 的列，其中包含公式 =RAND()。

旁边是一个名为 Selected 的列，它将给出结果。 Selected 将具有公式：=RANK(C2,$C$2:$C$301)<=ref!$C$2，给出 TRUE/FALSE 答案。然后将该公式复制到整个 Selected 列。

注意：$C$2:$C$301 是仅适用于博士生的 RandKeys 范围。这这就是我说的让他们分开的意思。如果毕业生在他们的在我的示例中使用自己的工作表，公式为： =RANK(C2,$C$2:$C$4301)<=ref!$C$3。本科生将是 =RANK(C2,$C$2:$C$12001)<=ref!$C$4 和兼职人员将是 =RANK(C2,$C$2:$C$3401)<=ref!$C$5.

此公式将每个 RandKey 与学生子群体（博士、研究生...）的所有其他 RandKey 进行比较。然后它会查看 Target Sample Sizes 的表参考，以查看该排名是否

通过这种方式，您始终可以准确地提供您希望代表该学术地位人群的学生人数。每次计算 (F9) 时，它都会生成一个新的随机样本，但它会准确选择对给定总体和置信区间具有统计意义的样本量。

第 3 步 - 使用结果

我只是在说明一种方法。您可能会想出一种方法来使它更清洁、更易于使用，但基本方法将保持不变。使用读取每个学生数据集（学生 ID，已选择）和过滤器以仅显示 TRUE 选择的数据透视表来汇总结果可能很有用。您可以双击结果并生成学生 ID 列表。

如果我要在 Excel 365 中执行此操作，我会将学生数据放在一起并使用动态数组生成每个 F9 的学生 ID 列表。

无论如何，我希望这会有所帮助。

【讨论】：