【问题标题】:Randomization of a list列表的随机化
【发布时间】:2021-07-02 14:02:43
【问题描述】:

我有一份 20,000 名学生的名单,这些学生根据他们在 Excel 表中的学术地位列出 - 本科生、研究生、博士、兼职。我想得到一个随机的学生名单。我可以使用 RAND 函数来创建一个随机列表,但是,存在一个表示不足和过度的问题。博士生在名单中最少,本科生最多,因此存在代表性不足和过多的问题。我该如何解决?

【问题讨论】:

  • 你需要每个组(本科生和博士)的体重相同吗?
  • 这似乎更像是数学或统计类型的问题,而不是编程问题
  • 解决方案是弄清楚你想如何解决过度代表性的问题:你想随机抽取博士生样本和按比例随机抽取本科生样本,还是...... .?
  • 我发现这必须让你朝着正确的方向前进:got-it.ai/solutions/excel-chat/excel-tutorial/random/…
  • 请提供一个样本,以便帮助您的人更容易复制。

标签: excel excel-formula excel-2007


【解决方案1】:

似乎最公平的方法是分别对待每个组。将所有博士生、非全日制博士生、本科生和研究生分开,这样一个博士生就与其他博士生相比具有公平的权重,依此类推。

然后是博士、兼职、本科和研究生的每个“获胜者”的结果。那么每个“获胜者”都有四分之一的机会获胜。

【讨论】:

  • “赢家”是什么意思?这如何解决代表性问题?
  • 除非我弄错了,否则我对问题的理解是博士、研究生、本科生和兼职学生的数量不成比例,所以当使用 Excel 随机选择一个学生最多的组时in 将比其他人更频繁地被选中。我的建议是通过每组随机选择一名学生来给每组加权 0.25。然后随机选择这 4 名学生中的一名,这样学生最少的小组就有相同的机会被选为最大的小组
  • OP 想要什么并不完全清楚。我意识到,作为一个新的贡献者,除非有人回答你的答案,否则你不能发表评论。这不是最好的游戏化规则,因为新贡献者在提出答案之前无法寻求明确性。如果目标是赋予每个组相同的权重,那么您的方法是有意义的。我赞成您的回答 - 希望您能尽快达到 50,以便您可以评论问题。
【解决方案2】:

您对选择方法的关注是正确的。如果学术标准是混合人群中的一个区别因素,那么这是一个可能的解决方案。

Excel 2007 具有挑战性,因此我将提出一个有点繁重的解决方案,因为我不确定我能否在我的 PC 上可靠地重新创建该环境。如果这是 Excel 2019 或 365,我不会提出我将要介绍的内容。所以,这可能缺乏优雅。

第 1 步 - 创建您的目标样本量表

如果您希望每个学术地位的样本量具有统计学意义,那么您需要一个表格,其中包含每个组(即本科生、研究生、博士等)的人口规模以及目标样本量作为这些人口规模的函数。这是我创建的一个示例,用于说明如何实施解决方案。您将需要一个包含真实数据的类似表格:

为了创建目标样本量表,我使用了以下参考:https://www.surveymonkey.com/mp/sample-size-calculator/

你可以把它放在你喜欢的任何地方,但我在我命名为 ref 的工作表的单元格 A1:C5 中有我的。

第 2 步 - 按学术地位区分学生

现在您需要按学术地位来区分学生。您可以以任何对您有意义的方式执行此操作:

  • 将每个组放入单独的工作表中;
  • 将每个组放入同一工作表上的单独表格中;
  • 将每个组放在同一个表中,但在表内将它们分开

重点是让它们分开。

由于我的不确定性,这就是我做事不同的地方 超过 Excel 2007。我希望将列表放在一起,但这 将需要一些关于 Excel 2007 将如何进行的大型假设 交付结果。

为了说明这项技术,我创建了一个名为 Academic Standing 的专栏和另一个名为 Student ID 的专栏,假设您已经拥有类似的东西。我制作了一组只有博士生的数据,另一组只有研究生的数据,等等。你可以随心所欲地这样做,但由于我将用于选择的方法,它们需要分开。

然后,我在每个学生行旁边创建了一个名为 RandKey 的列,其中包含公式 =RAND()

旁边是一个名为 Selected 的列,它将给出结果。 Selected 将具有公式:=RANK(C2,$C$2:$C$301)<=ref!$C$2,给出 TRUE/FALSE 答案。然后将该公式复制到整个 Selected 列。

注意:$C$2:$C$301 是仅适用于博士生的 R​​andKeys 范围。这 这就是我说的让他们分开的意思。如果毕业生在他们的 在我的示例中使用自己的工作表,公式为: =RANK(C2,$C$2:$C$4301)<=ref!$C$3。本科生将是 =RANK(C2,$C$2:$C$12001)<=ref!$C$4 和兼职人员将是 =RANK(C2,$C$2:$C$3401)<=ref!$C$5.

此公式将每个 RandKey 与学生子群体(博士、研究生...)的所有其他 RandKey 进行比较。然后它会查看 Target Sample Sizes 的表参考,以查看该排名是否

通过这种方式,您始终可以准确地提供您希望代表该学术地位人群的学生人数。每次计算 (F9) 时,它都会生成一个新的随机样本,但它会准确选择对给定总体和置信区间具有统计意义的样本量。

第 3 步 - 使用结果

我只是在说明一种方法。您可能会想出一种方法来使它更清洁、更易于使用,但基本方法将保持不变。使用读取每个学生数据集(学生 ID,已选择)和过滤器以仅显示 TRUE 选择的数据透视表来汇总结果可能很有用。您可以双击结果并生成学生 ID 列表。

如果我要在 Excel 365 中执行此操作,我会将学生数据放在一起并使用动态数组生成每个 F9 的学生 ID 列表。

无论如何,我希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 2020-05-02
    • 2011-12-06
    • 1970-01-01
    • 1970-01-01
    • 2021-03-04
    • 2013-07-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多