【发布时间】:2021-03-01 20:10:48
【问题描述】:
我正在尝试生成一些有意义的示例保险索赔数据,而不仅仅是随机数字。
假设我有两列 Age 和 Injury,我需要根据特定条件为 ClaimAmount 提供有意义的值:
ClaimantAge | InjuryType | ClaimAmount
---------------------------------------
35 Bruises
55 Fractures
. .
. .
. .
-
我想生成随着年龄增长而增加的索赔金额,然后在某个年龄(比如 65 岁)左右达到稳定水平。
-
对某些伤害的索赔需要高于对其他类型伤害的索赔。
目前我正在以随机方式生成样本,如下所示:
amount <- sample(0:100000, 2000, replace = TRUE)
如何生成更有意义的样本?
【问题讨论】:
-
不确定您要做什么,但可能会考虑分布,然后根据您的分布生成样本。在我的情况下,正态分布完成了工作,但这里是所有 dist 及其功能的示例:stat.umn.edu/geyer/old/5101/rlook.html#dist
-
@oscartorom 感谢您的回复。我现在正在浏览链接。为了更清楚,我已经编辑了我的问题。