【问题标题】:Making predictions from a CV从简历中做出预测
【发布时间】:2023-12-07 21:11:02
【问题描述】:

我有一个包含许多简历的数据库,包括每个人的性别、年龄、地址、教育年限和许多其他参数的结构化数据。

对于大约 10% 的样本,我还有关于他们在某个时间点采取的特定行动的额外数据。例如,Jane 于 1998 年 7 月获得房屋贷款,或者 John 于 2007 年 1 月开始飞行员培训并于 2007 年 12 月获得执照。

我需要一个算法,它可以为每个动作给出在未来时间增量中每个人发生的概率。例如,比尔在 2011 年获得住房贷款的机会是 2%,在 2012 年是 3.5%,等等。

我应该如何处理这个问题?回归分析?支持向量机?神经网络?还有什么?

是否有一些标准工具/库可以通过明显的自定义来使用?

【问题讨论】:

  • 不要自己尝试这样做。雇用受过良好统计培训的人。
  • 称为水晶球算法。
  • 我想这也很大程度上取决于您有多少记录(以及这些记录的代表性),您实际上可以推断出有用的预测。
  • 你应该在这里问stats.stackexchange.com。但这是一个非常广泛的话题。
  • 删除了“线性回归”标签。 OLS 绝对不是要走的路。

标签: neural-network svm prediction statistics


【解决方案1】:

我认为,假设 Y 发生了,X 发生的概率正好来自贝叶斯推理。

【讨论】:

  • 据我了解,没有 Y 的问题。只有 X 发生概率的问题。
  • 不一定是贝叶斯,也不一定是常客。但是,是的,随机模型确实出现了。 :)
【解决方案2】:

Lou 是对的,“贝叶斯推理”就是这种情况。

解决这个问题的最佳工具/库是 R 统计编程语言 (r-project.org)。

看看 R 中的贝叶斯推理库: http://cran.r-project.org/web/views/Bayesian.html

“10% 的样本”中有多少人?如果少于 100 人左右,我担心分析的结果不会很重要。如果是 1000 人或更多人,结果会非常好(经验法则)。

我会先将数据导出到 R(r-project)并进行必要的数据清理。然后找一个熟悉R和高级统计的人,他很快就能解决这个问题。或者自己尝试一下,但 R 在开始时需要一些时间。

【讨论】:

  • 同意:雇人。即使一个人不使用贝叶斯方法,而是使用 R 的其他推理工具包(例如机器学习),最好知道你在做什么。没有水晶球。
【解决方案3】:

关于工具/库的选择,我建议你试试Weka。它是一个用于试验数据挖掘机器学习的开源工具。 Weka 有多种工具用于读取、处理和过滤您的数据,以及预测和分类工具。

但是,您必须在上述领域有扎实的基础才能争取有用的结果。

【讨论】: