【问题标题】:Predicting probabilities预测概率
【发布时间】:2016-05-23 14:18:47
【问题描述】:

我有一个由向量​​组成的时间序列数据

v=(x_1,…, x_n) 

二元分类变量和四种结果的概率

p_1, p_2, p_3, p_4. 

给定一个新的分类变量向量,我想预测概率

p_1,…,p_4

概率非常不平衡

p_1>.99 and p_2, p_3, p_4 < .01.

例如

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 
v_2=(0,0,1,0,0,0,0,1), p_1=.99, p_2=.006, p_3=.0035, p_4= .0005
v_3=(0,1,0,0,1,1,1,0), p_1=.99, p_2=.005, p_3=.003, p_4= .002
v_4=(0,0,1,0,1,0,0,1), p_1=.99, p_2=.0075, p_3=.002, p_4= .0005

给定一个新向量

v_5= (0,0,1,0,1,1,0,0) 

我想预测

p_1, p_2, p_3, p_4.

我还应该注意,新向量可能与输入向量之一相同,即

v_5=(0,0,1,0,1,0,0,1)= v_4.

我最初的方法是把它变成 4 个回归问题。

第一个预测 p_1,第二个预测 p_2,第三个预测 p_3,第四个预测 p_4。问题是我需要

p_1+p_2+p_3+p_4=1 

我不是在分类,但我是否也应该担心不平衡的概率。欢迎任何想法。

【问题讨论】:

  • 结果和概率有什么关系??
  • @rpd,我会尽力描述。概率与样本中的用餐频率相关联。在一周的时间段内,对加利福尼亚州的 100,000 人进行抽样,999,900 人没有在贝克斯菲尔德的麦当劳用餐,60 人在贝克斯菲尔德的麦当劳吃了一次,30 人吃了两次,10 人吃了 3 次。
  • 概率非常简单。向量呢?它代表什么?向量长度是多少?

标签: machine-learning probability prediction


【解决方案1】:

您将其视为多重问题 + 最终归一化的建议有一定道理,但众所周知,它在许多情况下存在问题(例如,请参阅masking 的问题)。

您在这里描述的是multiclass (soft) classification,并且有许多已知的技术可以做到这一点。您没有指定您正在使用哪种语言/工具/库,或者您是否打算推出自己的语言/工具/库(这仅对教学目的有意义)。我建议从 Linear Discriminant Analysis 开始,它非常易于理解和实现,并且 - 尽管有很强的假设 - 众所周知,它在实践中通常效果很好(参见 the classical book by Hastie & Tibshirani)。


无论您用于软二进制分类的底层算法是什么(例如,LDA 与否),将聚合输入转换为标记输入都不是很困难。

以实例为例

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 

如果您的分类器支持实例权重,则为其提供 4 个实例,标记为 1、2、...,权重由 p_1p_2、...、分别。

如果它不支持实例权重,只需模拟大数定律所说的情况:从这个输入生成一些大的 n 实例;对于每个这样的新输入,根据概率按比例随机选择一个标签。

【讨论】:

  • 不幸的是,我没有单独的记录及其类标签,只有每个类中带有百分比的聚合数据。我通常使用 R 中的机器学习库。
  • @mikeL 我认为汇总输入不是什么大问题;查看更新。
猜你喜欢
  • 1970-01-01
  • 2019-09-16
  • 2013-05-22
  • 1970-01-01
  • 2018-09-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多