【发布时间】:2016-05-23 14:18:47
【问题描述】:
我有一个由向量组成的时间序列数据
v=(x_1,…, x_n)
二元分类变量和四种结果的概率
p_1, p_2, p_3, p_4.
给定一个新的分类变量向量,我想预测概率
p_1,…,p_4
概率非常不平衡
p_1>.99 and p_2, p_3, p_4 < .01.
例如
v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015
v_2=(0,0,1,0,0,0,0,1), p_1=.99, p_2=.006, p_3=.0035, p_4= .0005
v_3=(0,1,0,0,1,1,1,0), p_1=.99, p_2=.005, p_3=.003, p_4= .002
v_4=(0,0,1,0,1,0,0,1), p_1=.99, p_2=.0075, p_3=.002, p_4= .0005
给定一个新向量
v_5= (0,0,1,0,1,1,0,0)
我想预测
p_1, p_2, p_3, p_4.
我还应该注意,新向量可能与输入向量之一相同,即
v_5=(0,0,1,0,1,0,0,1)= v_4.
我最初的方法是把它变成 4 个回归问题。
第一个预测 p_1,第二个预测 p_2,第三个预测 p_3,第四个预测 p_4。问题是我需要
p_1+p_2+p_3+p_4=1
我不是在分类,但我是否也应该担心不平衡的概率。欢迎任何想法。
【问题讨论】:
-
结果和概率有什么关系??
-
@rpd,我会尽力描述。概率与样本中的用餐频率相关联。在一周的时间段内,对加利福尼亚州的 100,000 人进行抽样,999,900 人没有在贝克斯菲尔德的麦当劳用餐,60 人在贝克斯菲尔德的麦当劳吃了一次,30 人吃了两次,10 人吃了 3 次。
-
概率非常简单。向量呢?它代表什么?向量长度是多少?
标签: machine-learning probability prediction