如何处理stan中的缺失数据？答案

【问题标题】：How to deal with the missing data in stan?如何处理stan中的缺失数据？
【发布时间】：2016-02-06 16:34:35
【问题描述】：

我是 stan 的新手，我正在实施概率矩阵分解模型。

给定一个用户-项目评分矩阵：

                       item
 user     1    3   NA   4     5    NA
          2    0    3   NA    1     5
          1    1    NA  NA    NA    0
          ....

我应该如何表示data 块中的可观察数据和parameter 块中用于预测的缺失数据？

提前谢谢你！

编辑：

现在我正在实现如下模型：

pmf_code = """
data {

int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor 
int<lower=0, upper=N> ii[D]; //item 
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating

}

parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;

}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
    I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

for (n in 1: N){
    u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
    i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
    r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""

但在这行代码中出现No matches for: real ~ normal(matrix, real) 错误：

for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

但是jj[d]应该是一个整数，表示user的id。并且 u[int] 应该是 row_vector 具有 k 因子，i[ii[d]] 也是如此。他们的乘积应该是一个单一的实值，为什么stan说是matrix？

【问题讨论】：

标签： python stan

【解决方案1】：

Stan 手册中有一章介绍如何处理丢失或稀疏的数据。在这种情况下，它缺少数据。你想要做的是把它放在长形式（R的重塑包称为融化形式）：

  int<lower=0> I;               // number of items
  int<lower=0> J;               // number of users
  int N;                        // number of observations
  int<lower=1, upper=I> ii[N];  // item 
  int<lower=1, upper=J> jj[N];  // user
  int<lower=0, upper=5> y[N];   // rating

然后，对于每个观察 n，您有用户 jj[n] 将评级 y[n] 分配给项目 ii[n]。

手册回归部分的 IRT 模型中有一个示例。但是你有一个序数结果，这有点棘手。你可以做某种直接的序数逻辑，可能是分层的，或者你可以尝试做一个因子模型之类的东西（比如每个人都用于 Netflix 的部分 SVD）。手册中还有因子模型的示例 --- 您可以使用这些模型生成有序回归的线性预测器。

然后，如果您想针对项目i 和用户j 的某些新组合预测y[m]，您可以在生成量块中将其作为后验预测量。你可以通过抽样或期望来做到这一点；在潜在离散参数章节的变化点模型和预测的回归章节中都有一个例子。

【讨论】：

感谢您的回复鲍勃！我已经按照您的建议进行了操作，但出现了新错误。我已将其添加到我的问题中。你能看看并告诉我你的想法吗？非常感谢。
我想知道我应该如何声明数据进行预测。我已在数据块中声明它们int<lower=0> D_new; //number of pridictor int<lower=0, upper=N> ii_new[D_new]; // item int<lower=0, upper=N> jj_new[D_new]; // user real<lower=0, upper=5> r_new[D_new]; //pridict rating 并在generated quantities 中实现：` for (d in 1:D_new){ r_new[d] <expression assignable to left-hand side>。你知道怎么处理吗？
这就是说你试图把一个实数放在 ~ 的左边，一个矩阵作为平均参数。您是否将向量乘以行向量而不是相反？还是你把~的两边颠倒了。我们有一个邮件列表，更多的人阅读了这种来回模式的帮助。

【解决方案2】：

Stan 既没有缺失数据符号，也没有估计离散未知数的能力，因此您提出的建议几乎是不可能的，也不是学习 Stan 的一个很好的切入点。这在 Stan 用户手册中有说明。

原则上，您可以传入非缺失数据和一个二维整数数组，如果某个用户缺少该项目，则该数组为 0，如果该用户观察到该项目，则该数组为 1。然后你需要为每个用户和项目声明一个潜在效用，如果观察到数据点，将它们限制在正确的两个切点之间，并调整你用来获得潜在效用的转换的导数的绝对值切点。如果数据点丢失，则相应的潜在效用不受约束。这本质上是 Gibbs 采样器使用的数据增强方法，尽管 Stan 不是 Gibbs 采样器。然后，您为潜在实用程序指定您的模型（将错误的规模限制为 1）并希望获得最好的结果。很可能会有很多不同的转换，这需要您将adapt_delta 设置为非常接近 1 才能消除它们。

我们最接近这种方法的例子是多元概率model，但这是针对二元结果的更简单情况。

【讨论】：