【发布时间】:2017-12-04 09:29:03
【问题描述】:
我需要对一些数据做逻辑回归,我得到了一些用户特征,比如他们的posttypes、number of friends、number of posts、number of uploaded photos等,并将这些用户聚类成几个集群,现在,我想做 wald 测试来测试哪些预测变量(来自这些用户特征)对于预测这些用户所属的集群是重要的,使用二元逻辑回归,例如,对于集群 1 中的用户,如果用户属于cluster 1,cluster_label 是1,而其他用户的cluster_label 是zero,我需要使用wald_test 来选择哪些预测变量对预测集群标签很重要,例如,预测集群中的用户1、通过wald检验,好友数和上传照片数具有最高的wald分数,因此,这两个特征对于预测集群1中的用户集群类型具有重要意义;也许对于集群 2 中的用户,通过 wald 测试,帖子数和分享新闻数对于预测这些用户的集群标签很重要
这些数据的pandas数据框如下图所示,用于预测用户cluster 1中的用户:
NoPosts... Friends ... postCluster0_ratio... postCluster4_ratio cluster_label
24 ... 89 ... 0.35 ... 0.3 1
...
...
81 ... 161 ... 0.2 ... 0.15 0
...
...
cluster_label 为 1 时,表示该用户属于用户集群 1,cluster_label 为 0 时,表示该用户不属于集群 1,我想通过 wald 测试来确定哪些预测器(来自 NoPosts、Frineds...postcluster0_ratio...)对于预测用户集群标签具有重要意义,但来自
http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.wald_test.html#statsmodels.regression.linear_model.OLSResults.wald_test python中没有wald_test的示例,我不知道wald_test所需的输入是什么,如何适应,一句话,我不知道如何使用wald_test来解决我的情况,请你帮我如何使用wald_test , 最好给我代码
【问题讨论】:
-
这个问题更多的是关于如何进行 Wald 测试而不是 Python,不是吗?您将在stats.stackexchange.com 上获得更多帮助
-
仅供参考,显然“有几个理由更喜欢似然比检验或拉格朗日乘数而不是 Wald 检验”en.wikipedia.org/wiki/Wald_test#Alternatives_to_the_Wald_test
-
致 Jean-Francois Corbett,能否请您提供如何使用 wald_test 的代码,谢谢
-
我不能,因为我不知道 Wald 测试是如何工作的。我不知道如何用笔和纸来做。但问题似乎是,你也不是。所以在你的位置上,这将是我要做的第一件事。以后再担心 Python 的实现。
标签: python logistic-regression