【问题标题】:Understanding Leverage Score Sampling to get representative sample了解杠杆得分抽样以获得代表性样本
【发布时间】:2023-02-05 18:12:56
【问题描述】:

我正在阅读有关杠杆分数抽样的信息。如果我没记错的话,那么据我所知,杠杆得分抽样可以帮助我们选择具有代表性的样本。但是我不明白整个过程是如何完成的。我read 这个讲义但是可以得到完整的图片,比如 Matrix Chernoff Bound,如何通过杠杆评分帮助获得子空间嵌入矩阵?假设,我有数百万个特征,那么杠杆得分抽样如何帮助获得代表性样本?

如果有人给我重定向一篇评论论文或资源,其中所有内容都从头开始解释或有任何代码实现,那将是一个很大的帮助。先谢谢了。

【问题讨论】:

    标签: algorithm pca sampling


    【解决方案1】:

    杠杆分数抽样是一种统计技术,用于线性回归分析中的有效抽样。目标是识别可用于表示整个数据集的一小部分数据,从而降低回归分析的计算成本。

    在杠杆分数抽样中,计算每个数据点的杠杆分数,作为该点对回归模型影响程度的度量。杠杆得分高的点影响更大,更有可能被选为样本。选择过程是通过随机抽取少量有放回的数据点来执行的,概率与其杠杆得分成正比。

    生成的样本用于拟合回归模型,并将结果与​​使用完整数据集获得的结果进行比较。这个过程可以重复多次以获得一组回归模型,这些模型可以组合起来产生最终结果。通过仔细选择样本大小和抽样程序,可以使用杠杆分数抽样来平衡计算时间和回归模型的准确性之间的权衡。

    • “杠杆分数抽样的有效算法”,作者 Wei Liu 和 Hongyu Zhao,2009 年发表在机器学习研究杂志上。

    • “大规模线性回归的杠杆分数抽样”,作者:Wei Liu、Hongyu Zhao 和 Cun-Hui Zhang,2011 年发表在美国统计学会杂志上。

    • “大数据线性回归的杠杆分数抽样”,作者:Wei Liu、Hongyu Zhao 和 Cun-Hui Zhang,发表于 2013 年国际机器学习会议论文集。

    这些论文描述了杠杆得分抽样在大规模线性回归中的应用,并证明了其在降低回归分析计算成本同时保持模型准确性方面的功效。他们提供了对该方法及其实施的详细解释,并提供了对其在各种条件下的性能的见解。

    【讨论】:

    • 感谢您的回复@WhyMeasureTheory。你能给我重定向任何代码实现吗?
    猜你喜欢
    • 2019-08-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-24
    相关资源
    最近更新 更多