MATLAB中的归一化直方图不正确？答案

【问题标题】：Normalized histogram in MATLAB incorrect?MATLAB中的归一化直方图不正确？
【发布时间】：2015-10-29 11:24:25
【问题描述】：

我有以下一组数据：

X=[4.692
   6.328
   4.677
   6.836
   5.032
   5.269
   5.732
   5.083
   4.772
   4.659
   4.564
   5.627
   4.959
   4.631
   6.407
   4.747
   4.920
   4.771
   5.308
   5.200
   5.242
   4.738
   4.758
   4.725
   4.808
   4.618
   4.638
   7.829
   7.702
   4.659]; % Sample set

我使用最大似然法对此进行了帕累托分布拟合，得到了下图：

绘制直方图的代码如下：

[N,edges,bin] = histcounts(X,'BinMethod','auto');
bin_middles=mean([edges(1:end-1);edges(2:end)]);
f_X_sample=N/trapz(bin_middles,N);
bar(bin_middles,f_X_sample,1);;

我这样做对吗？我检查了 100 次，帕累托分布确实是最优的，但它似乎与直方图大不相同。是否存在可能导致此问题的错误？谢谢！

【问题讨论】：

尝试手动增加垃圾箱的数量，而不是使用auto 标志
好的，我到电脑前试试这个。不过，您的建议是不是有点“人为”？

标签： matlab statistics probability-density

【解决方案1】：

我同意 @tashuhka 的评论，即您需要考虑如何对数据进行分箱。

想象一下极端情况，您将所有内容集中到一个 bin 中，然后尝试将单个点拟合到一个分布中。您的 PDF 看起来与您的单个方形条完全不同。分成两个箱子，现在拟合仍然很糟糕，但至少一个条形图（可能）比另一个大一点，等等等等。在另一个极端，每个数据点都有自己的条形图，条形图是只不过是一个只有一个计数的随机酒吧森林。

choosing an "optimal" bin size 有许多不同的策略，可以最大限度地减少 bin 的数量，但最大限度地提高底层 PDF 的表示。

最后，请注意这里只有 30 分，所以您的另一个问题可能是您没有收集到足够的数据来真正确定基础 PDF。

【讨论】：