如何比较预测频率数据与实际频率数据？答案

【问题标题】：How to compare predicted vs real frequency data?如何比较预测频率数据与实际频率数据？
【发布时间】：2019-09-06 16:17:07
【问题描述】：

我有一种机器学习方法，可以计算 jpeg 图像中的汽车。对于每张图像，我都有通过机器学习方法预测的汽车数量和基于人类数量的汽车数量的实际计数。这是数据集的样子：

             predicted_cars   real_cars
Image_1      2                1
Image_2      6                7
Image_3      0                0
Image_4      0                1
Image_5      0                0
Image_6      1                1
...
Image_5000   4                3

我最初的想法是使用线性回归，尽管由于此数据集包含离散计数数据，我认为这不合适。此外，由于大多数计数可能为 0，因此这可能会影响统计数据。

我可以采取什么方法来统计和/或以图形方式评估预测的汽车数量与“真实”汽车数量的对比情况？我正在使用 scikit-learn 和 pandas 在 Python 中工作。

【问题讨论】：

analyse-it.com/docs/user-guide/fit-model/linear/…
我的回答对@Borealis 有帮助吗？不要忘记投票/接受，请参阅What should I do when someone answers my question?
@yatu 感谢您的回答。我将调查MSE。由于我正在处理大量图像，因此图形方法可能不适用于我。

标签： python pandas scikit-learn statistics frequency

【解决方案1】：

在这里计算结果的准确性非常简单，您可以以mean absolute error 或mean squared error 为例。您可以在 sklearn.metrics 中找到各种错误指标。

对于结果的直观表示，一种方法是绘制堆积条形图：

df.plot(kind='bar', stacked=True)

【讨论】：