【发布时间】:2025-10-02 18:45:02
【问题描述】:
我通过抓取网页并收集脚本哈希和深度来收集数据。我已将数据转换为熊猫数据框。
目标 作为我研究的一部分,我想做一些统计测量,并找出深度在每组哈希中的表现。
2) 我使用 std() 函数计算了深度的组标准差。但不确定如何将其与散列组的标准差进行比较。
3) 还计算了每组哈希的平均值。想知道如何有一个单独的列来显示组平均值和实际值之间的差异。想知道如何绘制这两列。(新列和绘图也适用于问题 2)。
如果有任何新的方法来识别异常值或偏差,也想知道它们。
数据:
FileHash Depth
0 A 1
1 A 2
2 C 1
3 B 1
4 C 3
5 A 5
6 C 2
7 A 0
我试图找到最合适的分布拟合器,发现 gennorm 是最好的。
我还尝试使用修改后的 z 分数来查找异常值。
对于问题 3,我期待这样的输出:
FileHash Depth MeanDeviation
0 A 1 -1
1 A 2 0
2 C 1 -1
3 B 1 0
4 C 3 1
5 A 5 3
6 C 2 0
7 A 0 -2
【问题讨论】:
-
感谢@Brendan 的编辑:thumbsup
标签: python python-3.x pandas statistics