在 Python 中规范化数据集答案

【问题标题】：Normalize Dataset in Python在 Python 中规范化数据集
【发布时间】：2021-03-09 18:37:42
【问题描述】：

所以我有一个想要标准化的数据集。数据集包含一堆数字，所以我只想发布其中的一行：

    1,1,22,22,22,19,18,14,49.895756,17.775994,5.27092,0.771761,0.018632,0.006864,0.003923,0.003923,0.486903,0.100025,1,0

有人知道怎么做吗？我不允许使用 Scikit-Learn。

【问题讨论】：

【解决方案1】：

为了标准化数据集，您只需计算数据集的平均值 df['column_name'].mean() 和标准差 df['column_name'].std()，然后从数据集中的每个值中减去平均值，然后将结果除以标准差。

所以结果看起来像这样：

avg = df['column_name'].mean()
std = df['column_name'].std()
normalized = (df['column_name'] - avg) / std

【讨论】：

【解决方案2】：

标准化获取所有值并对其进行转换，使它们位于 0 和 1 之间。

要执行此操作：

(d-a) 确保范围从 [a,b] 到 [0,b-a]，然后除以 (b-a) 得到范围 [0,1]。

在 Python 中，您首先将数据集转换为 numpy 数组（一种更高效的数据结构）

import numpy as np
d = np.array(your_dataset)

然后找到最大值和最小值

a = d.min()
b = d.max()

最后你执行操作

d = (d-a)/(b-a)

【讨论】：