数据标准化及其作用

标准化作用

  1. 消除量纲影响:这篇博客
  2. 激活函数对数据在[0,1]之间最为敏感

最小-最大规范化

最小-最大规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。

优点: 保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法
缺点: 若数值集中且某个数值很大,则规范化后各值接近于0,并且将会相差不大。(如 1, 1.2, 1.3, 1.4, 1.5, 1.6,8.4)这组数据。若将来遇到超过目前属性[min, max]取值范围的时候,会引起系统报错,需要重新确定min和max,即要求测试数据的范围也必须在训练数据的[min, max]范围内.

(z-score)规范化(或零均值规范化)

经过处理的数据的均值为0,标准差为1:

优点:只要测试数据偏差训练集的$\mu,\sigma$不是太多就可以.几乎都用这个。