Z-score 标准化 又叫标准差标准化方法,将数据转化为均值为0,标准差为1的分布,适用于正态分布的场景 $$Z = \frac{x-\mu}{\sigma}$$ 式中:x为原始数据、$\mu$是样本数据的均值、$\sigma$是样本的标准差
Z表示最终数据偏离均值的标准差倍数
原始数据:[60,70,80,90,100]
Z-score 标准化后 [-1.41,-0.71,0,0.71,1.41]Z的绝对值反应数据偏离的程度,标准化之后特性均值约等于0 标准差约等于1
适应场景:数据近似正态分布、需要对比不同量纲数据、机器学习模型
不足之处:对异常数值比较敏感,可能z值失真,
Min-Max 标准化 也叫归一化 对原始数据线性缩放到达0~1之间,核心是保留数据的顺序,消除量纲,不改变数据的分布趋势 核心公式: $$x' = \frac{x-min(X)}{max(X)-min(z)}$$ 式中:x是原式数据、min(X),max(X)是数据当中最小最大值、x'是标准化之后的结果
本质上是一种映射:比如最小值映射为0 最大值映射为1 数据的分布趋势不变化
原始数据:[60,70,80,90,100]
Min-Max 标准化之后 [0,0.25,0.5,0.75,1]特点:结果严格落在0~1之间 保留原始数据的比例关系
适应场景:需要明确数据范围的场景,评分标准化等
不足之处:也是异常值比较敏感,极差变大,那么数据大多集中在0附近
Max-Abs 标准化 也称最大绝对值标准化,将原始数据缩放至-1~1之间 核心是不改变数据符号 仅按照最大值绝对值进行缩放,对0值友好 核心公式:$$x' = \frac{x}{max_{abs}{X}}$$ 式中:x是原始数据、maxabsX是先对数据当中所有数据取绝对值之后进行找最大值、x'表示标准化后结果
原始数据:[-60,-30,0,30,60]
Max-Abs 标准化之后 [-1,-0.5,0,0.5,1]使用场景:稀疏数据、需要保持正负语义的场景
不足:对异常数据敏感,比如max数值非常大的时候
Robust 标准化 也叫抗异常值标准化,基于中位数Median 与四分位距IQR 不受极值的影响,稳健性较强 核心公式:$$x' = \frac{x-median(X)}{Q_{3}-Q_{1}}$$ 式中:x为原始数据、median(X)是数据的中位数、Q3,Q1分别为上四分位数与下四分位数,相减称为四分位距
原始数据:[60,70,80,90,200]
Robust 标准化之后 [-1,-0.5,0,0.5,6]特点:抗异常值比较稳
使用场景:当异常值比较多的时候、比如消费、交易等数据(不要求数据正态分布)
Decimal Scaling 标准化 也称小数定标标准化,通过移动小数点的位置,将所有数据缩放至-1~1之间 无需计算均值/极值 仅仅依赖最大绝对值的位数 核心公式:$$x' = \frac{x}{10^k}$$