Coggle专业的数据科学、大模型和数据竞赛社区
首页竞赛博客教程模型应用
首页竞赛博客教程模型应用常见链接在线工具

内容

  • 竞赛
  • 博客
  • 教程
  • 模型

资源

  • 常见链接
  • 工具
  • 应用

关于

  • 关于 Coggle
  • 隐私政策

© 2026 Coggle Community. All rights reserved.

  1. 首页
  2. 博客
  3. 归一化方法汇总
特征工程数据预处理

归一化方法汇总

Coggle 阿水·2022年5月1日

归一化 ( Normalization) 是一种简化计算的方式。 将所有属性以相同的测量单位表示,并使用通用的刻度或范围。归一化试图赋予所有数据属性同等的权重,使属性之间的比较与聚合更容易,数据的收敛速度更快。

数据预处理中的「归一化」

对数据执行预处理步骤将原始属性转换成能利用的属性,有助于模型的训练。

Min-Max 归一化

Min-Max 归一化也称为线性函数归一化,对原始数据做一次线性变换,将原 据映射到 [0,1][0,1][0,1] 之间,不改变原始数据分布。

xnew =x− Min Max−Minx_{\text {new }}=\frac{x-\text { Min }}{M a x-M i n}xnew ​=Max−Minx− Min ​
  • 优点:并不改变数据分布。
  • 缺点: 会受到异常数据音效

Z-Score

Z-Score将原数据处理成符合正态分布的数据,与均值和标准差进行计算。

xnew =x− Mean  StandardDeviation x_{\text {new }}=\frac{x-\text { Mean }}{\text { StandardDeviation }}xnew ​= StandardDeviation x− Mean ​
  • 优点:受离群值影响较小,适合最大值、最小值末知的情况。
  • 缺点:会改变数据的分布。

Sigmoid

Sigmoid 函数也称为 Logistic 函数,输人的数据被映射在 [0,1][0,1][0,1] 之间。

F(x)=11+e−xF(x)=\frac{1}{1+e^{-x}}F(x)=1+e−x1​
  • 优点:不受异常值影响。
  • 缺点:改变了原始数据分布形态。

RankGauss

RankGauss先对要处理的数据进行排序,将目标数据转换尺度到 [−1,1][-1,1][−1,1]。然后将按照的sigmoid的逆函数还原为数值,使得归一化后的数据满足高斯分布。

  • 优点:数据变为高斯分布, 更为直观。
  • 缺点:只保留了数据的排序信息。

数据归一化层的「归一化」

深度学习下归一化方法需要考虑迭代训练的过程,需要不断按照批量数据进行归一化,并积累历史数据的规律。

Batch Normalization

Batch Normalization是在隐藏层的每一层输前加一个归一化层,先进行归一化处理,然后参与网络计算。

  • 优点:提升收敛速度,在计算机视觉任务上表现较好。
  • 缺点:依赖批量大小

Layer Normalization

Layer Normalization是对当前隐藏层整层做归一化操作。与Batch Normalization的不同之处在于,BN是针对同一个样本中的所有数据,而 LN是针对于单个样本来操作。

  • 优点: 批量大小较小时, 效果好,适用于自然语 言处理任务。
  • 缺点: 批量大小较大时, 效果不如BN。

目录

  • 数据预处理中的「归一化」
  • Min-Max 归一化
  • Z-Score
  • Sigmoid
  • RankGauss
  • 数据归一化层的「归一化」
  • Batch Normalization
  • Layer Normalization

相关文章

BERT特征工程

BERT Pooling方法

详解 AutoML原理和组成

Coggle 阿水·2022年2月6日
BERT特征工程

数据为中心的机器学习

详解 AutoML原理和组成

Coggle 阿水·2021年12月6日
BERT特征工程

机器学习指标

详解 AutoML原理和组成

Coggle 阿水·2021年12月6日