样本数据预处理-标准化(归一化)

/ 默认分类 / 0 条评论 / 976浏览

由于纯属基本概念,本笔记拷贝自chatgpt总结(正确与否需自行辨别),便于复习

一.数据标准化(归一化处理)的目的是什么

数据标准化(或归一化处理)是数据预处理中一个非常重要的步骤,特别是在机器学习和统计分析中。其目的主要包括以下几个方面:

1.1 统一量纲

1.2 提高模型训练的效率和性能

1.3 提高模型性能

1.4 增强可解释性

二.常用的标准化方法

  1. z-score 标准化(零均值归一化):
    • 其中 ( \mu ) 是特征的均值,( \sigma ) 是特征的标准差。标准化后的数据均值为 0,标准差为 1。
  2. Min-Max 归一化
    • 将数据缩放到 [0, 1] 区间。
  3. 最大绝对值标准化
    • 将数据缩放到 [-1, 1] 区间。

三.具体示例

以下是使用 StandardScaler 进行 z-score 标准化的示例:

import numpy as np
from sklearn.preprocessing import StandardScaler

# 生成示例数据
data = np.array([[1, 2, 3],
                 [4, 5, 6],
                 [7, 8, 9]])

# 创建 StandardScaler 对象
scaler = StandardScaler()

# 进行标准化处理
data_normalized = scaler.fit_transform(data)

print("原始数据:")
print(data)
print("标准化后的数据:")
print(data_normalized)