数据归一化处理

数据归一化
1、最值归一化
样本值 - 最小值 / (最大值 - 最小值)
将所有数据映射到 0 - 1 之间如果存在极值比如收入大部分人收入在1W 有些人收入在1000W

2、均值方差(标准差)归一化
样本值 - 均值 / 方差
把所有数据归一到均值为0方差为1的分布中

s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/n
np.var(x)
作用：衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。

标准层差:s = sqrt(s²)
np.std(x)

注意：数据归一化的目的是为了降低数据的离散程度，以便更好的拟合数据。
训练数据集的归一化:x_train = (x_train - x_train.mean()) / x_train.std()
测试数据集的归一化:x_test = (x_test - x_train.mean()) / x_train.std()
所以是需要保存训练数据集得到的均值和方差

# !/usr/bin/env python3
import matplotlib
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
'''最大值归一化'''
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np
''' 数据归一化 1、最值归一化 样本值 - 最小值 / (最大值 - 最小值) 将所有数据映射到 0 - 1 之间 如果存在极值比如收入大部分人收入在1W 有些人收入在1000W 2、均值方差(标准差)归一化 样本值 - 均值 / 方差 把所有数据归一到均值为0方差为1的分布中 s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/n np.var(x) 作用：衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。 标准层差:s = sqrt(s²) np.std(x) 注意：数据归一化的目的是为了降低数据的离散程度，以便更好的拟合数据。 训练数据集的归一化:x_train = (x_train - x_train.mean()) / x_train.std() 测试数据集的归一化:x_test = (x_test - x_train.mean()) / x_train.std() 所以是需要保存训练数据集得到的均值和方差 '''

iris = datasets.load_iris()
x = iris.data
y = iris.target
h = y.reshape(-1,1)
'''将特征值'''
data = np.concatenate((x,h),axis=1)
'''随机打乱数据'''
np.random.shuffle(data)
'''获取训练集和测试集'''
train_data = data[:int(len(data)*0.8)]
test_data = data[int(len(data)*0.8):]
'''训练集'''
X_train = train_data[:,0:4]
Y_train = train_data[:,4]
'''测试集'''
X_test = test_data[:,0:4]
Y_test = test_data[:,4]

standardScaler = StandardScaler()
standardScaler.fit(X_train)
'''均值'''
print(standardScaler.mean_)
'''数据分布范围（包含标准差等）'''
print(standardScaler.scale_)
X_train_standard = standardScaler.transform(X_train)
'''测试数据集也必须归一化处理'''
X_test_standard = standardScaler.transform(X_test)
print(X_test_standard)
KNeighborsClassifier_model = KNeighborsClassifier(n_neighbors=3)
KNeighborsClassifier_model.fit(X_train_standard,Y_train)
Y_predict = KNeighborsClassifier_model.predict(X_test_standard)
print(accuracy_score(Y_test,Y_predict))

本作品采用知识共享署名 4.0 国际许可协议进行许可

数据归一化处理

文章评论