目录
一、转换器
用特征工程的父类,使用sklearn中的转换器可以较为简单地进行特征工程。
特征工程的步骤:
1、实例化一个转换器类(transformer)
2、调用转换器类中的 fit_transform( ) 方法
例如:
字典特征提取:
transfer = DictVectorizer(sparse=False)
data_new = transfer.fit_transform(data)
文本特征提取:
transfer = CountVectorizer()
data_new = transfer.fit_transform(data)
transfer = TfidfVectorizer()
data_final = transfer.fit_transform(data_new)
归一化:
transform = MinMaxScaler()
data_new = transform.fit_transform(data)
标准化:
transform = StandardScaler()
data_new = transform.fit_transform(data)
低方差特征过滤:
transform = VarianceThreshold(threshold=10)
data_new = transform.fit_transform(data)
主成分分析:
transform = PCA(n_components=2)
data_new = transform.fit_transform(data)
实际上 fit_transform()是由fit()和 transform()封装而成。
fit()主要进行计算。
transform()主要进行最终的转换。
二、估计器
用于sklearn中各种机器学习算法的实现。
模型训练的步骤:
1、实例化一个估计类(estimator)
2、调用估计类中的 fit()方法,调用完成后模型就生成了
estimator.fit(x_train,y_train) 计算,生成模型
x_train:训练集的特征值
y_train:训练集的目标值
3、模型评估
方法一:直接对比真实值和预测值
y_predict = estimator.predict(x_test)
y_test==y_predict #将测试集中真实的目标值与预测的目标值比对,根据生成的bool值查看是否一致
y_predict:预测值,即模型的预测结果
x_test:测试集
方法二:计算准确率
accuracy = estimator.score(x_test,y_test)
x_test:测试集中的特征值
y_test:测试集中的目标值
文章评论