机器学习中的特征选择及其Python举例

简介:

1.关于特征选择

简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有用或最相关的那些特征。它是特征工程的一部分,在机器学习中,我们通常会面临非常多的特征变量,几十个甚至上百个。对于这些特征,一方面全部纳入机器学习算法中会导致计算机开销很大,影响训练效率,另一方面,部分特征并不与预测变量有太大相关,纳入算法中反而会降低模型的准确性,特别是在线性回归、逻辑回归等算法中。 

特征选择的好处有:

减少过度拟合:减少冗余数据意味着根据噪声做出决策的机会减少。

提高准确度:减少误导性数据意味着提高建模精度。

缩短训练时间:减少数据意味着算法训练更快。

2.机器学习中的特征选择方案以及Python举例

下面以python的sklearn中自带iris鸢尾花数据集为例,来简单演示一些特征选择的案例以及Python实现。该数据集是个二分类问题,且所有属性都是数字。

(1)单变量选择

我们可以采用统计中的一些检验来选择与输出变量最相关的那些特征。比如以卡方检验来检验与数据集预测变量(类别)的最佳特征。

其基本思想:通过观察实际值和理论值的偏差来确定原假设是否成立。首先假设两个变量是独立的(此为原假设),然后观察实际值和理论值之间的偏差程度,若偏差足够小,则认为偏差是很自然的样本误差,接受原假设。若偏差大到一定程度,则否则原假设,接受备择假设。

在这里采用卡方检验来选择与class关系最强的变量。


import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest #导入SelectKBest库
from sklearn.feature_selection import chi2 #导入卡方检验 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv("D:\\diabetes.csv", names=names) #读取数据集 dataframe.head() array = dataframe.values
print(X[0:5,:]) #打印前5行
X = array[:,0:8] #选取前8列为特征变量
Y = array[:,8] #选取class为目标变量

输出结果为:
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]]


test = SelectKBest(score_func=chi2, k=2) #设置卡方检验,选择k=2个最佳特征
fit = test.fit(X, y) #进行检验 print(fit.scores_) #打印卡方检验值
print(features[0:2,:]) #打印前2行
features = fit.transform(X) #返回选择特征后的数据

输出结果为:
[ 10.81782088 3.59449902 116.16984746 67.24482759]
[[1.4 0.2]
[1.4 0.2]]

可以看到筛选X的最后两列为最优变量。

(2)递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。它使用模型精度来识别哪些属性(和属性组合)对预测目标属性的贡献最大。可以通过sklearn库中的RFE来实现。


from sklearn.feature_selection import RFE #导入RFE库
from sklearn.linear_model import LogisticRegression #导入逻辑回归库
model = LogisticRegression() #设置算法为逻辑回归
fit = rfe.fit(X, y) #进行RFE递归
rfe = RFE(model, 2) #选择2个最佳特征变量,并进行RFE print(fit.n_features_) #打印最优特征变量数
print(fit.ranking_) #特征消除排序
print( fit.support_) #打印选择的最优特征变量

输出结果为:
2
[False True False True]
[3 1 2 1]

可以看到X变量的第2、第4列选为最优变量,即True。最后的[3 1 2 1]也是说明第2、第4列保留到最后。

(3)主成分分析法

主成分分析法是一种降维技术,不同于前边两种方法,他不消除变量,而是通过变量之间的方差、协方差,吸收最有效信息,通过变量线性组合而成,原转换为维度较小的几个变量。可以通过sklearn库中的PCA来实现。


from sklearn.decomposition import PCA #导入主成分分析库
pca = PCA(n_components=2) #提取出2个变量
print(fit.explained_variance_ratio_) #方差贡献率
fit = pca.fit(X) #模型训练
print(fit.components_) #得到的主成分

输出结果为:
[0.92461621 0.05301557]
[[ 0.36158968 -0.08226889 0.85657211 0.35884393]
[ 0.65653988 0.72971237 -0.1757674 -0.07470647]]
[0.92461621 0.05301557]是X变量转换为2个新变量的方差贡献率,下边两行的得到两个新变量的载荷矩阵。

(4)基于树模型的特征选择

可以采用随机森林的算法,通过树的模型训练可以计算每一个属性的重要性。重要性的值可以帮助我们选择出重要的特征。sklearn.ensemble模块包含了两种基于随机决策树的平均算法:RandomForest算法和Extra-Trees算法。这里使用Extra-Trees算法。


from sklearn.ensemble import ExtraTreesClassifier #导入ExtraTrees
model = ExtraTreesClassifier() #设置ExtraTrees model.fit(X, y)
print(model.feature_importances_) #得到特征变量的重要性值

输出结果为:
[0.02757014 0.04987713 0.58655833 0.33599439]

我们可以根据不同特征变量的重要性的值,来选择最佳变量。

以上是一些特征选择的简单举例,在实际应用中还有很多其他方法,比如相关系数法、互信息法等等。另外,对于鸢尾花数据集来说,其变量属性并不多,且每个变量都有其作用,所以在实际中还需结合更多情况去应用。


原文发布时间为:2018-11-24

本文作者:博观厚积

本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

相关文章
|
8月前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
303 7
|
6月前
|
机器学习/深度学习 人工智能 算法
Scikit-learn:Python机器学习的瑞士军刀
想要快速入门机器学习但被复杂算法吓退?本文详解Scikit-learn如何让您无需深厚数学背景也能构建强大AI模型。从数据预处理到模型评估,从垃圾邮件过滤到信用风险评估,通过实用案例和直观图表,带您掌握这把Python机器学习的'瑞士军刀'。无论您是AI新手还是经验丰富的数据科学家,都能从中获取将理论转化为实际应用的关键技巧。了解Scikit-learn与大语言模型的最新集成方式,抢先掌握机器学习的未来发展方向!
943 12
Scikit-learn:Python机器学习的瑞士军刀
|
9月前
|
机器学习/深度学习 数据可视化 算法
Python与机器学习:使用Scikit-learn进行数据建模
本文介绍如何使用Python和Scikit-learn进行机器学习数据建模。首先,通过鸢尾花数据集演示数据准备、可视化和预处理步骤。接着,构建并评估K近邻(KNN)模型,展示超参数调优方法。最后,比较KNN、随机森林和支持向量机(SVM)等模型的性能,帮助读者掌握基础的机器学习建模技巧,并展望未来结合深度学习框架的发展方向。
Python与机器学习:使用Scikit-learn进行数据建模
|
8月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
8月前
|
机器学习/深度学习 数据可视化 算法
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
|
11月前
|
分布式计算 MaxCompute 对象存储
|
12月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的特征选择与降维技术
机器学习中的特征选择与降维技术
412 0
|
12月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
191 0
|
26天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
12月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1130 6

推荐镜像

更多