2016 - 2024

感恩一路有你

衣帽挂 机器学习中,特征提取和特征选择有什么区别?

浏览量:1646 时间:2021-03-18 05:00:43 作者:admin

机器学习中,特征提取和特征选择有什么区别?

特征选择(feature selection)和特征提取(feature extraction)是特征工程中的两个重要问题。有句说法:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。


在机器学习中,特征选择(feature selection) 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:

  • 简化模型,使之更易于被研究人员或用户理解
  • 缩短训练时间
  • 改善通用性、降低过拟合(即降低方差)


要使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,因而移除这些特征并不会导致丢失信息。特征选择是指去掉无关特征,保留相关特征的过程,也可以认为是从所有的特征中选择一个最好的特征子集,本质上是一种降维的过程。


特征提取(feature extraction)是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。比如说,图片是由一系列像素点构(原始数据)成的,这些像素点本身无法被机器学习算法直接使用,但是如果将这些像素点转化成矩阵的形式(数值特征),那么机器学习算法就可以使用了。


特征选择技术与特征提取有所不同。特征提取实际上是把原始数据转化为机器学习算法可以识别的数值特征,从原有特征的功能中创造新的特征,不存在降维的概念,不需要理会这些特征是否有用;而特征选择是在提取出来的特征中选择最优的一个特征子集,常常用于许多特征但样本(即数据点)相对较少的领域。特征选择应用的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。

衣帽挂 房间衣帽柜 鞋柜衣帽柜

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。