特征处理之(四):缺失值和组合
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!
很多情况下,数据总有可能缺失,但是若是放任不管可能造成严重的后果甚至模型无法收敛,所以我们得利用已有的信息进行数据填充来降低损失。特征组合是将不同的特征进行组合,生成新的特征,这种方式能提升模型更大的非线性能力和拟合能力。
特征处理之缺失值填充和特征组合变换
缺失值填充
一、为什么要进行缺失值填充
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:
模型会丢失很多有用的信息
使得模型挖掘过程中陷入混乱,导致不可靠输出
依赖模型本身,无法很好地处理缺失值的情况,导致不确定性
另外数据缺失也分为三类:
1) 完全随机缺失
2) 随机缺失
3) 非随机缺失
二、如何进行缺失值填充
2.1 统计填充
利用特征本身的数据进行对缺失值填充。思想是既然缺失了不知道他的值,那么就用最平常的值给它填不上,不要造成混乱,期望其他特征能表达出该样本的特性。
所以利用特征本身的数据,计算出平均值或者中位数,或者其他统计型的平常数据,来填充缺失值。
2.2 相似填充
利用其他不缺失的特征,找到相似的样本,用相似样本的该特征来对缺失值填充。思想是用相似样本来仿照出来值会更加靠谱。
其中KNN方式填充,是比较常见的。利用非确实的特征,找到距离其最近的几个样本。利用这几个样本来帮助填充缺失值。
特征组合变换
一、特征组合变换有什么作用
通过对单独的特征进行变换和组合,能够得到新的特征,这些新特征自带非线性能力,提升了模型的表达,很大程度帮助提升结果。
增加模型的表达能力
变相提升模型非线性能力
得到更加有效的特征
二、单特征变换
单特征变换,就如图一样,有几种简单的变换方式。形成新的特征。
三、多项式变换
多项式变换是指两个或多个特征进行组合变换,生成高次特征。
结语
特征处理是在机器学习中占据非常重要的地位,特征工程决定了整个模型的上限,而特征工程中最基础的就是特征处理。本篇主要回顾下特征处理中的缺失值填充和特征组合。最后最后拿出成果:
- 什么是缺失值填充/特征组合(这俩简单到不用解释了吧)
- 缺失值填充/特征组合有什么作用
- 缺失值填充/特征组合如何操作