2016 - 2024

感恩一路有你

数据归一化处理的目的 如何进行特征向量的归一化?

浏览量:4784 时间:2023-04-03 19:06:05 作者:采采

如何进行特征向量的归一化?

1.定义数据的归一化,即将数据统一映射到[0,1]区间。

2.方法1)最小-最大归一化这种归一化方法也称为偏差归一化,将结果值映射到[0,1],转换函数如下:应用场景:当涉及距离测量、协方差计算和数据不符合正交正态分布时,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。例如,在图像处理中,RGB图像被转换成灰度图像,并且它们的值被限制在[0,255]的范围内。2)Z-Score标准化法的数据经过处理后符合标准正态分布,即平均值为0,标准差为1,其转换函数为:其中μ为所有样本数据的平均值,σ为所有样本数据的标准差。应用场景:在分类和聚类算法中,当需要距离来度量相似度,或者使用PCA技术降维时,Z-scor: log10(x),即以10为底的对数转换函数,对应的归一化方法为:x log10(x) /log10(max),其中max代表样本数据的最大值。并且所有样本数据应大于或等于反正切函数变换法。反正切函数可以用来归一化数据,即x atan(x)*(2/pi)。需要注意的是,如果要映射的区间是[0,1],那么数据应该大于等于0,小于0的数据将被映射到[-1,0]区间。L2范数归一化方法L2范数归一化是指特征向量中的每个元素除以向量。

3.角色那么我们为什么要标准化数据呢?举个例子:假设是预测房价的例子,自变量是面积,房间数是两个,因变量是房价。那么我们可以得到公式如下:YY θ 1xθ 2xθ _ 1x _ 1xθ _ 2x _ 2θ。我们给出两个图来表示寻找数据是否均匀化的最优解的过程:非归一化:归一化后:我们在寻找最优解,也就是在使损失函数值最小的θ1和θ2中。上面两个图代表了损失函数的等高线。可以看出,数据归一化后,最优解的优化过程会明显变得平滑,更容易正确收敛到最优解。

4.总结简而言之,归一化的目的是将预处理后的数据限制在一定的范围内(如[0,1]或[-1,1]),从而消除奇异样本数据带来的不利影响。当然,如果没有奇异样本数据,则可能不执行归一化。

数据处理方法?

常用数据处理方法

有时候更多的数据处理是从语言的角度调用不同的API来处理数据。但是从商业的角度来说,我很少去想。最近从业务角度了解了常用的数据处理方法,总结如下:

标准化:标准化是数据预处理的一种,目的是去除维度或方差对分析结果的影响。功能:1。消除样本尺寸的影响;2.消除样本方差的影响。主要用于数据预处理。

归一化:对每个独立样本进行缩放,使样本具有一个单位LP范数。

数据 归一化 方法 样本

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。