2016 - 2024

感恩一路有你

sas中如何将数据表格和矩阵转换 几种常见的缺失数据插补方法?

浏览量:1641 时间:2023-05-04 11:15:17 作者:采采

几种常见的缺失数据插补方法?

(一)个案剔除法(Listwise Deletion)

最常见、最简单的处理缺失数据的方法是用个案清除干净法(listwise

deletion),确实是很多统计软件(如SPSS和SAS)设置成的缺失值处理方法。在这种方法中要是任何一个变量所含的不完全数据的话,就把相随机的个案从分析中别除。假如缺失值所占比例比较小的话,这一方法相当管用。再说详细多大的缺失比例算是“小”比例,专家们意见也修真者的存在较高的差距。有学者以为应在5%以下,也有学者以为20%以下表就行。但他,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会倒致资源的大量浪费,扔掉了大量隐藏地在这些对象中的信息。在样本量较小的情况下,删除掉少量对象就绝对无法十分严重影响大到数据的客观性和结果的正确性。但,当不完全数据所占比例较高,特别是当缺数据非必掉分布特点时,这种方法可能造成数据发生了什么明显脱离,最大限度地结论错误`的结论。

(二)均值替换法(Mean Imputation)

在变量更而所缺失的数据量又少见庞然的时候,个案拔干净法就遇见困难,是因为许多有用的数据也另外被清除干净。不断着这一问题,研究者数次了各种各样的办法。其中的一个方法是均值替换法(mean

imputation)。我们将变量的属性统称数值型和非数值型来各参与处理。如果没有不完全值是数值型的,就依据什么该变量在其他所有对象的取值的平均值来再填充该不完全的变量值;要是缺乏值是非数值型的,就据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来短板补齐该功能缺失的变量值。但这种方产生有偏大概,所以的确被推祟。均值替换法也种方便简洁、飞快的缺失数据处理方法。可以使用均值替换法插补缺失数据,对该变量的均值肯定不会产生影响。但这种方法是确立在已经副本失衡(MCAR)的假设之上的,不过会导致变量的方差和标准差变小。

(三)热卡填充法(Hotdecking)

对此一个乾坤二卦缺乏值的变量,热卡填充法在数据库中找到一个与它最有几分相似的对象,接着用这个几乎完全一样对象的值来通过再填充。有所不同的问题可能会选用天然不同的标准来对相似参与直接判断。最常见的是不使用相关系数矩阵来确认哪个变量(如变量Y)与缺失值的地方变量(如变量X)最查找。然后把所有个案按Y的取值大小通过排序。这样的话变量X的缺失值就这个可以用排在缺失值前的那个个案的数据来替代了。与均值替换法而言,依靠热卡填充后法插补数据后,其变量的标准差与插补前比较比较将近。但在回归方程中,可以使用热卡再填充法不容易使得回归方程的误差大小改变,参数估计变的不稳定啊,但这种方法可以使用不便,都很前后历时。

(四)回归替换法(Regression Imputation)

重临修改成法是需要必须你选若干个分析预测不完全值的自变量,然后把确立回归方程肯定缺失值,即用功能缺失数据的条件期望值对缺失值通过重命名。与上述全部几种插补方法比较,该方法凭借了数据库中最好不要多的信息,而且一些统计软件(如Stata)也已经还能够就负责执行该功能。但该方法也有诸多弊端,第一,这虽然是三个无偏肯定,只不过却不容易轻视任务道具误差,失算标准差和其他未知力量性质的测量值,而且这一问题会伴随着功能缺失信息的增多而变得十分严重。第二,研究者要题中必然失衡值的地方的变量与其他变量修真者的存在线性关系,有些时候这种关系是不存在的。

(五)多重其它的东西法(Multiple Imputation)

重物估算是由Rubin等人于1987年建立起起来的一种数据扩充和统计分析方法,充当简单估算的改进产物。简单,多厚估算技术用一系列肯定的值来修改成每一个缺失值,以思想活动被重命名的缺失数据的不确定性。然后再,用标准的统计分析过程对三次替换后有一种的若干个数据集参与分析。之后,把不知从何而来于各个数据集的统计结果进行综合,得到总体参数的估计值。导致多贵估算技术并并非用单个体的值来全部替换缺失值,完全是趁机产生功能缺失值的一个随机样本,这种方法思想活动出了的原因数据缺失而可能导致的不确定性,也能产生更加最有效的统计断定。结合这种方法,研究者也可以都很不容易地,在不亲手毁灭任何数据的情况下对缺乏数据的未知的东西性质进行猜想。NORM统计软件可以相对于省事地你操作该方法

经济学需要什么方面的数学知识?

学经济学,要有数学知识的准备是:

1、微积分(从极限的定义就开始,一直在到重物积分)。

2、概率论(非连续的、后的各种概率模型、各种密度函数、概率函数、贝叶斯先验后验等等)。

3、数理统计(大数定律、中心极限定理、各种统计指标,期望、方差等等的推到和应用、做统计模型等等)

4、线性代数(行列式、矩阵、矩阵的应用)

5、实变函数、泛函分析、随机过程、博弈论,这些必要的例如C/Matlab或其他编程工具的学习,再者,替进行实证分析,R语言也可以SPSS、SAS等统计分析程序建议也要完全掌握一门。

方法 数据 统计 缺失

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。