2016 - 2024

感恩一路有你

数据分析需要哪些统计学知识(统计基础知识入门?)

浏览量:4901 时间:2023-01-31 15:16:13 作者:采采

数据分析需要哪些统计学知识(统计基础知识入门?)

统计基础知识入门?

要做好数据分析,除了自身过硬的技术和灵活的数据思维,还必须学习必要的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过对数据的搜索、整理、分析和描述,推断被测对象的性质,甚至预测对象的未来,是一门综合性的科学。

统计用了大量的数学等学科的专业知识,其应用几乎涵盖了社会科学和自然科学的所有领域,甚至是数据量巨大的互联网领域,所以扎实的统计学基础是一个优秀的数据人必备的技能。

而统计知识包括图形信息、数据集中趋势、概率计算、排列组合、连续概率分布、离散概率分布、假设检验、相关与回归等。对于具体知识点,本文就不一一介绍了。有兴趣的同学可以参考《深入浅出统计学》、《统计学:从数据到结论》等专业书籍。

统计可分为描述性统计和推断性统计。

一.描述性统计

定义:用具体的数字或图表来表示数据的集中和分散。

1.集中趋势

集中趋势是指一组数据的中心值,使用的指标有:算术平均值、几均值、中位数。

1)算术平均值:平均值,反映一组对称分布的变量值的平均水平。

2)几均数:常用来反映一组对称分布的变量值经过对数转换后的平均水平。

3)中位数:是第50个百分位数,适用于偏态分布数据和一端或两端没有确切值的数据。

4)百分位数:用于确定医学参考值范围的边界值。

2.离散趋势

离散趋势反映了数据的变异程度,常用的指标有极差、四分位间距、方差和标准差、变异系数等。

1)范围:一组数据的最大值和最小值之差,但范围可以 不能反映所有数据的变化,而且容易受样本内容的影响。通常用于描述偏态分布。

2)四分位数间距:由第11个四分位数减去第3个四分位数得到,常与中位数一起描述偏态分布数据的分布。

3)方差和标准差:反映一组数据的平均离散程度,排除样本含量的影响,常用来与均值一起描述一组数据中离散和集中的趋势。

4)变异系数:又称离群值,常用于观察指标单位的差异,可以消除因单位不同而造成的比较困难。

例如,箱线图可以很好地反映一些关键的统计数据。

3.抽样方法和中心极限定理

#取样方法

我们做产品检验的时候,不可能把所有的产品都打开看是否合格。我们只能从所有产品中抽取一些样品进行检验,并根据样品的质量来估计整体的产品质量。这是取样。抽样的定义是从整体中检验整体。抽取一些样本进行测试,并根据样本的测试结果估计整体质量的方法。

采样的方法有很多种,不同的目的和场景需要不同的方法。常见的采样方法有:

#概率抽样

?简单随机抽样;

?分层抽样;

?整群抽样(先将群体中的几个单元合并成组,这样的组称为群,然后直接对群进行抽样);

?系统抽样(将总体中的所有单元按一定顺序排列,在规定范围内随机选取一个单元作为初始单元,然后根据预先规定的规则确定其他样本单元);

?阶段抽样(首先对组进行抽样,然后在组内进行两阶段抽样)。

#非概率抽样

?方便取样(根据方便原则自行确定);

?判断抽样(基于专业知识的判断);

?自愿样本(研究者自愿参与);

?雪球样本(类似树形结构);

?配额样本(类似于分层抽样);

#两种取样方法的比较:

?非概率抽样适用于探索性研究,为进一步的数据分析做准备,其特点是操作简单,时效快,成本低。而且抽样对统计学专业的技术要求不是很高;

?概率抽样的技术含量更高,调查成本更高,对统计专业知识的要求也更高。适用于考察目的,得到总体参数的置信区间。

#中心极限定理:如果给定样本量的所有样本来自任意一个整体,样本均值的抽样分布近似服从正态分布,样本量越大,逼近性越强。以30为界,当样本量大于30时,符合中心极限定理,样本服从正态分布;当样本量小于30,总体近似正态分布时,此时样本服从t分布。样本的分布决定了我们在假设检验中用什么方法来检验它。

第二,推断统计学

定义:从样本数据推断总体的数据特征。

1、基本步骤

几乎所有质检用的产品都是抽样方法的推断统计,推断过程是假设检验。在做推断统计时,我们需要明确以下几点:

1)什么问题?——

2)需要明确的证据是什么?

3)标准是什么?

明确之后,可以对应我们假设检验的几个步骤:

1)提出原假设(H0)和替代假设(H1),确定显著性水平(原假设正确时人们拒绝原假设的概率)。

2)选择检验方法,确定检验统计量。

3)确定P值,进行统计推理。

假设对于某个器件,国家标准要求平均值要低于20。

某公司制造了10台设备,相关值如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9。

利用假设检验判断该公司设备是否符合国家标准;

1)假设:

原始假设:设备平均gt=20;

替代假设:设备平均lt20;

2)总体呈正态分布,方差未知,样本较小,采用t检验。

3)计算检验统计量:样本平均值为17.17,样本标准差为2.98,检验统计量为(17.17-20)/(2.98/√10)=-3.0031。

4)当置信度为97.5%,自由度为9时,为单尾检验,临界值为2.262。

5)由于-3.0031lt-2.262拒绝了原假设,接受了替代假设,装置符合国家标准。

2.假设测试类型

?单样本检验:检验单个样本的平均值是否等于目标值。

?相关配对检验:检验相关或配对观测值之差的平均值是否等于目标值。

?独立双样本检验:检验两个独立样本的平均值之差是否等于目标值。

3.统计测试方法

z检验:一般用于检验大样本(即样本量大于30)平均值差异的方法。它利用标准正态分布的理论来推断差异的概率,从而比较两个平均数gt之间的差异是否显著。

t检验:用于样本含量小(如nlt30)且总体标准差σ未知的正态分布样本。

f检验:f检验也叫方差齐性检验。双样本t检验采用f检验。检验两个样本的方差是否存在显著差异是选择哪种T检验(等方差双样本检验,异方差双样本检验)的前提。

(t检验用于检测数据的准确性和系统误差;f检验用于检测数据的精度和偶然误差)

卡方检验:主要用于检验两个或两个以上抽样率或构成比之间差异的显著性,也用于检验两类事物之间是否存在一定的关系。

4.双尾检测和单尾检测

这与我们提出的原始假设有关,比如我们检验的原始假设:器件的平均值gt = 20我们需要拒绝的假设是设备平均值lt20,这是单尾检验。如果我们原来的假设是器件平均值gt20,那么我们需要拒绝器件平均值lt20和器件平均值=20的假设,这就是双尾检测;

5.置信区间和置信水平

在统计学中,几乎所有的人都是基于样本来推断一般情况的,但是在推断的过程中,我们会遇到各种各样的阻碍和干扰,所以我们推断的结果并不是一个确切的数字,而是在一个合理的区间内,这个区间就是置信区间。

但是整体所有的数据都在这个范围内是不现实的。我们只需要绝大多数出现在置信区间。这里绝大多数是置信度的概念。通常,我们的置信度是95%。

置信区间[a,b]的计算方法如下:(z得分:由置信水平决定,查表得到)

A =样本均值-z*标准误差,b =样本均值z*标准误差。

数据 样本 方法 概率

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。