统计学重点部分归纳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学重点部分归纳 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】
第三章
全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值
组距分组数据可根据最高组上限 -最低组下限计算。
四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。
SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1
反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。
离散系数:标准差与其相应的均值之比,表示为百分数。
特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比
标准差等绝对指标更有意义
数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:数据分布的扁平或尖峰程度。
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
箱线图
用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。
在SPSS中标准的箱线图一般是这样绘制的:
先根据三个四分位数Q1、Q2、Q3画出中间的盒子;
由Q3至Q3+*IQR区间内的最大值向盒子的顶端连线,由Q1至*IQR区间内的最小值向盒子的底部连线;
处于Q3+*IQR至Q3+3*IQR或者 *IQR至Q1-3*IQR范围内的数据用圆圈标出;
大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。
例子:
数据的 Z值
也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。 Z
值的均值等于0,标准差等于1。
s x
x
i i -
=
z
是对某一个值在一组数据中相对位置的度量。
z>0说明观测值大于均值。
z<0说明观测值小于均值。
z=说明观测值比均值大倍的标准差
第四章
假设检验
推断统计:在搜集、整理观测样本数据的基础上,对有关总体作出推断特点:随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断
参数估计
(1)基本概念:
点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。
例如,在估计总体方差时,和都可作为估计量。
点估计量常用的评价准则:
a无偏性:估计量的数学期望与总体待估参数的真值相等:
b有效性:在两个无偏估计量中方差较小的估计量较为有效。
c一致性:指随着样本容量的增大,估计量越来越接近被估计的总体参数。
区间估计:根据事先确定的置信度1-α给出总体参数的一个估计范围。
置信度1-α的含义是:在同样的方法得到的所有置信区间中,有100(1-α)% 的区间包含总体参数。
置信是什么抽样分布:区间估计的理论基础。
从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。
如果从总体中重复抽取样本量为n 的样本,就可以得到统计量的多个值。 统计量的抽样分布就是这一统计量所有可能值的概率分布。 抽样分布的要点: 抽样分布是统计量的分布而不是总体或样本的分布。 在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。 样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。 抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同 于总体或样本数据的分布。
. 样本均值的均值(数学期望)等于总体均值
. 样本均值的方差等于总体方差的1/n
样本均值抽样分布结论:一般的,当总体服从 N(μ,σ2 )时,来自该总体的容量为n 的样本的均值x 也服从 正态分布,X 的期望为μ,方差为σ2/n 。即x ~N(μ,σ2/n)。
σ2=10/4= 中心极限定理:从均值为μ,方差为2σ的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为2σ/n 的正态分布。
简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于n σ,这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。
简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于1
n 2
--•N n N σ,称为有限总体校正系数,当抽样比(n/N )<时可以忽略有限总体校正系数。
总体均值和比例的区间估计
总体比例的区间估计:当
时总体比例的置信区间可以使用正态分布来进行区间估计。(样本比例记为
,总体比例记为π)
置信区间的补充说明: P=1-α
置信度含义的说明:
必要样本容量的确定:
(1)实际抽样误差:总体参数估计值与真实值之间的绝对离差称为实际抽样误差,是一个随机变量。
(2)抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值
(或比例)与总体均值(比例)的平均差异程度。例如对简单随机
抽样中的样本均值有:
我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。影响因素:1.总体内部的差异程度;2.样本容量的大小;3.抽样的方式方法
(3)最大允许误差:在确定置信区间时样本均值(或样本比例)加减的量,一般用E 来表示,等于置信区间长度的一半。置信区间=是人为确定的,是调查者在相应
的置信度下可以容忍的误差水平。
必要样本量受以下几个因素的影响;
(1)总体标准差。总体的变异程度越大,必要样本量也就越大。
(2)最大允许误差。最大允许误差越大,需要的样本量越小。
(3)置信度1-α。要求的置信度越高,需要的样本量越大。
(4)抽样方式。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。
简单随机抽样时的必要样本量(计算题):
估计总体比例时样本容量的确定:
上式中的总体比例π可以通过以下方式估计:
根据历史资料确定
通过试验性调查估计
取为