《心理统计学》重要知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《心理统计学》重要知识点
第二章 统计图表
简单次数分布表的编制:Excel 数据透视表
列联表(交叉表):两个类别变量或等级变量的交叉次数分布,Excel 数据透视表
直方图(histogram ):直观描述连续变量分组次数分布情况,可用Excel 图表向导的柱形图来绘制 散点图(Scatter plot ):主要用于直观描述两个连续性变量的关系状况和变化趋向。
条形图(Bar chart):用于直观描述称名数据、类别数据、等级数据的次数分布情况. 简单条形图:用于描述一个样组的类别(或等级)数据变量次数分布。
复式条形图:用于描述和比较两个或多个样组的类别(或等级)数据的次数分布。
圆形图(circle graph )、饼图(pie graph ):用于直观描述类别数据或等级数据的分布情况。
线形图(line graph ):用于直观描述不同时期的发展成就的变化趋势;
第三章 集中量数
● 集中趋势和离中趋势是数据分布的两个基本特征.
● 集中趋势:就是数据分布中大量数据向某个数据点集中的趋势。
● 集中量数:描述数据分布集中趋势的统计量数。
● 离中趋势:是指数据分布中数据分散的程度。
● 差异量数:描述数据分布离中趋势(离散程度)的统计量数 ● 常用的集中量数有:算术平均数、众数(M O )、中位数(M d ) 1.算术平均数(简称平均数,M 、X 、Y ):n
x X i
∑= Excel 统计函数AVERAGE
算术平均数的重要特性:
(1)一组数据的离均差(离差)总和为0,即0)(=-∑x x i
(2)如果变量X 的平均数为X ,将变量X 按照公式bx a y +=转换为Y 变量后,
那么,变量Y 的平均数X b a Y +=
2.中位数(median ,M d ):在一组有序排列的数据中,处于中间位置的数值。
中位数上下的数据出
现次数各占50%。
3.众数(mode ,M O ):一组数据中出现次数最多的数据. 4.算术平均数、中数、众数之间的关系。
5.加权平均数:i
i
i n n n w w w x w w w w x w x w x M ∑∑=++++++=
212211
6.调和平均数(harmonic mean ,M H ):一组数值倒数的平均数的倒数。
∑=
+⋅⋅⋅++=
i
n
H x
n
n x x x M 1)111(
1
21 Excel 统计函数HARMEAN (1)用于描述同一个体(或一组个体)不同时间段的平均学习速度、平均工作效率。
(2)用于描述不同能力水平个体的平均学习速度、平均工作效率。
7.几何平均数(geometric mean,Mg )是指n 个观察值连乘积的n 次方根.
(1)一组数据中少部分偏大(或偏小),数据分布呈偏态时,几何平均数比算术平均数更能反映数据
的集中趋势。
n n g x x x M ⨯⨯= 21 Excel 统计函数GEOMEAN
(2)用于计算平均学习进步速度、平均发展速度(平均发展倍数),即环比的几何平均数。
11
1
134
2312---=⨯⨯⨯=n n n n n g x x x x x x x x x x M (n x x x 、、
、 21为各个时间段的成果数据) 平均增长率:1-g M
第四章 差异量数
● 差异量数:描述一组数据离散程度(离中趋势)的统计量数.差异量数较大,说明数据分布得比较分散,数据之间的差异较大;差异量数较小,说明数据分布的比较集中,数据间的差异较小。
● 差异量数还能反映平均数对一组数据的代表性.差异量数越小,平均数的代表性越好;差异量数越大,平均数的代表性越差。
● 常用的差异量数是标准差、方差、差异系数
标准差s :n X X s i 2
)(∑-=
Excel 统计函数STDEVP(给定样本总体的标准偏差)
标准差s n-1:1
)(2
1--=∑-n X X s i n Excel 统计函数STDEV(给定样本的标准偏差)
方差2s :n
X X s i 22
)(∑-=
Excel 统计函数VARP (给定样本总体的方差)
方差2
1
-n s
:1
)(22
1
--=
∑-n X X s i n Excel 统计函数VAR (给定样本的方差) 差异系数(又称变异系数、离散系数、相对标准差):X
S
CV =
(1)用于比较不同观测工具测量结果(数据单位不同)的离散程度,例如,身高离散程度大,还
是体重离散程度大?
(2)用于比较用同一观测工具测得的、均数差异较大的不同样本数据的离散程度.例如:7岁组儿童
和13组岁儿童的体重离散程度,哪个较大?
● 标准差的重要特性:如果变量X 的标准差为X S ,将变量X 按照公式bx a y +=转换为Y 变量后,
那么,变量Y 的标准差X Y bS S =
● 相对位置量数:反映个体(数据)在团体中相对位置的统计量数。
主要有标准分数及其线性转换分数(Z 分数、T 分数)、百分等级(PR )、正态化标准分数等。
1.标准分数的计算与应用:S X X Z i -=
或:σ
μ
-=i X Z , 5010+=Z T ,500100+=Z CEEB
Z 分数的特点:Z 分数的平均数为0,即0=Z μ,标准差为1,即1Z =σ T 分数的平均数50T =μ,标准差为10T =σ
CEEB 分数的平均数=___________?,标准差=__________?
(1)可用于比较个体各方面水平高低(横向比较,个体内差异评价)。
(2)对被试多方面的测量结果进行综合,如对高考各科成绩的综合,各分测验分数的综合。
(3)可用于对个体或样组某方面水平进行前后比较(纵向比较),判断其水平是提高了,退
步了,还是没有变化.
2.原始分数X 的百分等级的含义与计算
根据简单次数分布表计算:1005.0⨯+=
N
F f PR b
X 根据分组次数分布表计算:100⨯+•-=N
F f i L X PR b b
X
第五章 相关关系
● 相关关系的描述方法
(1)相关散点图:适用于直观描述两个连续性数值变量(等距数据、比率数据)之间的关系。
可
用Excel 图表向导中的“XY 散点图"绘制。
(2)双向次数分布表(交叉表、列联表):适用于描述两个等级变量(或称名变量、类别变量)
之间的关系。
可用Excel 数据透视表编制列联表)。
(3)相关系数(相关关系的特征值)。
● 相关系数:描述两个变量相关关系的统计量数,在—1。
00~1.00之间取值,绝对值越大,越接近1,说明两个变量之间的关系程度越密切;绝对值越小,越接近0,说明两个变量的关系程度越低。
● 常用的相关系数: 1.积差相关:y
x i i s ns y y x x r ∑--=
))(( Excel 统计函数CORREL
适用条件:(1)X 、Y 两个变量都是连续性变量(等距数据或比率数据);
(2)X 、Y 两个变量总体上为正态分布或接近正态分布。
2.斯皮尔曼等级相关:是一对(两列)名次变量的积差相关。
对数据变量的分布形态没有要求。
(1)等级积差相关法(名次积差相关法)。
Y
X R R Y Y X X R S NS R R R R r )
)((--∑=
Excel 统计函数CORREL
公式中的R X 和R Y 是分别代表两变量中每个数据在变量中的名次。
(2)等级差数法(名次差数法)。
如果每个等级(即名次)变量中没有相同的等级名次,可用下面公式计算:
等级差数法简化公式:)
1(612
2
-∑-=N N D r R 如果等级(即名次)变量中有相同的等级名次,需用下面校正公式计算: 等级差数法校正公式:)
)((222222y x D y x r RC ∑∑•∑-∑+∑=
,2x ∑、2y ∑计算方法参见教材125页
3.肯德尔W 系数(肯德尔和谐系数):描述多个名次变量一致性程度的统计量数。
适用于描述和分析不同评价者(如主考、阅卷者)对同一组个体(考生或答卷)评价结果(名次)的一致性程度,在心理测量与教育评价中称为评分信度。
例如,5位阅卷老师对10篇论文评分排名的一致性。
如果评价者给出的不是个体的水平名次,而是分数(或等第、符号),可先将其转换成名次,然后再计算W 系数。
)(121)(3222
N N K N R R W i i --=
∑∑ 校正公式:∑∑∑---=T N N K N R R W i i )(12
1)(3222
∑∑-=12)
1(2n n T 公式中:n 为每个名次变量中相同名次的数目。
4.点二列相关(point —biserial correlation ):
用于描述一列续性变量和一列真正二分变量(或非正态二分变量)之间的相关.
真正二变量:指按某种性质或标准将个体划分为两种结果的变量,如对、错,男、女等.
pq s X X r t
q
p pb •-=
Excel 统计函数CORREL
5.二列相关(biserial correlation ):用于描述由一个正态连续变量人为划分成的二分变量与另外一
个正态连续变量之间的相关。
或者说,用于描述一正态二分变量与一正态连续变量之间的相关。
人为二分变量?是指由连续变量转换而来的二分变量,例如,将测验或考试分数区分为及格和不
及格,80分以上和80分以下;按中考(或高考)成绩,将考生区分为录取、未录取。
正态二分变量?如果二分变量是根据正态连续变量转换而来,那么,可称之为正态二分变量。
y
pq
s X X r t
q
p b •
-=
y 为将正态分布面积画分为p 、q 两部分的纵线的高度。
y 的计算方法:利用Excel 统计函数计算
标准正态分布区间点函数NORMSINV(p 值) →区间点Z 值 正态分布函数NORMDIST (区间点Z 值,0,1,0) →Z 值的概率密度y
6.Φ相关(Φ系数):)
)()()((|
|d b c a d c b a bc ad r ++++-=
Φ
用于描述两个真正二分变量的相关程度,也用于描述一个人为二分变量和真正二分变量的相关。
注意:Φ相关计算公式是由皮尔逊积差相关计算公式转换来的。
因此,如果两列二分变量转换
为0、1(或1、2)的数值变量时,可以用Excel统计函数CORREL计算Φ系数。
第六章 概率分布
1.正态分布的特征(见教材)
2.Excel 软件中正态分布函数和正态分布区间点函数的应用
◆标准正态分布函数NORMSDIST 的应用:
(1)P (Z <1.96)=? =NORMSDIST (1.96)=0。
9750 (2)P(Z >1。
96)=? =1—NORMSDIST(1。
96)=0。
0250
(3)P(-1。
5<X <2.5)=? =NORMSDIST (2.5)—NORMSDIST (—1。
5)=0。
9270 ◆正态分布函数NORMDIST 的应用
例如:已知某次测验的分数呈正态分布,平均分为75分,标准差为10分,试计算: (1)低于80分的考生占多大比例,P (X <80分)=? (2)80分以上的考生占多大比例,P (X ≥80分)=?
(3)80分以上,低于90分的考生占多大比例,P(80≤X <90)=? P (X <80分):“=NORMDIST (79。
5,75,10,1)"=0。
6736 P (X ≥80分):“=1—NORMDIST (79.5,75,10,1)"=0。
3264
P (80≤X <90):“=NORMDIST (89.5,75,10,1)—NORMDIST (79.5,75,10,1)”=0.2528 ◆标准正态分布区间点函数NORMSINV 的应用
根据给定的向上累积概率P (Z 〈a),标准正态分布的临界值a=? a=NORMSINV(p 值) 例如:P (Z 〈a)=0。
90 =NORMSINV(0.90)= 1。
28,a= 1.28,P(Z >1。
28)=0.10 ◆正态分布区间点函数NORMINV 的应用
根据正态变量X 的平均数、标准差和向上累积概率P (X 〈a ),计算临界值a=?
例:已知某次大规模招聘考试分数呈正态分布,平均分为55分,标准差为12分。
现准备录取
10%的考生进行面试,录取分数线大致是多少?
P(X >?)=0。
10,即P(X <?)=1-0.10=0。
9,=NORMINV (0。
9,55,12)=70.38,
最低分数线应为70分。
3.测验分数、测评等级的正态化:
根据被试样本原始分或等级的简单次数分布表,计算各个不同分数或等级的正态标准分数 (1)计算每个不同分数X(或等级)以下累计次数F b ;
(2)计算每个不同分数X (或等级)中点以下累积比率CP:N
F f CP b
X +=
5.0 (3)利用Excel 统计函数NORMSINV ,计算CP 对应的正态Z 分数。
(4)根据需要,将正态Z 分数转为其他标准分数形式:
T 分数、CEEB 分数、托福考试分数、离差智商IQ 等,
5010+=Z T ,500100+=Z CEEB ,50070+=Z TOEFL ,10015+=Z IQ
4.偏态系数(SK )和峰态系数(Kurt )的计算与应用
偏态系数:Excel 统计函数SKEW ; 峰态系数:Excel 统计函数KURT 。
偏态系数SK =0,对称分布;SK >0,正偏态分布;SK <0,负偏态分布。
峰态系数Kurt =0,正态分布的峰态;Kurt >0,次数分布的峰度比正态分布峰度低阔;
Kurt <0,次数分布峰度比正态分布峰度高狭。
偏态系数和峰态系数都等于0或接近0时,变量的分布为正态分布。
5.二项分布的定义
二项分布是二项试验验结果的概率分布.进行n 次二项试验,各次试验彼此独立,每次试验时某事件出现的概率都是p ,该事件不出现的概率为q (=1—p ),则该事件出现x 次的概率分布为:
x
n x x n q p C p n x b x X P -===),,,()(。
二项分布的Excel 统计函数:BINOMDIST 6.二项分布函数BINOMDIST 的应用
对20道四选一的单项选择题,如果完全凭猜测答题,那么 (1)猜对5道题的概率是多少? (2)猜对5题以下概率是多少? (3)猜对6题以上的概率是多少? n =20,每题猜对的概率为p =0。
25
(1)猜对5道题的概率P (X =5) =BINOMDIST (5,20,0.25,0)=0。
20233 (2)猜对5题以下的概率P (X ≤5) =BINOMDIST(5,20,0.25,1)=0.61717
(3)猜对6题以上的概率P (X ≥6)=1—P (X ≤5) =1—BINOMDIST (5,20,0。
25,1)=0.38283 7.二项分布的形态:随n 、p 的变化具有不同的分布形态
(1)当p =q 时,二项分布是对称分布。
(2)当p =q ,np ≥5时,接近正态分布。
(3)当p ≠q ,np <5或nq <5时,二项分布为偏态分布. (4)当p ≠q ,np ≥5且nq ≥5时,二项分布接近正态分布. 8.二项分布的平均数和标准差
进行n 次二项试验,每次试验时某事件出现的概率都是p ,则该事件出现次数的理论平均数(μ)、 方差(2σ)和标准差σ分别为:npq npq np ===σσμ,,2。
如果np ≥5且nq ≥5,成功事件出现结果的概率分布接近np =μ、npq =σ的正态分布。
进行投掷100枚硬币试验,如果进行无数次试验,正面向上的硬币数目会在0~100个之间变化。
那么,正面向上次数的理论平均数:μ=np =100×0.5=50,标准差为55.05.0100=⨯⨯==npq σ.
20道四选一的单项选择题,如果完全凭猜测答题,那么, 猜对题数的平均数为μ=np =20×1/4=5
猜对题数的理论标准差为94.14/34/120=⨯⨯==npq σ。
第七章 总体参数估计
1.常用的点估计:
总体均数μ的点估计:用样本平均数X ,Excel 统计函数为AVERAGE 总体方差σ2的点估计:用样本标准差21-n S ,或12-•n n
S . 总体标准差σ的点估计:用样本标准差1-n S ,或1
-•
n n
S 。
2.总体平均数的区间估计
1.若样本均数的抽样分布为正态分布,
总体均数的0。
95置信区间为:1
96.1205.0-⨯±=±n S X SE Z X X 总体均数的0.99置信区间为:158.2201.0-⨯±=±n S X SE Z X X
2.若样本均数的抽样分布为df =n —1的t 分布,那么,
总体均数的0。
95置信区间为:12/05.02/05.0-⨯±=±n S t X SE t X X
总体均数的0.99置信区间为:1
2/01.02/01.0-⨯
±=±n S t X SE t X X
自由度df =n -1,205.0t =?,205.0t =?,可用Excel 统计函数TINV 计算. 也可查教材453页t 值表
3. 总体方差与标准差的区间估计
总体方差2σ的0。
95置信区间为:
2975
.02
2
2025
.02
χσχnS nS <
<,或
2975
.021
2
2025
.021
)1()1(χσχ---<
<-n n S n S n ,
总体方差2σ的0。
99置信区间为:
2995
.02
2
2005
.02
χσχnS nS <
<,或
2995
.021
2
2005
.021
)1()1(χσχ---<
<-n n S n S n
自由度df =n -1的2χ分布右侧概率区间点的计算,也可用Excel 统计函数CHIINV 。
也可查教材475页2χ分布数值表
总体标准差σ的置信区间:取总体方差2σ置信区间上、下限的正平方根。
4.总体积差相关系数的区间估计:
(1)将样本相关系数r 转换为费舍Zr 值,转换方法:Excel 统计函数FISHER (2)计算Zr 的标准误SE Zr :3
1-=
n SE Zr
(3)计算总体Z ρ值的1-α置信区间:Zr r SE Z Z 2α±
0.95置信区间为:396.1205.0-±=±n Z SE Z Z r Zr r 0。
99置信区间为:3
58
.201.0-±
=±n Z SE Z Z r Zr r
(4)计算总体相关系数ρ值的置信区间:将总体Z ρ值区间上、下限进行费舍逆转换,
转换方法:Excel 统计函数FISHERINV
5.总体比率(比例)的区间估计
5ˆ5ˆ≥≥q n p
n ,时,样本比率p ˆ的抽样分布渐近正态分布。
总体比率的0.95置信区间为:n q p
p SE p
p ˆˆ96.1ˆ96.1ˆ⨯±=± 总体比率的0.99置信区间为:n
q p p SE p
p ˆˆ58.2ˆ58.2ˆ⨯±=±
第八章 假设检验
在Z 检验中:双侧检验临界值:2/05.0Z =1.96 2/01.0Z =2。
58
单侧检验临界值:05.0Z =1.645 01.0Z =2。
326 单侧显著性概率P :=1-NORMSDIST (ABS (Z 值)) 双侧显著性概率P :=(1-NORMSDIST(ABS (Z 值)))*2
在t 检验中:单侧显著性概率P:=TDIST (ABS (t 值),df ,1)
双侧显著性概率P :=TDIST (ABS (t 值),df ,2)
1.单个样本Z 检验
主要用途:分析单个样本均数x 与已知的总体均值μ0的有无显著差异, 适用条件:(1)总体呈正态分布,总体方差2σ已知;
(2)总体是正态分布,总体方差2σ虽然未知,但样本容量30≥n ; (3)即使总体非正态分布,总体方差2σ也未知,样本容量30≥n .
1
'00
--=
-=
n S
X Z n
X Z μσμ或:
2.单个样本t 检验
主要用途:用于分析单个样本均数x 与已知的总体均数μ0的差异,
适用条件:(1)总体呈正态分布,总体方差2σ未知,样本容量30<n 的情况下.
(2)总体非正态分布,总体方差2σ未知,样本容量30≥n 的情况下.
1
0--=
n S
X t μ 1-=n df
3.单个样本比率Z 检验
主要用途:根据一个样本的比率p
ˆ,分析样本所代表的总体比率p 与已知比率0p 有无显著差异. 适用条件:5500≥≥nq np ,
n
p p p p Z )1(ˆ000--=
4.两独立样本比率差异Z 检验
主要用途:根据两个独立样本的比率21ˆˆp p
-,推断两总体比率p 1、p 2有无显著差异 适用条件:两个样本相互独立,22112211ˆˆˆˆq n q n p n p
n ,,,都≥5 )
()ˆˆ)(ˆˆ(ˆˆ21212211221121n n n n q n q n p n p
n p p
Z +++-=
5.两独立样本方差齐性检验
主要用途:根据相互独立的两个样本的方差,推断两个总体的方差是否相等或是否有显著差异。
)
1()
1(222
212112
1
2
121--=
=
--n S n n S n S S F n
n
小的大的 分子方差的自由度df=n 1—1,分母方差的自由度df=n 2-1
双侧显著性概率P 值:=FDIST (F 值,分子自由度,分母自由度)*2
6.相关样本t 检验
主要用途:
(1)根据一组被试前、后两次测评结果,推断两次测验结果的总体均数有无显著差异. (2)根据实验组和配对对照组测评结果,推断实验组和对照组的总体均数有无显著差异。
适用条件:两个样本的数据有一一对应关系,且有可比性;两总体数据呈正态分布。
1
22122
2
121--+
-=
n S rS S S X X t 1-=n df
7.独立样本Z 检验
主要用途:根据两个独立样本的均数差异21X X -,推断两总体均数21μμ、有无显著差异。
适用条件:(1)两总体为正态分布,总体方差21σ、2
2σ已知,不管样本大小
(2)两总体非正态分布,总体方差21σ、2
2σ已知,303021≥≥n n ,时 (3)两总体非正态分布,总体方差21σ、22σ未知,303021≥≥n n ,时
总体21σ、2
2σ已知时:2
22
1
2
1
2
1n n X X Z σ
σ
+
-=
; 总体21σ、2
2σ未知时:2
221
2121n s n s X X Z +-=
8.独立样本等方差假设t 检验
主要用途:根据两个独立样本的均数差异21X X -,推断两总体均数21μμ、有无显著差异?
适用条件:(1)两总体为正态分布,总体21σ、22σ未知,且21σ=2
2σ,不管样本大小
(2)两总体非正态分布,总体21σ、22σ未知,且21σ=2
2σ,303021≥≥n n ,时
两总体方差21σ、2
2σ是否相等,需要先做方差齐性检验。
注意:大多数情况下,两总体方差基本相等。
)
1
1(221212222112
1n n n n s n s n X X t +•-++-=
221-+=n n df 9.独立样本异方差假设t 检验
主要用途:根据两个独立样本的均数差异21X X -,推断两总体均数21μμ、有无显著差异?
适用条件:(1)两总体为正态分布,总体21σ、22σ未知,且21σ≠2
2σ,不管样本大小
(2)两总体非正态分布,总体21σ、22σ未知,且21σ≠2
2σ,303021≥≥n n ,时
2
2212121n s n s X X t +-=
当n n n ==21时,1-=n df ;当21n n ≠时,()1
)(1)(22
121121212
22
2121
-+-+=n n s n n s n s n s
df 10.积差相关显著性t 检验
主要用途:根据一对变量的样本数据及其积差相关系数r ,推断两变量有无显著关系。
适用条件:两变量为连续性数值变量,且总上正态分布。
2
12r n r t --•
= 2-=n df
第十四章 抽样原理及方法(参见教材)。