SPSS软件入门与基础统计知识2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5、回答问题(统计结论→实际结论)
假设检验的过程
提出假设
我认为平均是4, 教师满意电子白 板
假设检验
作出决策
拒绝或者无 法拒绝原假 设 别无选择!
总体
抽取随机样本
均值 = 4.1 x
假设检验
2,建立检验假设,确定检验水准(选用单侧或者双侧检验)
• H0原假设(不存在变化或差异的命题):H0:μ= μ0 • H1备择假设(有统计意义上明显差异):H1:μ≠ μ0
在SPSS中我们进 行假设验证,P- value是我们判断 的基准
- 适用 10%: 损失不深刻时, 第二种错误引
起的损失大时。
单样本T检验
• 目标: • 确定样本均值是否显著不同于某个已知或估计的中体均值;
该样本对应的总体是未知的。 问题: 假设随机抽样了40个某年武汉市学生的高考语文成绩。 我想知道: 武汉市该年学生的高考语文成绩比分数110分低吗?
• 虽然数学和语文分数一样,但对于在总体中的相对位置而
言,你的数学成绩更好。
总结:
• 一个原始分数80分也好,70,60分也好,并
没有太多意义。除非知道分数对应的平均分。
• 知道原始分数和平均分的分值相差25分,20
分也好,在对于总体中的相对位置而言没有 意义。只有当我们知道SD的分数,利用z分 数=(x-M)/SD,比较z分数,我们才可以比 较两个不同分数的高低。
0.4 0.3 0.2
3, 随着自由度n的增加,t分布的密度函数越 接近正态分布密度函数 4, 当n>=30, t分布和标准正态分布接近
-3 -2 -1
n = 1 0.1 n=20
1 2 3
t 分布的图形(红色的是标准正态分布)
单样本T检验例子:
• 2013年武汉近城区教师中随机抽取100名教师进行电子白板问卷调查,满
频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。
频率与概率基本规律:
1. 样本频率总是围绕概率上下波动
2. 样本含量n越大,波动幅度越小,频率越接近概率。
图1
抛硬币“正面”向上的频率摆动示意图
• 如果样本量很大,组段很多,矩形顶端组成的阶梯型曲
线可变成光滑的分布曲线。 大多数情况下,可采用一 个函数拟合这一光滑曲线。这种函数称为概率密度函数 (probability density function)。
Z分数在SPSS中的应用
• 利用样本平均值x-bar和标准差SD计算z分数: •
分析> 描述统计 > 描述
•
利用两种方式 求高考语文分数的z分数
• 利用已知的总体平均值和SD:
• 转换
> 计算变量
x z SD
Z分布: 在一个已知的正态分布总体中,抽取若干样本,其均数分布 依然服从正态分布,即N(μ,σ)。
假设检验
• 假设检验:
先对总体的参数提出某种假设,然后利用样本信息判断假设 是否成立的过程。
• 它可以帮助我们判断:
两组数据是否存在显著差异
我们要研究的参数是否与我们设定的基准值不同
假设检验:
• 一个完整的假设检验Biblioteka Baidu程,通常包括以下四个步骤: • 1、明确问题(实际问题→统计问题)
2、提出原假设、备择假设 3、选取合适的统计验证方法 4、规定显著性水准α
P-value是拒绝原假设时出错的概率,所以当P值很小时我 们就可以拒绝原假设。 考虑α为拒绝原假设之关键值,故一般P值大于α,则无法 拒绝原假设,相反,P值小于α,则拒绝原假设
P-value为多少是好呢?
- 一般 P-value<0.05,就拒绝原假设H0
总得适用 5%的规则吗? - 不,根据情况可用 1%或 10% - 适用 1%: 第一种错误引起的损失大时
• 规定显著性水平α
• 是预先规定的概率值,它是小概率事件发生的标准。即规
定概率不超过α就是小概率事件。
通常取α=0.1、0.05、0.01。这表明,当作出接受原假设 的决定时,其正确的可能性(概率)为90%、95%、99%。
假设检验
规定显著性水平α;
1、我们作出了正确决定的情况: 原假设正确,我们接受了(同时也就拒绝了备择假设) 原假设错误,我们拒绝了(同时也就接受了备择假设) 我们设定 α=0.05
假设检验—术语说明 1、第一类错误(拒真)--- H0为真时却被拒绝。 α风险---出现第一类错误的机率或最大风险。P{拒绝H0| H0为真} α称为显著水平,允许犯第一类错误的最大概率为α,即1-置信度 关于有无显著性差异的判断是在显著水平α之下做出的 2、第二类错误(取伪) --- H0为伪时没有被拒绝。 β风险---出现第二类错误的机率或最大风险。P{接受H0| H1不真} 1- β是否定原假设错误的概率,这是检验的功效POWER。
1 f ( x) e 2
其中
为
( x )2 2 2
为总体均值, 2 为总体方差,则称随机
2
变量x服从正态分布(normal distribution), 记
x ~ N (, )。
正态曲线关于直线x=
对称,且在x= 时位于最高点;
正态分布函数的基本性质:
当
一定时,曲线的形状由 确定. 越大,曲线越
“矮胖”,表示总体的分布越分散; 越小,曲线越 “瘦高”,表示总体的分布越集中.
f(x) A
B
C
x
和 对正态曲线的影响
标准正态分布– Z分布
任何一个一般的正态分布,可通过下面的线性变换转化 为标准正态分布
X Z ~ N (0,1)
分类比较例子:
• 如果我想知道男生和女生
分别的高考语文的频数表、
直方图,平均分,方差?
• 我该如何分成男生和女生
两类呢?
扩展:除了基于性别分类,还 有哪些分类:学生类型,学生 学习风格,学生所在班级、学 区、学生家庭收入状况等进行 分类等
分类比较:拆分数据 (split file)
•
拆分文件:按类别分析数据: 数据 > 拆分数据 > 按组组织输出 合并文件:数据 > 拆分文件 > 分析所 有个案,不创建组;
• 但在实际工作中,总体的σ往往是未知的。我们常用s作为 σ的估计值,因而引出概念t分布。
我们是用样本推算总体哦
总体的标准差σ未知,我们希望通 过样本来推算总体的特征哦
t分布的性质
1, t分布的密度函数曲线与标准正态分布N(0,1) 的密度函数相似
2, t(n)的蜜豆函数两侧尾部比N(0,1)尾部稍粗 t(n)的方差比N(0,1)稍大
SPSS软件应用第二讲
版权所有,使用者请注明出处,请勿修改
基本学习内容:
Z分布----正态分布
利用SPSS计算Z分数; 例如:求某学生某学科成绩在总 体学生成绩中的相对位置,比较某个学生的不同学科成绩
T分布----学生分布 利用SPSS进行T检验; 例如:求某个样本平均值和某个 已知值是否相等,是否有显著差异? 1, 单样本t检验 2,独立样本t检验 3,依存样本t检验
偶尔也用=0.10或0.01。
哪一类错误所带来的后果严重,在假设检验中就应当把哪一类错误作为首要的控制目标。 但在假设检验中,大家都在执行这样一个原则,即首先控制犯α错误原则。从前面假设检 验的步骤中我们会发现,步骤之三“规定显着性水平”就体现了这样的原则。
p-值(p-value)
假设检验—术语说明
Z X
一般正态分布 s
标准正态分布 =1
m
x
Z
当我考试考了76分的时候:
原始分数大于平均数:z符号为“+” 原始分数小于平均数:z符号为“–” Z分数含义:原始分数与均值乊间相差几个标准差
1
0
1
2
Z分数=(76-82)/12=-0.5
Z分数的运用:
• Z分数是一种类型的标准分
生活中最常见的分布:正态分布
正态分布是一种很重要的连续型随机变量的概率分布:
现实生活中有许多变量是服从或近似服从正态分布的。 许多统计分析方法都是以正态分布为基础的。
因此在统计学中,正态分布无论在理论研究上还是实际应用 中,均占有重要的地位。
正态分布定义:
若连续型随机变量x的概率密度函数为:
对于检验假设,需注意:
1,检验假设是针对总体而言,不是针对样本
2,H0和H1是相互联系,对立的假设,两者缺一不可
• 3,H1的内容直接反映了检验的单双侧性;
例如:H1:μ≠ μ0 并没有考虑方向,为双侧检验 H1:μ>μ0 或者μ<μ0,不仅考虑了差异,还考
虑了差异的方向,此为单侧检验
**单双侧检验的确定,应根据专业知识,以及所想解决的 问题来确定。一般认为双侧检验保守稳妥。
意度均分为4.1分/5分。
• 1代表很不满意,2代表不满意,3代表中立,4代表满意,5代表非常满意 • 提问: 我想知道,2013年武汉市近城区教师对电子白板使用是否满意?
思考一: 怎么来表示教师是否满意? 当教师的均分大于或者等于4的时候,我们认为教师是满意的 思考二: 我们已经得到教师满意度均分4.1分了, 为什么我们不能直接下结论说2013年近城区教师对电子白板使用是满意的? 1,我们测得的满意度均分是样本的满意度,我们想求的是总体满意度。 2,如果教师样本均分是3.9,我们可以断言教师离满意是显著性不同的吗? 是真的不同,还是基于抽样的随机性?
2、假设检验是根据样本提供的信息进行推断的,也就有犯错误的可能 原假设正确,我们拒绝了(也就是接受了备择假设)
犯该错误的概率用α表示,统计上把α称为假设检验中的显着性水平 (Significant level), 也就是决策中所面临的风险。 所以,显著性水平是指当原假设为正确时人们却把它拒绝了的概率或风险。 这个概率是由决策者确定的,通常取α=0.1、0.05、0.01。这表明,当 作出接受原假设的决定 时,其正确的可能性(概率)为90%、95%、99%。
可能的判断错误(风险):
假设检验—术语说明
实际情形 H0正确 正确判断 H0不正确 第二种错误 取伪错误:概率β 正确判断
根据 样本 数据 判断
H0正确 H0不正确
第一种错误 拒真错误:概率α
●对于一定样本容量n,要使α小,必导致β大;要使β小,必导致α大; ●要使α、β皆小,只有在样本量n很大场合才可达到,这在实际中并不可行, 折中方案是:控制α以制约β ,但不使α过小:常选=0.05(即置信度95%),
• 你在班上参加数学考试和语文考试
数学考试:你的分数是80分,班上的平均分是65分,SD=15 语文考试:你的分数是80分,班上平均分是60分,SD=25 这两个测试的z分数是多少? 1, 数学z分数是(80-65)/ 15=1 x z 2, 语文z分数是(80-60)/ 25=0.8
SD
单样本T检验
• 分析 > 比较均值 > 单样本T检验
• 填写原假设指定值110分
数据分析:
因为P值=0.03< 0.05, 因此拒绝原假设
当检验值=106:
1, 将一般的正态分布转化为标准正态分布,计算 概率时只需要查一张表,更简单,便捷。
2, 标准分的主要用途是将分数放置在相同的量表 中,从而可以进行不同个体和变量的比较。
正态分布与概率
Z分数运用—查总体中的概率
一次期中考试,100分的数学试卷,你只考了55分。
你的心情如何? >_<
当知道班上的平均分是50分。
分类比较:探索法 (explore)
分析 > 描述统计 > 探索 1,比较男孩和女孩的高考语文成绩: 因子(factor):性别 因变量列表(dependent):高考语文
• •
•
•
2,比较本地和外地学生的: 高考英语成绩 因子:学生类型 因变量列表:高考英语
两种样本分类比较:
• 拆分法:
1,可以计算所有的不同群体的统计量 2,创造出单独的群
• 探索法:
1, 并不能创造群(group); 2, 不能得到某些统计量:中数,饼状图,条状 图,有正态曲线的直方图等
基本概率论知识:
• 为了确定抛掷一枚硬币发生正面朝上这个事件的概率 ,历史上
有人作过成千上万次抛掷硬币的试验。在表1中列出了他们的试 验记录:
• 从表1可看出,随着实验次数的增多,正面朝上这个事件发生的
你的心情又如何了?—_—
更多的信息来了。SD=3pts 你会求Z分数吗?
z score= (你的分数-平均分)/SD= (55-50)/3=1.67
如果是正态分布的话,意味着z=1.67, P(z)=0.9525.意味着95.25%的人比你考得差!
你现在的心情又如何? ^_^
总体中的相关位置中比较不同分数