统计软件spss操作3_常用假设检验与相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、连续变量的统计推断:t-检验
问题: 做“比较均值—独立样本 t 检验“之前是否要 检查数据的正态性?方差齐性?独立性?
练习: 试检验CCSS数据中2007年4月样本的不同收 入组别(变量Ts9)的信心指数index1的均值 是否相等。
二、连续变量的统计推断:t-检验
3、 “比较均值”—配对样本 t 检验
功能:比较两个总体样本的均值是否相等。实际功 能可以理解为判断是一个总体的样本还是两个总体 的样本,又称为成组设计两样本均数比较。(通常 数据中有一个变量显示分组情况) 也有前面说的两种情况,SPSS只做一种。 操作:“分析”—“比较均值”—“独立样本 t 检验”
例:
比较“均值比较”数据中男女生“自信心”的均值 是否有差异。(即,是同属于一个总体还是分属两 个不同总体)
一、分布类型检验
四)用K-S图检验数据分布形态 原理:
Kolmogorov-Sminov单样本检验是一种分布拟合优 度的检验,其方法是将一个变量的累积分布与特定 理论分布相比较:
K=lim|Ai-Oi|
如果频数绝对差太大,就不符合特定分布。 检验CCSS的总指数是否符合正态分布。
例4: “分析”—“非参数检验”—“单样本”
三、无序分类变量的统计推断:卡方检验
四)一致性检验与配对卡方检验 (检验某两种方法的结果是否一致) 说明:有一种列联表,其行变量与列变量反映的是一 个事物的同一属性的相同水平,而只是区分方法的不 同,这相当于配对设计。例如,行变量和列变量分别 代表不同裁判员的评价分数。如果要检验两种评价的 一致性,就不应该用pearson卡方检验,而应该用 kappa一致性检验。 例4:某公司要扩展业务,选了20个店址,请两位资 深顾问来打分,评为好中差3级。请问他们的评分是 否一致?(两种处理方法是否一致)
基本程序语句:
一、分布类型检验
二)如何使用SPSS自动产生各种分布的数据 关键语句:
产生均值为u、方差为σ的正态分布数据: COMPUTE A=u+σ*RV.NORMAL(0,1). 产生a 和 b 之间均匀分布的数据: COMPUTE A=RV.UNIFORM(a,b). 产生指数分布: COMPUTE A=RV.EXP(5). 产生泊松分布: COMPUTE A=RV.POISSON(0,1).
说明:
一、分布类型检验
二)如何使用SPSS自动产生各种分布的数据 方法:
主要是利用命令语句产生数据
SET SEED 1. INPUT PROGRAM. LOOP #LOP=1 TO 30. COMPUTE A=RV.NORMAL(0,1). END CASE. END LOOP. 只要改变这个主要语 句,就可以产生其他 END FILE. 类型分布的数据。 END INPUT PROGRAM. EXECUTE.
为6.5或为7,检验的结果会 是如何?
例:
二、连续变量的统计推断:t-检验
问题: 做“比较均值—单样本 t 检验“之前是否要检 查数据的正态性?
练习: 试检验CCSS数据中2007年4月样本的信心指 数index1的均值是否等于100。
二、连续变量的统计推断:t-检验
2、 “比较均值”—独立样本 t 检验
一、分布类型检验
一)概述
目的主要是检验数据服从哪一类型的分布,或者是 完全随机的。以及如何用SPSS自动产生各种分布 的数据 主要方法有 K - S 检验和游程检验。
很多统计方法都要求数据满足正态分布,不同变量 比较有时还要求方差齐性 我们用图形直观观察数据的分布性状,也用精密的 统计技术对分布性状做严格检验
三、无序分类变量的统计推断:卡方检验
三)检验某两个分类变量是否相互独立 例2:考察2004年CCSS调查样本中不同级别 收入家庭(变量Ts9)轿车拥有率比较。 (两样本) 操作: “分析”—“描述统计”—“交叉表” (“统计量”—“卡方”)
三、无序分类变量的统计推断:卡方检验
三)检验某两个分类变量是否相互独立 例3:考察阶级认知样本中父代不同级别职业 子代收入的比较。 操作: “分析”—“描述统计”—“交叉表” (“统计量”—“卡方”)
一、分布类型检验
结论是:不符合正态分布。 双击结果图,可以得到进一步信息:
均数95.89,标准差21,在1147例样本中,实际频 率分布和假设的理论频率分布之间,正向频数差 0.075,负向则为0.102,统计量Z值为3.466, alpha值0.000,即1000次抽样中,几乎不会出现一 次差值大于0.102的情形(而现在出现了),这样 的小概率事件都发生了,意味着原假设是不对的。 K-S检验在样本量小时不敏感,样本量大时过于敏 感。实际上本例可以认为是正态分布。
例:
二、连续变量的统计推断:t-检验
例: 以张文彤《SPSS统计分析基础教程》261页 案例数据做配对检验。(文件:配对样本t检 验(治疗前后舒张压拘束比较:张文彤261页 案例).sps)
二、连续变量的统计推断:t-检验
结果解读: 输出结果中”均值“”标准差“”标准误“和” 可信区间“等都是针对配对差值的统计量。由 结果可见,差值均值为10,相应的 P=0.027>0.025,故可以认为该药物对血压治 疗有影响。由于治疗前-治疗后的差值均值为 正,故可推断是使得病人血压下降。
例5:在轿车拥有率案例中,控制城市影响条 件下,更准确研究收入与轿车拥有率的关系。
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 (控制某些分类因素) 操作: “分析”—“描述统计”—“交叉表” (“层”框中选入城市变量S0) (“统计量”选中“风险”、 “Cochran‟s…”)
三、无序分类变量的统计推断:卡方检验
三、无序分类变量的统计推断:卡方检验
数据:site.sav
Kappa>=0.75 为一致性良好; Kappa <=0.4为 一致性较差。
操作: “数据”—“加权个案” “分析”—“描述统计”—“交叉表” (“统计量”—“kappa”)
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 (控制某些分类因素) 说明: 把研究对象分解为不同层次,每层分别研究行变量与 列变量的相关性。例如:按收入级别分3层,分别研 究不同层次收入条件下,订购商品与邮件回应的关系; 把教育学历分为本硕博,分别研究性别与职位类别的 关系。这样就排除了分层因子对所要研究的行列变量 相关性的干扰,而突出后者。 例5:在轿车拥有率案例中,控制城市影响条件下, 更准确研究收入与轿车拥有率的关系。
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 说明:
(控制某些分类因素)
把研究对象分解为不同层次,每层分别研究行变量 与列变量的相关性。例如:按收入级别分3层,分 别研究不同层次收入条件下,订购商品与邮件回应 的关系;把教育学历分为本硕博,分别研究性别与 职位类别的关系。这样就排除了分层因子对所要研 究的行列变量相关性的干扰,而突出后者。
例5:
检验“身高”数据是否符合正态分布。
请检验:回归树数据中股票 每日升幅N1是否符合正态分 布?均值?
二、连续变量的统计推断:t-检验
1、“比较均值”—单样本 t 检验(教材第八 章)
功能:是一种关于总体均值的假设检验。我们有一 个样本,研究的目的是这个样本的均值是否等于我 们已知(或假设)的总体均值。 两种情况:1)拥有一个样本的的数据;2)没有样 本数据,但有样本的参数:容量n、均值u、标准差 sd。SPSS能做第一种。 操作:“分析”—“比较均值”—“单样本t检验” 比较“均值比较”数据中“自信心”的均值是否 本例中如果假设总体的均值 等于6。(设想这是前一次调查时的自信心均值)
本例结果表明:收入与拥有车是有关联的。
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 结果解读:
(控制某些分类因素)
这里的“估计”=0.195 是指 调整了分层因素作用后,有车 /无车的OR值。可见,从 0.201降到0.195 仍然是相关 的。
四、相关分析(各类变量)
统计软件SPSS的使用 3 ——常用假设检验方法
分布类型检验、t检验、非参数检验 方差检验、卡方检验、相关分析
主要内容 OUTLINE
一、分布类型检验 二、连续变量的统计推断:t-检验 三、无序分类变量的统计推断:卡方检验 四、相关分析(各类变量) 五、连续变量的统计推断:单因素方差分析 六、有序分类变量的统计推断:非参数检验
一、分布类型检验
三)用p-p图直观数据分布形状 例1:
用p-p图检验CCSS的总指数是否符合正态分布。
操作: “分析”—“描述统计”—“p-p图” 原理:根据实际累计概率与理论累计概率的符 合程度,判断当前资料数据符合哪种分布。
一、分布类型检验
三)用p-p图直观数据分布形状 例2:
三、无序分类变量的统计推断:卡方检验
一)说明 1、概念:
以卡方分布为基础的假设检验,它的无效假设是:观察频数 与(理论)期望频数没有差别。思想是:有区别就有相关。 1)检查某个连续分布是否与某种理论分布相一致; 2)检验某个分类变量各类出现的概率是否等于指定概率; (如:36选7中每个数字出现的概率) 3)检验某两个分类变量是否相互独立;(如:吸烟是否与 得肺癌有关、原料种类与产品合格率) 4)检验控制某些分类因素的作用以后,另两个分类变量是 否相互独立;(如:控制性别年龄后吸烟与得肺癌、控制产 品工艺后原料种类与产品合格率) 5)检验某两种方法的结果是否一致。(如:两种诊断方法 对同一批人诊断、用两种方法对客户进行价值甄别)
五)分层卡方检验 (控制某些分类因素) 结果解读: 风险估计主要由优势比 OR (odds ratio)反 映,它是两个比值的比值: 低收入组 有车/无车 = 9.6/90.4 = 0.106 高收入组 有车/无车 = 34.4/65.6 =0.524 OR = 0.106/0.524 = 0.201 = 0.278/1.379 不同组有车比率 = 9.0/34.4 = 0.278 不同组无车比率 = 904/65.6 = 1.379
用p-p图检验CCSS的年龄S3是否符合正态分布。
“分析”—“描述统计”—“p-p图”
一、分布类型检验
三)用p-p图直观数据分布形状 例3:
用茎叶图比较index和S3分布形状。
“分析”—“描述统计”—“探索” 说明:直方图(加上分布曲线)也有这个效果, 但这两者不能直观出数据分布与理论值相差多 少,比不上p-p图的效果。 茎叶图说明:
功能:科学研究中常用配对样本来提高研究效率。是指:同 一受试对象处理前后的数据;同一受试对象两个部位的数据; 同一样品用两种方法(仪器等)处理的数据;配对的两个受 试对象分别接受两种处理后的数据。第一种情况的目的是推 断其处理是否有作用,后三种情况的目的是推断两种处理 (方法)的结果有无差别。 原理:对每对数据求差值,对差值进行“独立样本 t 检验” 。 完成本例的命令语句。 操作:“分析”—“比较均值”—“配对样本 t 检验” 以教材第九章第四节数据百度文库行配对样本 t 检验。
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 (控制某些分类因素) 结果解读: 几率比的一致性检验反映控制变量的影响是否 一致。
本例结果表明:在不同城市,收入对拥有车的比率 影响不一致。(所以不应当把不同城市混合在一起 研究。)
条件的独立性检验反映的是剔除城市影响后, 收入与拥有车的相关关系。
2、功能:
三、无序分类变量的统计推断:卡方检验
SPSS对应:明显的在非参数检验(上面第2 中)和交叉表过程(后3种);理论对应:列 联表分析 二)检验某个分类变量各类出现的概率是否等 于指定概率 例1:考察2004年CCSS调查样本中性别分布 是否均衡 “数据”—“选择个案”—如果… “分析”—“非参数检验”—“单样本”