spss统计分析 三大检验 回归诊断 因子分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
F检验在方差分析中的应用 方差分析:通过分析单个 或多个因素是否在不同水 平样本下的均值存在显著 性差异。 单因素方差分析:用来研 究一个因素的不同水平是 否对观测变量产生了显著 影响,即检验由单一因素 影响的一个(或几个相互 独立的)因变量在因素各 水平分组的均值之间的差 异是否均有统计意义。
• 首先剖析观察变量的方差。 • SST(总离差平方和) =SSA(组间)+SSE(组内) • SSA占比较大即观察变量的 变动主要是由因素的不同水 平引起的,可有因素的变动 来解释。 • 利用假设检验推断因素的不 同水平是否对观测变量产生 显著影响。
• 上图为因子分析的总方差解释,是相关系数矩阵的特征值、 方差贡献率及累计方差贡献率的计算结果。 • 第一列是因子编号,后三列组成一组。第一组数据项描述 了初始因子解的情况。可以看到,第一个因子的特征根值 为5.502,解释了原有7个变量总方差的78%;前三个因子 的累计方差贡献率为92.141%,说明前三个公因子基本包 含了全部变量的主要信息,因此选择前三个因子为主因子 即可。 • 同时,被提取的载荷平方和旋转和的平方载荷数据组列出 了因子提取后和旋转后的因子方差解释情况。
1.3独立样本t检验
• 两独立样本t检验的目的是利用来自两个总体的独立样本, 推断两个总体的均值是否存在显著差异。
• 首先进行婚姻状况(已婚、未婚)两个总体方差同质性检 验。 • 原假设(检验假设):H0:已婚、未婚两个总体方差具 有同质性
1)利用F检验判断两总体的方差是
否相等;利用t检验判断两总体均 值是否存在显著差异。
F检验在回归模型显著性中的应用 实例分析:人均可支配收入和人均消费性支出
• 利用回归分析来分 析人均可支配收入 和人均消费性支出 的关系。 • 建立回归模型:人 均消费性支出=f (人均可支配收入) • 首先绘制两组变量 的散点,图形显示 呈线性关系,可建 立一元线性回归模 型: expenditure=b0+b1 *incomei+ei
点击"选项(O)",我们会发现"置信区间百分比 (C)"的默认值为"0.95",我们这里选择默认值
通过结果我们可以看出:"单个样本统计量"包括检验的总体均 值(304.68),标准差(224.18)以及t统计量(-3.896)等. 本例的双侧Sig值为0.000<0.05,因此认为在0.05的显著性水 平下,拒绝虚无假设,接受对立假设,即耐电压值与500存在 显著性差异。
• 考察F检验,由 0.865大于0.05, 接受原假设,即在 0.05显著水平下, 样本数据显示,已 婚、未婚两个总体 方差具有同质性, 满足均值检验的前 提要求。 • 考察T检验,原假 设H0:已婚、未婚 两个总体在家庭收 入上无显著差异。 • 由于SIG值0.566大 于0.05,接受原假 设,即在0.05显著 水平上,样本数据 显示,婚姻状况两 个总体在家庭收入 上无显著差异。
选择需要分析的对象,这里我们把"身高"作为 因变量,"性别"作为自变量.如下图所示.
在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点击"选项", 把"统计量"中自己需要的统计量点击到"单元格统计量"中,也可以在"第一 层的统计量"中选择"Anova表和eta(A)"和"线性相关检验",我们这里只选择 前者.如图所示.
• 在利用原数据文件增 加的三个变量,乘以 对应的方差贡献率权 重,加总得到综合评 价得分。
回归分析:五条假设,系数解读
• 旋转后的各个因子 的含义更加突出。 每个公因子都有反 映几个方面的变动 情况。 • 第一个公因子反映 交大载荷的有外商、 国有、港澳台、股 份制、集体经济单 位;第二个有联营 经济单位;第三个 则是其他经济单位。
• 该表列出来采用回 归法估计得因子得 分系数。根据表中 的内容可写出因子 得分系数。
需要从原变量中选择成对变量进行配对。 如下图所示,根据成对的变量自定义进行选择配对。
单击选项,打开的是置信区间百分比,默认 的是95%,缺失值的处理方法用第一种
第一个表格是数据的基本描述。 第二个是数据前后变化的相关系数,那个概率P值是相关系数的概率值, 概率大于显著性水平0.05,则说明数据变化前后没有显著的线性变化, 线性相关程度较弱。 第三个表格是数据相减后与0的比较,通过概率值为0,小于显著性水平 0.05,则拒绝原假设,相减的差值与0有较大差别,则表明数据变化前后 有显著的变化。
因子分析的计算过程
1.将原始数据标准化,以消除变量间在数量级和量纲上的不同。 2.求标准化数据的相关矩阵 3.求相关矩阵的特征值和特征向量 4.计算方差贡献率与累计方差贡献率 5.确定因子:设F1,F2,...,Fp个因子,其中前m个因子包含的数据信 息总量,即其累计贡献率,不低于85%时,可取前m个因子来反映原 评价指标。 • 6.因子旋转:若所得的m个因子无法确定或其实际意义不是很明显, 这时需将因子进行旋转以获得较为明显的实际含义。 • 7.用原指标的线性组合来求各因子得分 • 8.综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合 得到综合评价指标函数。 • • • • •
实例操作略,直接看实例结果及分析
• 描述性统计表显示了国有经济单位、集体经济单位等七个 指标的描述统计量。
因子分析共同度显示了所有变量的共同度数据。第二列是初 始解,对原有七个变量如采用主成分分析法提取所有特征根, 那么原有变量的所有方差都可被解释,变量的共同度均为1, 原有变量标准化后的方差为1。。 • 因子个数小于原有变量 的个数才是因子分析, 所以不能提取全部。 • 第三列列出来按指定条 件提取特征根时的共同 度。 • 所有变量的绝大部分信 息可被因子解释,变量 信息丢失较少,因此本 次因子提取的总体效果 理想
模型汇总即对方程拟合情况的描述, R方就是自变量所能解释的方差在 总方差中所占的百分比,值越大说 明模型的效果越好。案例计算的回 归模型中R方等于0.994,模型拟合 效果较好。
• 方差分析表是对 回归模型进行方 差分析的检验结 果,主要用于分 析整体模型的显 著性。可以看到 方差分析结果中F 统计量等于4123, 概率p,0.000小于 显著性水平0.05, 所以该模型是有 统计学意义的, 人均可支配收入 与人均消费性支 出之间的线性关 系是显著的。
实例分析:全国各地区不同所有制单位平均 收入排名
• 下图是全国各地区不同所有制单位平均收入情况,具体包 括国有经济单位、集体经济单位、联营经济单位等7个部 分。利用主成分分析探讨各地区按所有制类别分类的排名。
• 进行因子分析前,可Βιβλιοθήκη Baidu 计算相关系数矩阵、巴 特李特球度检验和KMO 检验等方法来检验候选 数据是否适合采用因子 分析。
1.4配对样本T检验
• 两配对样本t检验的目的是利用来自两个总体的配对样本, 推断两个总体的均值是否存在显著差异。
• 和独立样本不同的是这两个整体是有联系的。
• 其检验思路就是做差值,转化为单样本t检验,最后转化 为差值序列,通过看总体均值是否与0有显著差异做检验。
找到分析->比较均值->配对样本T检验,将其 单击打开。
T检验
1.1比较均值/ANOVA 1.2单样本T检验 1.3两独立样本T检验 1.4配对样本T检验
1.1 比较均值、ANOVA
• 均值和标准差是描述数据资料集中趋势和离散程度的两个 最重要的测度值。
• 这里我们考察身高的性别中的均值比较.
点击"分析(A)",再点击"比较均值(M)",选择"均 值(M)".如下图所示
• 因子碎石图:横坐标为 因子数目,纵坐标为特 征值。可以看到,第一 个因子的特征值很高, 对解释原有变量的贡献 最大;第三个以后的因 子特征根都较小,说明 他们对解释原有变量的 贡献很小。
该表显示了旋转钱的 因子载荷矩阵,是因 子分析的核心内容。 通过过载荷系数大小 可以分析不同公共因 子所反映的主要指标 的区别。少部分指标 解释能力较差,采用 因子旋转方法使得因 子载荷系数向0和1两 极分化,是大的载荷 更大,小的更小。
• 方法概述:因子分析法就是从研究变量内部相关的依赖关系出发,把 一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量 统计分析方法。 • 基本思想:对原始的数据进行分类归并,将相关比较密切的变量分别 归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的 信息互相不重叠。这些综合指标就称为因子或公共因子,就能相对容 易地以较少的几个因子反映原资料的大部分信息。 • 因子分析法的核心是对若干综合指标进行因子分析并提取公共因子, 再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得 分函数。
卡方检验(非参数检验)
• 卡方检验是用来判断样本是否来自一种总体的检验方法。 就是根据样本的频率来推断总体的分布是否具有显著差异。
• 1.1变量独立性 • 1.2总体同质性
1.1变量独立性(两种特征是否在总体分布独 立)
• 先看到的第一个表格就是交叉表,婚姻状况为行、住房满 意为列
变量独立性检验: 原假设H0:婚姻状况与 住房满意度相互独立(总 体中婚姻状况与住房满意 度无显著影响) 由于SIG值均大于0.05, 故接受原假设,即在0.05 显著水平上,婚姻状况与 住房满意度无显著影响影 响关系。
根据男性和女性两种 性别观察其身高均值 情况
单因素方差分析, 原假设H0:总体中男性 和女性在身高无显著 差异,即所有总体的 均值都相等。由于 sig=0.110大于0.05, 就接受H0,认为两组 身高无显著差异。
1.2单样本T检验
• 单样本T检验,主要用于检验单个变量的均值与指定的检验 值之间是否存在显著性差异,
1.2总体同质性检验
• 原假设:H0:婚姻状 况总体在住房满意 度上无显著差异。 H1:婚姻状况总体 在住房满意度上存 在显著差异。 • 根据左表,由0.268、 0.296、0.268均大 于0.05,故接受原 假设,即在0.05显 著水平下婚姻状况 在住房满意度上无 显著差异。
F检验
• F检验在方差分析中的应用 • F检验在回归模型显著性中的应用
回归系数表列出来本案 例进行的医院回归模型 常数项、回归系数的估 计值和检验的结果。可 见 b0=158.512,b1=0.756, 故回归方程如下: 年人均消费性支出 =158.512+0.756*年人均 可支配收入,即人均可 支配收入每增加一个单 位,年人均消费性支出 增加0.756个单位。
因子分析:主成分分析的内在原理和过程
• 再者,样本均值与总体均值之间的差异显著性检验,也属于 单样本T检验. • 以耐电压值的平均值与500之间的差异显著性的检验问题 为例.
点击"分析(A)",选择"比较均值(M)",点击"单样 本T检验(S)",如图所示
将"耐电压值"放到"检验变量(T)"中,我们在这 里将"检验值"设为"500",如图所示
实例结果及分析
• 方差齐性检验:Levene统计量等于 2.881,由于P值0.078大于0.05, 故认为数据的方差是相同的,满足 方差分析的前提条件
单因素方差分析表: 第一列是方差来源, 包括组间离差平方 和、组内和总数; 第二列势离差平方 和; 第三列是自由度df; 第四列均方,是第 二三列之比; 第五列是F值32.66 (组间均方与组内 均方之比); 第六列是F值对应的 概率P值,其值等于 0.000。由于概率P 值小于0.05,故拒 绝原假设,接受对 立假设,认为不同 地区对销售额测度 平均值存在显著性 影响。
• 原假设H0是因素不同水平对 观察变量不存在显著影响, 采用的检验统计量是F统计 量。
不同的地区可能是导致广告销售额不同。本例中, 地区是因素,其中有18个不同水平,广告销售额是 因变量(观测变量)
• 这里的单因素方差分析主要研究在地区这一单一因素下, 不同地区来源的广告销售额测度平均值是否相同,即进行 如下假设检验。 • H0:不同地区对广告销售额均值无显著性影响 • H1:不同地区对广告销售额均值存在显著性影响