第一讲 多元统计分析概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
胡帄,崔文田,徐青川编著,《应用统计分析教学实践案例 集》,清华大学出版社
2015-4-7
3
教学内容
第一ห้องสมุดไป่ตู้ 多元分析概述
第二讲 多元正态分布的参数估计
第三讲 多元正态分布均值向量和协差阵的检验
第四讲 聚类分析
第五讲 判别分析
第六讲 主成分分析
第七讲 因子分析
2015-4-7 4
第一节 多元统计分析应用及方法
2. 多元统计分析方法 主要的多元统计方法
1) 2) 3) 4) 5) 6) 7) 8) 9) 多元回归;路径(通径)分析;结构方程模型 聚类分析 判别分析 主成分分析;因子分析 典型相关分析 多元方差分析 Logistic 回归;Logit模型 事件史分析 对应(相应)分析
应用多元统计分析
姓 名:许晓晴 单 位:经管学院-统计系 E-mail: xxq.107@chd.edu.cn
课程基本信息
课程名称:应用多元统计分析
课程类别:公共基础必修课(专业必修)
先修课程:统计学;线性代数;概率论;高数 总 学时:40 总 学分:2
时间&地点:1,3,5,7,9周,周一 7-8节 SY2201 1-11,14-17周,周二1-2节 WM1315 课程目的:目的在于通过学习,学生能够基本掌握高级统 计分析方法,能够运用SPSS统计分析软件对实际问题进行 分析,提高解决实际问题能力。 2015-4-7 2
考核方式:课堂参与+帄时作业+考试成绩
课堂参与: 出勤率+课堂表现 (5%) 帄时作业: 计算机实例作业(15%) 考试成绩 : 闭卷(80%)
2015-4-7
6
第一章 多元分析概述
第一节
多元统计应用及方法
• 多元统计分析应用 • 多元统计分析方法
第二节
多元统计应用研究及研究方法论
第三节
计算机在统计分析中的应用
第三节 计算机在统计分析中的应用
一 统计分析软件
二 计算机统计分析的基本步骤
一、统计分析软件
EXCEL—最简单的办公软件 SPSS—常用统计分析软件 EVIEWS—计量经济学 STATA —小型统计软件,速度极快,使用简单 SAS—数据处理和统计分析,标准软件系统
二、计算机统计分析的基本步骤
1〃数据的组织。数据的组织实际上就是数据库的建立。数据组织有 两步。第一步是编码,即用数字代表分类数据(有时也可以是区间数 据或比率数据)。第二步是给变量赋值,即设置变量并根据研究结果 给予其数字代码。 2〃数据的录入。数据的录入就是将编码数据输入计算机、即输入已 经建立的数据库结构,形成数据库。数据录入关键的是保证录入的正 确性。录入错误主要有认读错误和按键错误。在数据录入后还应进行 检验,检验可采取计算机核对和人工核对两种方法。 3〃统计分析。首先根据研究目的和需要确定统计方法,然后确定与 选定的统计方法相应的运行程序,既可以用计算机存储的统计分析程 序,也可以用其他的统计软件包中的程序。 4〃结果输出。经过统计分析,计算结果可用计算机打印出来,输出 的形式有列表、图形等。
可用多元正态总体均值向量和协差阵的假设检验。(假设检验)
4)某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料 ,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当 也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种 病。(分类,预测) 5)按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中 扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后 剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那 一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均 纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及 各省、自治区、直辖市与各收入指标的关系。(变量间关系)
2. 多元统计分析方法 模型类型
因果模型---即在变量中明确设置因变量和自变量的模型,
目的在于描述自变量变化如何影响因变量的变化。
一层因果模型:单因变量模型;多因变量模型(单方程模型) 多层因果模型:结构方程模型
相依模型---用以分析变量、案例或类型(变量值)之间的
结构关系。
横贯数据:
第一节 多元统计应用及方法
2. 多元统计分析方法
多元统计方法的分类
1)按照观测数据的来源可将分析方法分为两大类:第一类是 横贯数据,指的是同一时间、不同案例的观测数据。第二类是 纵贯数据,是指同样案例在不同时间的多次观测数据(也称为 事史性数据) 2)按变量的测度等级(数据类型)划分:一是类别(非测量 型)变量,二是数值型(测量型)变量 3 )按照分析模型的属性划分:一类是因果模型 ; 一类是相依 模型。 4)按照模型中因变量的数量划分:一种是单因变量模型;一 种是多因变量模型;还有多层因果模型
觉的将其服从于整个研究。
方法论是研究过程的理论,从属于认识论;而方法则 是具体的研究技术或工具。
研究方法的正确选择和使用,不仅需要有关研究对象 的学科理论指导,也需要研究方法论作为指导。
第二节 统计应用研究与研究方法论
理论、观察、统计之间的关系
现代社会科学研究中包含三个要素:理论、观察、 统计。在整个研究过程中,三个要素是密切联系, 相互制约的。 如果将研究看作一个周期性循环上升的过程,三要 素的统一完成本身就构成了一个完整的周期。
统计研究中的常见谬误
4.
5.
还原论谬误。与生态学谬误相对,它是根据较低层 次研究单位的分析结果推断较高层次单位的运行规 律。 混淆统计检验显著与实际意义显著。统计检验是否 显著受到三方面的影响:一是实际差异幅度或作用 强度的影响;二是所要求的置信度的大小;三是抽 样样本规模的大小。统计性是否显著只是一个相对 于这三个方面条件的结论,并不是用来表示实际显 著意义的标志。所以不仅要考虑统计分析的结果, 而且最终要把这些统计结果放在整个实际研究的理 论框架中去考察其实际意义。
第一节 多元统计应用及方法
2. 多元统计分析方法 变量测度等级
非测量型(分类)变量--- 名义变量&序次变量
例1:性别,男=1,女=2; 教育程度,小学=1,初中=2,高中=3
测量型(数值)变量---间距变量(&比率变量)
例2: 温度,身高等等(不一定连续,可以非连续取整)
第一节 多元统计应用及方法
数据或结构性化简
分类和组合
基于所测量到的一些特征,给 出好的分组方法,对相似的对 象或变量分组。
变量之间是否存在相关关系, 相关关系又是怎样体现。
判别分析、聚类分析、主 成分分析、可视化分析
多元回归、典型相关、主 成分分析、因子分析、相 应分析、多维标度法、可 视化分析 多元回归、判别分析、聚 类分析、可视化分析 多元总体参数估计、假设 检验
因果模型 因变量数? 多重因果关系 有否潜在变量? 多因变量 因变量测度?
关系类型
相依模型 变量测度? 单因变量 测量型 非测量型 因变量测度? 关系结构类型? 类别结构?
测量型 非测量型 测量型 非测量型 变量 自变量 自变量 之间 结构 通径 测度? 虚拟变量 多元回归 测度? 方程 分析 典型相关 因子 模型 分析 分析 测量型 非测量型 测量型 非测量型
• 统计分析软件 • 计算机统计分析步骤
2015-4-7
7
第一节 多元统计分析应用及方法
1. 多元统计分析应用 何谓多元统计分析?
一元统计分析--- 研究一个随机变量统计规律的学科
多元--例1:地区经济发展的指标:总产值、利润、效益、劳动生产率 、固定资产、物价、信贷、税收等
多元--例2:医学诊断:血压、脉搏、白血球、体温等
变量之间的相关关系
预测与决策
通过统计模型或最优准则,对 未来进行预见或判断。 检验由多元总体参数表示的某 种统计假设,能够证实某种假 设条件的合理性。
假设的提出及检验
1)在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原 值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工 业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值 、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产 值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有 利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。 可用主成分分析和因子分析法。(结构简化,相关性)
2)研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对
1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍 长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。
(简化,分类)
3)若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标 的帄均水帄是否有显著差异以及经营指标之间的波动是否有显著差异。
第二节统计应用研究与研究方法论
统计分析和理论分析
统计研究和理论研究必须结合,这既有利于反对从理论到 理论的单纯演绎推理的倾向,又有利于反对忽视理论、只 注重经验的倾向。 比如,如何判定哪些变量该列入模型,主要是理论分 析的结果,而不是统计分析的结果。 统计分析的功能主要是在理论分析的基础上,检查各个模 型变量的作用,对其作用进行量化描述,并对有关理论假 设进行检验。
教材及参考资料
朱建帄主编,《应用多元统计分析》,科学出版社,2006
何晓群著,《多元统计分析》,中国人民大学出版社,2008
郭志刚编,《社会统计分析方法—SPSS软件应用》,中国
人民大学出版社,2004
Richard A. Johnson and Dean W. Wichern著,陆璇译,《 实用多元统计分析(第四版)》,清华大学出版社,2001
第二节 统计应用研究与研究方法论
统计研究中的常见谬误
1.
2.
3.
混淆统计联系与因果关系。因果关系是事物之 间的本质联系,而统计联系只是观测数据中所 反映的事物的数量联系。 事后解释谬误。将一个探测性或描述性分析结 果当作了一个解释性分析的结果,完全混淆建 立假设和假设检验的区别。 生态学谬误。根据集合单位的分析结果作关于 个体的断言,混淆了不同层次主体的行为模式 (微观行为模式和宏观行为模式)。
第二节统计应用研究与研究方法论
真理性的检验与统计检验
实践是检验真理的唯一标准,但实践是一个活动过程,不能简单归结为 直接经验这样的个别环节。并且,实践检验过程是借助逻辑推论的链条 进行的,在这一逻辑链条中,只是某些环节才可能进行直接检验。 统计检验是实践检验的一种形式。一种认识是否正确,看它是否符合客 观实际,反映在统计研究中,就是看理论假设是否符合观测数据。 统计检验不可避免地存在其局限性,其结果会受到分析技术的成熟度、 模型变量的有效性、数据的可靠性、样本规模的大小等多方面的影响。 统计检验不显著,并不意味着这一研究无价值。 统计检验显著时,则更要清醒地认识到,统计分析只是就事物的统计联 系进行分析,统计分析中得到肯定事物联系的结论到对于事物之间本质 联系的认识还有很远的距离。 统计检验只是从一个侧面进行实践检验,并不能替代其他形式的实践检 验
多元统计分析---研究多个随机变量之间相互依赖关系以及 内在统计规律性的统计学科。(分类和简化)
多元统计分析应用
问题 内容 方法及举例 尽可能简单地表示所研究的现 多元回归分析、聚类分析、 象,但不损失很多有用的信息, 主成分分析、因子分析、 并希望这种表示能够很容易的 相应分析、多维标度法、 解释。 可视化分析
教学内容
第八讲 相应(对应)分析
第九讲 典型相关分析
第十讲 多变量的可视化分析
自
学 多维标度法
补充多元统计方法:
多元回归分析、多元方差和协方差分析、Logistic 回 归、对数线性模型、路径(通径)分析、结构方程模
型、事件史分析
2015-4-7 5
课程要求
课程形式:课堂讲授+上机作业
典型相关 多元方差 logistic 判别 logit
有
无
案例 之间
聚类 分析
对应分析
相关
分析
回归
分析
模型
事件史数据:
离散时间模型 事件史分析 cox比例风险模型 没有动态自变量 有动态自变量
第二节 统计应用研究与研究方法论
统计分析只是整个研究当中的一个环节,一个好的研 究不可能仅仅建立在统计分析的基础上。因此在学习 和应用统计分析时,必须把握统计分析的方法论,自