多元统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计方法探索客观现象数量规律性的过程如下图: 概率论 (分布理论, 中心极限定理) 样本数据 描述统计 (包括搜集,整 总体数据 理,显示数据) 推断统计 (估计, 假设检验)
反映客观 现象数据
总体内在 数量规律
描述统计量 样本均值 样本方差 样本标准差与样本协方差 样本相关系数 样本中位数 众数
多元统计分析
中国科学技术大学统计与金融系 陈 昱
课本:
方开泰《实用多元统计分析》华东师范大学出版社. 方开泰《实用多元统计分析》华东师范大学出版社.
参考书与软件:
张尧庭,方开泰《多元统计分析引论》,科 学出版社,1982. Richard A Johnson, Dean W. Wichern. Applied Multivariate Statistical Analysis. 陆璇 等译. 清华大学出版社 王学民, 《 应用多元统计分析》 上海财经 大学出版社
就以学生成绩为例,我们可以研究很多问题, 找某综合指标(成绩总和, 加权平均)来 降维) 比较学习成绩的好坏.(降维 降维 根据各科成绩的相近程度来对学生进行分 分 类 (成绩好的与差的, 文科好与理科好的) 研究各成绩之间的关系(物理和数学成绩 的关系,文科和理科的关系).
具体内容包括
多元回归分析 主成分分析 因子分析 聚类分析 判别分析 对应分析 典型相关分析 定性数据分析
盒形图(boxplot)
盒形图实际上是以图形来概括数据.关 键是计算中位数和四分位数Q1和Q3.此外 还将用到四分位数间距IQR=Q3-Q1. 盒形图的画法步骤如下: 1).画一个方盒,其边界恰好是第1和第3四 分位数. 这个方盒包含了中间的50%的 数据
2).在方盒上中位数的位置画一条垂线,因 此中位数将数据分为相等的两个部分. 3)利用四分位数间距IQR=Q3-Q1,来设定 界限.盒形图的界限定于低于Q1以下 1.5个IQR和高于Q3以上1.5个IQR的位 置.上,下限以外的数值作为异常值. 5)任一异常值的位置以符号"0"标出
多元数据的图示分析
散点图(散布图) 二维散点图 轮廓图 雷达图 调和曲线图 星图
12名学生5门课程的考试成绩
序号 1 2 3 4 5 6 7 8 9 10 11 12 政治 99 99 100 93 100 90 75 93 87 95 76 85 语文 94 88 98 88 91 78 73 84 73 82 72 75 外语 83 96 81 88 72 82 88 83 60 90 43 50 数学 100 99 96 99 96 75 97 68 76 62 67 34 物理 100 97 100 96 78 97 89 88 84 39 78 37
例子:
Who Are Those Speedy Drivers?
在 Penn. State University 作了一个调查,被调查者要回答他们开车的最大速度? 随机采访了87位男士和102位女士,得到数据如下:(单位: mph) > male 110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124 95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130 125 110 90 110 110 95 95 110 105 80 100 110 130 105 120 90 100 105 100 120 100 100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90 105 > female 80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85 75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90 105 90 110 75 100 90 110 85 90 80 80 85 50 80 90 100 80 80 80 95 100 90 100 95 80 80 50 88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 80 95 90 80 95 110 从这些数据中我们能了解到什么呢? 开车最快速度和性别有关系吗? 从这些数据中我们能了解到什么呢? 开车最快速度和性别有关系吗? 这些数据服从正态分布吗? 这些数据服从正态分布吗?
数据收集
调查 ... 类型数据
数值数据
数据类型
用表格和图形 表示 用表格和图形 表示 趋中,离散程度 分布形状 探索性数据分析
推断统计学
推断统计学其目的也是综合整理数据,但 推断统计学 是它研究的是概率分布下的一个特定分 支或称为模型,在这种情形下,综合整理 或描述统计量主要依赖与某个特定的随 随 机模型.这些统计量的分布用来确定在推 机模型 断某些未知参数时的不确定的范围. 这 种统计分析方法成为推断数据分析 (Inferential Data Analysis).
简单的数据总结:
Min. : 1st Qu.: Median : Mean : 3rd Qu.: Max. : male 55.0 95.0 110.0 107.4 120.0 150.0 Female 30.0 80.0 89.0 88.4 95.0 130.0
显然, 有一半的男士开车的最快速度大于110, 有3/4的人最快速度大于或等 95,而开车最快的速度为150, 最慢的速度为55. 对女士而言, 有一半的人开车的最快速度大于89, 有3/4的人的最快速度 大于80, 而开车最快的速度为130,最慢的速度为30.
时间数列数据,截面数据和合并数据
时间数列数据是按照时间序列排列收集得到的数据. 时间数列数据 如GDP,失业,就业,货币供给,政府赤字等.数据是 按照一定时间间隔收集的——每日(如股票),每周 (如货币供给),每月(如失业率),每季(如GDP), 每年(如政府预算). 截面数据(cross-sectional data)是指一个或多个 截面数据 变量在某一时点上的数据的集合.如定期进行的人口 普查数据.
数据与误差
定类数据, 定类数据,定序数据
定类尺度(Nominal scale)是只按照事物的 定类尺度 某种属性对其进行平行分类或分组所进行的测 度,是最粗略,计量层次最低的计量尺度.如 人口按照性别分为男,女两类. 定序尺度(Ordinal scale)又称顺序尺度, 定序尺度 是对事物之间等级差或顺序差别的一种测度, 如将产品等级分为一等品,二等品,三等品及 次品等.
三,多元统计分析
多元统计分析的研究对象和主要 内容 多元统计分析方法与一元统计的 比较
统计分析方法在经济统计中 具体应用领域 统计分析方法在经济统计中 的运用的一般步骤
(一)研究对象以及主要内容
研究对象 多元分析是以多维随机变量的内在联系及统计 规律为其研究对象.是统计中讨论多维随机变 量的统计方法的总称. 主要内容 从形式上看,一类是单变量常用的统计方法在 多维随机变量情况下的应用;另一类是对多维 变量本身进行研究的一些特殊方法.
数量数据与品质数据
数据可以既包括定性数据又包括定量数 据两方面 定量数据测量事物的多少 而定性数据是为了对事物进行分类而提 供标签,或名称.
统计学
统计学定义 统计学的内容体系 统计的应用
Statistics is itself a science -----the -----the Science of learning from data.
Boxplot盒形图
左偏
右偏Biblioteka 直方图基础概率离散
分布的 种类
连续 正态分布 指数分布
抽样分布
参数估计
检验假设
二项分布 泊松分布 超几何分布
方差,回归, 判别,因子, 聚类,相关, 主成分分析等
统计学的应用领域
从大的方面包括自然科学,社会科学,人文科学等 各个领域,从具体学科上看,可应用于物理学,化 学,生物学,医学,生态学,气象学,天文学,军 事科学遗传学,地理学,地质学,水文学,人类学, 历史及考古学,教育学,心理学,人口学,经济学, 精算,建筑工程学,农业,工业,法律,语言学, 文学,管理科学,政治学,宗教研究,社会学,分 类学等等.
统计分析方法
方差分析 回归分析
统计分析方法在经济统计中具体应用领域
对多个变量进行降维 降维处理,而选择数目较少的变量子集合; 降维 主要方法:主成分分析,因子分析,对应分析等. 对现象进行分类 分类研究,分类处理,构造分类模式 分类 主要方法:聚类分析,判别分析等 建立经济模型和利用模型 模型进行外推; 模型 主要方法:预测模型--回归分析方法 描述模型--聚类分析方法 研究经济现象之间相互关系 相互关系 主要方法:典型相关分析
一元统计与多元统计简单比较
主要内容 随机变量 统计分布 参数估计 假设检验 一元 一维随机变量 一元分布 似然估计,最小二乘估 计,矩估计
U检验,t检验,F检验 卡方检验
多元 多维随机变量 多元分布 似然估计,最小二乘 估计,矩估计 T2检验,F检验 卡方检验
回归分析 主成分分析 因子分析 聚类分析 判别分析 典型相关分析等
数据的种类
按照数据的计量尺度: 按照数据的计量尺度:定类数据,定序数据,定距 数据和定比数据 按照表现形式: 按照表现形式:时间数列数据,截面数据和合并数 据 按照反映内容:数量数据与品质数据 按照反映内容
统计数据
数据的来源
抽样调查方法是从调查研究中搜集数据的方法 实验设计方法是从实验研究中搜集数据的方法.
统计学定义
统计学是一门独立的学科. 统计学是一门独立的学科. 统计学是关于如何搜集,分析客观现象数据, 统计学是关于如何搜集 , 分析客观现象数据 , 以便给 出正确认识结论的方法论科学. 出正确认识结论的方法论科学.对定义的注释:
客观现象数据是为了进行认识客观现象而搜集,分析概括的 数字与事实. 数据搜集包括科学实验和社会调查两大类渠道,数据分析包 括描述性分析和推断性分析. 数学是统计学发展的重要理论基础,计算机科学是统计学应 用的重要工具. 统计学的发展应用离不开哲学,以及经济学,社会学,生物 学,医学等学科的发展. 统计学的应用领域十分广泛.
12名学生5门课程的考试成绩
序号 1 2 3 4 5 6 7 8 9 10 11 12 政治 99 99 100 93 100 90 75 93 87 95 76 85 语文 94 88 98 88 91 78 73 84 73 82 72 75 外语 83 96 81 88 72 82 88 83 60 90 43 50 数学 100 99 96 99 96 75 97 68 76 62 67 34 物理 100 97 100 96 78 97 89 88 84 39 78 37
使用软件: Splus/R/SAS
Chapt 1 基本概念
描述统计与推断统计 一元与多元统计分析 多元统计数据作图
统计数据
统计数据的含义
数据是统计工作所搜集,分析,汇总表述和解释的 事实及数字.统计数据不是指单个的数字,而是所 搜集的有关资料的数据集.
统计学方法 统计学方法 M Statistical ethods
描述统计 Descriptive Statistics
推断统计 Inferential Statistics
描述统计学
描述统计学的目的是在"统计描述"的 描述统计学 意义下综合整理给定的数据集, 例如对 位置,离差等测量并通过某些图形,例 如直方图,条形图,盒图来表现数据直 观醒目的特征.计算得到各种描述统计 量可用来比较不同的数据集合, 这样的 统计分析成为描述数据分析. (Descriptive Data Analysis)
定距数据和定比数据
合并数据(pooled data)中既有时间序 合并数据 列数据又有横截面数据.如20间10个国 家的失业率数据就是合并数据.在合并 数据中有一类特殊数据,称为panel数据 (panel data),又称纵向数据 (ongitudinal or micropanel data), 即同一个横截面单位,比如一个家庭或 一个公司,在不同时期的调查数据.
相关文档
最新文档