第1章 多元统计分析概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)考察某产品质量指标(多个)与影响产品质量的因素 (多个)之间的关系。在商品需求研究中,考察商品销售 量与商品价格、消费者收入等之间的关系,可以利用回归 分析方法建立数学模型进行分析。
(3)研究某产品使用不同原料进行生产时,原料对产品质 量有无显著影响;研究某商场今年与以前年份经营状况在 经营指标方面有没有显著性的差异?可以利用多元正态总 体均值向量和协差阵的假设检验进行分析。
(3)某高校根据n个学生在一学年的m门课程成绩,对学 生学习成绩进行分类,以便确定该校学生奖学金类别。
五、医学
(1)由于疾病的产生就受到多种因素的支配,各种 病因之间也常存在着一定的内在联系和相互制约,这 就需要分析哪些因素是主要的, 本质的, 哪些因素是次 要的, 片面的, 它们之间的相互关系怎样等问题。 (2)我们有了患胃炎的病人和健康人的一些化验指 标,就可以从这些化验指标发现两类人的区别。把这 种区别资料利用判别分析方法建立诊断的准则,然后 对怀疑患胃炎的人就可以根据其化验指标用判别公式 进行诊断。 (3)可以根据病人的多种症状(体温、恶心、呕吐、 腹部压疼感等),来判断该病人患何种疾病。
(2)研究国民收入(工农业国民收入、运输业国民收入等)与投资 (生产建设投资、劳动者人数等)之间的相关关系。研究经济效益 与资金、利税等主要财务指标之间的关系。这些可以使用相关分析, 也可以利用典型相关分析法。
(3)对我国31个省市自治区经济效益综合评价,我们需要选择很多 指标,如固定资产投资完成额、工业全员劳动生产率、工业销售利 税率、万元工业产值能耗、职工工资总额等。如何将这些有错综复 杂关系的指标综合成几个减少的指标来分析和解释问题,有不至于 是所研究的问题信息丢失过多。可利用主成分分析和因子分析方法。
多元统计分析起源于20世纪初,1928年Wishart发 表论文《多元正态总体样本协差阵的精确分析》,可 以说是多元统计分析的开端。随后多元统计分析得到 了迅速发展,40年代多元统计分析在心理、教育、生 物等方面有不少应用,但由于计算量大,使其发展受 到一定的影响。50年代中期,随着电子计算机的出现 和发展,多元统计分析在地质、气象、医学、社会学 等方面得到应用。60年代通过应用和实践,完善和发 展了理论,新的理论和方法不断涌现,使他的应用范 围更加扩大。70年代初期多元统计分析在我国才得到 关注,并在理论研究和应用上取得了显著成绩,有些 研究工作已达到了国际水平,并形成了一支科技队伍, 活跃在各条战线上。进入21世纪,人们获得的数据正 以前所未有的速度急剧增加,产生了许多超大型数据 库,其遍及各个行业,这就为多元统计分析与其它学 科融合提供了重要的平台。
三、农业
(1)某地区种植某种农作物,有多种种子 在该地区播种,有多种化肥,试判断各种种子 与化肥对该农作物产量的影响。
(2)有n个地区,有m种农作物,每个地区可 以种植多种农作物,每种农作物在不同的地区 的产出不同,可以通过比较分析每个地区适合 种植那些农作物,使生产效率最高。
四、教育学
(1)某高中对参加高考的考生成绩进行预测分析。根据以 往大量的资料,分析考生高考成绩与高中学习期间成绩之 间的相关关系,并由此由考生在高中学习期间的成绩预测 考生的综合成绩。
(2)研究某大学对该校在校学生的学习成绩与该生高考入 学成绩的各门课程成绩之间的关系进行分析。还可以研究 该校新生录取成绩次序的排队的最佳方案。还可以研究该 校高考入学成绩的排队问题,可以按录取总成绩排队,也 可以按其它方式进行排队,比如某工科院校,直接按总成 绩进行排队并不是很合适,可以根据某些要求,对数学、 物理、化学、英语等课程进行加权求和排队更合适一些, 在此有些课程权重可能大一些,在此有些课程权重可能小 一些,他们之间的权重如何确定问题。
(4)研究国民收入的生产、分配与最终使用的关系。如研究我国财 政收入与国民收入、工农业总产值、人口、就业、固定资产投资等 因素的关系,可利用回归分析方法建立预测模型,对今后的财政收 入进行预测。
二、工业
(1)如对我国31个省市自治区独立核算工业企业经济效益 进行分析时,选取能反映企业经济效益的代表性指标,如 百元固定资产实现利税、资金利税、产值利税率等,根据 这些指标对全国各省市自治区进行分类,然后根据分类结 果对企业经济效益进行综合评价,就易于得出科学的分析。
多元统计分析
党耀国 经济与管理学院 Iamdangyg@163.com
第一章 绪论
一、引言 二、多元统计分析的应用背景
1. 引言
多元统计分析是运用数理统计的方法来研究解决多变量(多 指标)问题的理论和方法,它是一元统计学的推广。
客观世界中的任何事物的形成,变化和发展都是受多种因 素的影响,而各种因素之间又存在着广泛而又错综复杂的联系。 例如疾病的产生就受到多种因素的支配,各种病因之间也常存 在着一定的内在联系和相互制约。要了解一个国家、省、市经 济发展的类型需要观测很多指标,如人均国民收入、人均工农 业产值、R&D经费支出占GDP比重、万人科技活动人员数等; 要衡量一个地区经济发展,需要观测的指标有社会消费品零售 总额、城镇居民人均可支配收入、农村居民人均纯收入、劳动 生产率、万元产值能耗、财政收入等。对于这些指标,我们需 要分析哪些指标是主要的,本质的,哪些指标是次要的,片面 的, 它们之间的相互关系怎样等问题。多元统计分析正是为了解 决这些问题而产生的。
近几十年来,随着计算机应用技术的发展和科研生产的迫 切需要,多元统计分析已被广泛地应用于工业、农业、医 学、地质、气象、水文、环境以及经济、管理等诸多领域, 成为解决实际问题的有效方法。在理论研究方面,统计学 在广泛吸收和融合相关学科的新理论,不断开发应用新技 术和新方法,深化和丰富了统计学传统领域的理论和方法
又是怎样体现的。
分析、主成分分析、
因子分析
通过统计模型或最优准则,对未来进行 多元回归分析 预测或判断。
检验多元总体参数的某种假设,并验证 多元总体参数估计、假设
该假设的合理性
检验
一、经济学
(1)在社会经济领域中存在着大量分类问题,如对我国31个省市自 治区城镇居民收支分布规律进行分析,一般不是逐省市自治区去分 析,而较好地做法是选取能反映城镇居民收支分布规律的代表性指 标,如城镇居民收入来源及支出指标(在收入方面,如工资性收入、 财产性收入等;在支出方面,如食品、住房、生活用品、文化等), 根据这些指标对全国各省市自治区城镇居民收支分布情况进行分类, 然后根据分类结果对城镇居民收支状况进行综合评价。
七、体育学
(1)如何对影响运动员成绩的多项心理、生理测试指标(简 单反映、时间知觉、综合反映等)进行主要因素分析。 (2)研究运动员体能指标(反复横向跳、立定体前屈、俯卧 上体后仰等)与运动能力测试指标(耐力跑、跳远、投球等) 之间的相关关系。
八、气象学
根据气象站资料,研究某地降雨量与前一天的气温、气压、 湿度、风速、风向等之间的关系;有n个地区的降雨量、气温、 湿度等指标,根据这些指标判断这n个地区所属的气候类型。
六、社会学
(1)某公司对招聘人员的知识和能力进行测评,主 要测评六个方面的内容:语言表达能力、逻辑思维 能力、判断事物的敏捷和果断程度、思想修养、兴 趣爱好、生活常识等,我们根据这六个方面的内容 对招聘人员进行综合评价,决定是否录取。 (2)某调查公司从一个大型零售公司随机调查了n 人,测量了5个职业特性指标和7个职业满意变量。 职业特性指标如用户反馈、任务重要性、任务多样 性、任务特殊性、自主权,个职业满意变量如主管 满意度、事业前景满意度、财政满意度、工作强度 满意度、公司地位满意度、工作满意度、总体满意 度,讨论两组指标之间是否相联系。
损失很多有用的信息,并希望这种
因子分析
表示能够解释所研究问题的现象。
分类和组合
变量之间的相 关关系
预测与决策
假设的提出与 检验
基于研究问题,对测量到的一些现象特 聚类分析、判别分析、主
征,给出好的分组方法,对相似的
பைடு நூலகம்
成分分析、因子分析
对象或变量分组。
变量之间是否存在相关关系,相关关系 典型相关分析、多元回归
研究,并拓展了统计学研究的新领域。具体表现在:
1)统计学和计算机科学相互促进。 2)统计理论与分析方法不断发展。 3)统计调查方法的创新。
2、多元统计分析的应用背景
多元统计分析方法与研究内容之间的关系
问题
内容
方法
数据或结构性 简化
尽可能简单地表示所研究的现象,但不 聚类分析、主成分分析、
九、其它
多元统计分析方法在其它很多领域也有广泛的应用,比如环 境保护、地质学、考古学、地震预报、军事科学、生态学、 文学、心理学等。
(3)研究某产品使用不同原料进行生产时,原料对产品质 量有无显著影响;研究某商场今年与以前年份经营状况在 经营指标方面有没有显著性的差异?可以利用多元正态总 体均值向量和协差阵的假设检验进行分析。
(3)某高校根据n个学生在一学年的m门课程成绩,对学 生学习成绩进行分类,以便确定该校学生奖学金类别。
五、医学
(1)由于疾病的产生就受到多种因素的支配,各种 病因之间也常存在着一定的内在联系和相互制约,这 就需要分析哪些因素是主要的, 本质的, 哪些因素是次 要的, 片面的, 它们之间的相互关系怎样等问题。 (2)我们有了患胃炎的病人和健康人的一些化验指 标,就可以从这些化验指标发现两类人的区别。把这 种区别资料利用判别分析方法建立诊断的准则,然后 对怀疑患胃炎的人就可以根据其化验指标用判别公式 进行诊断。 (3)可以根据病人的多种症状(体温、恶心、呕吐、 腹部压疼感等),来判断该病人患何种疾病。
(2)研究国民收入(工农业国民收入、运输业国民收入等)与投资 (生产建设投资、劳动者人数等)之间的相关关系。研究经济效益 与资金、利税等主要财务指标之间的关系。这些可以使用相关分析, 也可以利用典型相关分析法。
(3)对我国31个省市自治区经济效益综合评价,我们需要选择很多 指标,如固定资产投资完成额、工业全员劳动生产率、工业销售利 税率、万元工业产值能耗、职工工资总额等。如何将这些有错综复 杂关系的指标综合成几个减少的指标来分析和解释问题,有不至于 是所研究的问题信息丢失过多。可利用主成分分析和因子分析方法。
多元统计分析起源于20世纪初,1928年Wishart发 表论文《多元正态总体样本协差阵的精确分析》,可 以说是多元统计分析的开端。随后多元统计分析得到 了迅速发展,40年代多元统计分析在心理、教育、生 物等方面有不少应用,但由于计算量大,使其发展受 到一定的影响。50年代中期,随着电子计算机的出现 和发展,多元统计分析在地质、气象、医学、社会学 等方面得到应用。60年代通过应用和实践,完善和发 展了理论,新的理论和方法不断涌现,使他的应用范 围更加扩大。70年代初期多元统计分析在我国才得到 关注,并在理论研究和应用上取得了显著成绩,有些 研究工作已达到了国际水平,并形成了一支科技队伍, 活跃在各条战线上。进入21世纪,人们获得的数据正 以前所未有的速度急剧增加,产生了许多超大型数据 库,其遍及各个行业,这就为多元统计分析与其它学 科融合提供了重要的平台。
三、农业
(1)某地区种植某种农作物,有多种种子 在该地区播种,有多种化肥,试判断各种种子 与化肥对该农作物产量的影响。
(2)有n个地区,有m种农作物,每个地区可 以种植多种农作物,每种农作物在不同的地区 的产出不同,可以通过比较分析每个地区适合 种植那些农作物,使生产效率最高。
四、教育学
(1)某高中对参加高考的考生成绩进行预测分析。根据以 往大量的资料,分析考生高考成绩与高中学习期间成绩之 间的相关关系,并由此由考生在高中学习期间的成绩预测 考生的综合成绩。
(2)研究某大学对该校在校学生的学习成绩与该生高考入 学成绩的各门课程成绩之间的关系进行分析。还可以研究 该校新生录取成绩次序的排队的最佳方案。还可以研究该 校高考入学成绩的排队问题,可以按录取总成绩排队,也 可以按其它方式进行排队,比如某工科院校,直接按总成 绩进行排队并不是很合适,可以根据某些要求,对数学、 物理、化学、英语等课程进行加权求和排队更合适一些, 在此有些课程权重可能大一些,在此有些课程权重可能小 一些,他们之间的权重如何确定问题。
(4)研究国民收入的生产、分配与最终使用的关系。如研究我国财 政收入与国民收入、工农业总产值、人口、就业、固定资产投资等 因素的关系,可利用回归分析方法建立预测模型,对今后的财政收 入进行预测。
二、工业
(1)如对我国31个省市自治区独立核算工业企业经济效益 进行分析时,选取能反映企业经济效益的代表性指标,如 百元固定资产实现利税、资金利税、产值利税率等,根据 这些指标对全国各省市自治区进行分类,然后根据分类结 果对企业经济效益进行综合评价,就易于得出科学的分析。
多元统计分析
党耀国 经济与管理学院 Iamdangyg@163.com
第一章 绪论
一、引言 二、多元统计分析的应用背景
1. 引言
多元统计分析是运用数理统计的方法来研究解决多变量(多 指标)问题的理论和方法,它是一元统计学的推广。
客观世界中的任何事物的形成,变化和发展都是受多种因 素的影响,而各种因素之间又存在着广泛而又错综复杂的联系。 例如疾病的产生就受到多种因素的支配,各种病因之间也常存 在着一定的内在联系和相互制约。要了解一个国家、省、市经 济发展的类型需要观测很多指标,如人均国民收入、人均工农 业产值、R&D经费支出占GDP比重、万人科技活动人员数等; 要衡量一个地区经济发展,需要观测的指标有社会消费品零售 总额、城镇居民人均可支配收入、农村居民人均纯收入、劳动 生产率、万元产值能耗、财政收入等。对于这些指标,我们需 要分析哪些指标是主要的,本质的,哪些指标是次要的,片面 的, 它们之间的相互关系怎样等问题。多元统计分析正是为了解 决这些问题而产生的。
近几十年来,随着计算机应用技术的发展和科研生产的迫 切需要,多元统计分析已被广泛地应用于工业、农业、医 学、地质、气象、水文、环境以及经济、管理等诸多领域, 成为解决实际问题的有效方法。在理论研究方面,统计学 在广泛吸收和融合相关学科的新理论,不断开发应用新技 术和新方法,深化和丰富了统计学传统领域的理论和方法
又是怎样体现的。
分析、主成分分析、
因子分析
通过统计模型或最优准则,对未来进行 多元回归分析 预测或判断。
检验多元总体参数的某种假设,并验证 多元总体参数估计、假设
该假设的合理性
检验
一、经济学
(1)在社会经济领域中存在着大量分类问题,如对我国31个省市自 治区城镇居民收支分布规律进行分析,一般不是逐省市自治区去分 析,而较好地做法是选取能反映城镇居民收支分布规律的代表性指 标,如城镇居民收入来源及支出指标(在收入方面,如工资性收入、 财产性收入等;在支出方面,如食品、住房、生活用品、文化等), 根据这些指标对全国各省市自治区城镇居民收支分布情况进行分类, 然后根据分类结果对城镇居民收支状况进行综合评价。
七、体育学
(1)如何对影响运动员成绩的多项心理、生理测试指标(简 单反映、时间知觉、综合反映等)进行主要因素分析。 (2)研究运动员体能指标(反复横向跳、立定体前屈、俯卧 上体后仰等)与运动能力测试指标(耐力跑、跳远、投球等) 之间的相关关系。
八、气象学
根据气象站资料,研究某地降雨量与前一天的气温、气压、 湿度、风速、风向等之间的关系;有n个地区的降雨量、气温、 湿度等指标,根据这些指标判断这n个地区所属的气候类型。
六、社会学
(1)某公司对招聘人员的知识和能力进行测评,主 要测评六个方面的内容:语言表达能力、逻辑思维 能力、判断事物的敏捷和果断程度、思想修养、兴 趣爱好、生活常识等,我们根据这六个方面的内容 对招聘人员进行综合评价,决定是否录取。 (2)某调查公司从一个大型零售公司随机调查了n 人,测量了5个职业特性指标和7个职业满意变量。 职业特性指标如用户反馈、任务重要性、任务多样 性、任务特殊性、自主权,个职业满意变量如主管 满意度、事业前景满意度、财政满意度、工作强度 满意度、公司地位满意度、工作满意度、总体满意 度,讨论两组指标之间是否相联系。
损失很多有用的信息,并希望这种
因子分析
表示能够解释所研究问题的现象。
分类和组合
变量之间的相 关关系
预测与决策
假设的提出与 检验
基于研究问题,对测量到的一些现象特 聚类分析、判别分析、主
征,给出好的分组方法,对相似的
பைடு நூலகம்
成分分析、因子分析
对象或变量分组。
变量之间是否存在相关关系,相关关系 典型相关分析、多元回归
研究,并拓展了统计学研究的新领域。具体表现在:
1)统计学和计算机科学相互促进。 2)统计理论与分析方法不断发展。 3)统计调查方法的创新。
2、多元统计分析的应用背景
多元统计分析方法与研究内容之间的关系
问题
内容
方法
数据或结构性 简化
尽可能简单地表示所研究的现象,但不 聚类分析、主成分分析、
九、其它
多元统计分析方法在其它很多领域也有广泛的应用,比如环 境保护、地质学、考古学、地震预报、军事科学、生态学、 文学、心理学等。