主成分分析报告法运用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学简介及在实践中的应用
--以主成分分析法分析影响房价因素为例
姓名:阳飞
学号:2111601015
学院:经济管理学院
指导教师:吴东武
时间:二〇一七年一月六日
1 简介
统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。
在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。
关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。
统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。它是随着人类社会的发展、治国和管理的需要而产生和发展起来的,至今已有四五千年的历史。现实生活中,统计工作已经作为一种认识社会经济现象总体和自然现象总体的实践过程。一般包括统计设计、统计调查、统计整理和统计分析四个环节。
统计资料是指通过统计工作而取得的用来反映社会经济现象的数据资料的总称。由统计工作所取得的各项数字资料及有关文字资料,一般都会反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。也称为统计信息,它是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料包括刚刚调查取得的原始资料和经过一定程度整理、加工的次级资料。其所形式的成果较直观地可分为:统计表、统计图、统计年鉴、统计公报、统计报告和其他有关统计信息的载体等等。
统计科学也称统计学,它是统计工作经验的总结和理论概括,是经过系统化后的知识体系。统计学是在后来研究如何搜集、整理和分析统计资料的理论与方法,是应用数学的一个分支。主要通过利用概率论和数理统计来建立数学模型,通过模型可以把收集得到的所有数据,进行量化的分析、总结,从而进行推断和预测,以为后期所做的为相关决策提供依据和参考价值。现如今,统计学已经被广泛的应用在各门学科之上,包括从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
统计学主要又分为描述统计学和推断统计学。假设给定一组数据,统计学就可以通过摘要简单地来描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称之为推论统计学。这两种用法都可以被称
作为应用统计学。特别强调的是还有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。
总体来说,“统计”一词的三方面涵义是紧密联系的,统计资料是统计工作的成果,统计工作与统计科学之间是实践与理论的关系。
对于“统计学”,《百度百科》上是这样解释的:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
随着社会经济的高速发展,人们已经逐渐进入了各种数据的时代。小到分析生活中的柴米油盐的价格分析,探究究竟怎样才能用有限的物资来满足生活所需,这就需要我们考虑用怎样的方法才能实现最大的目的;大到宇宙中的天体运行,分析各行星是如何运动的,以便于我们探究宇宙的秘密,为航天事业做贡献。这种爆炸似的数据就迫切需要我们去获取、处理、分析、挖掘出其中有价值的信息。
统计学就是为解决一系列数据问题而产生的一门学科,这门学科主要就是将生产生活中实际遇到的数据问题上升到理论层次,用用各种理论的方法来解决这些难题,得出一系列的结论;然后再将理论返回用于实际生活中,通过站在各种不同的视角,给出不同的政策建议。统计学最大的优点就是能够将理论与实际相结合,能够真正意义上的在实际中体现统计的价值,是的爆炸式的数据变得清晰客观。
2 统计原理及其应用
在学习统计学的方法时,主要的方法有聚类分析、主成分分析、因子分析、对应分析、典型相关分析等。
2.1相关统计方法及原理
2.1.1聚类分析
聚类分析是将个体或对象分类,使得同一类别的对象之间的相似性比与其他类的对象的相似性更强。目的是在于使类间对象的同质性最大化和类与类间对象的异质性最大化。这样就能把比较复杂的对象归成类,处理起来就大为方便。
具体方法是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程度较大的样品或指标又聚合为一类,关系密切的聚合到一个小的类单位,关系疏远的聚合到另外一分类单位,知道把所有的样品或指标都聚合完毕。把不同的类型一一划分出来,形成一个有小到大的分类系统。最后把整个分类系统画成一张分群图(又称谱系图),用它就把所有的样品或指标间的亲疏关系表示出来。
2.1.2主成分分析
主成分分析(principal components analysis)也称主分量分析,是由Hotelling于1933年首先提出来的。主成分分析是利用降维的思想,在损失很
少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而能够抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
这样分析的原因是既然研究某一问题涉及的众多变量之间有一定的相关性,