管理统计学第二次作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
题号:1 题型:简答/计算题本题分数:8
什么是聚类分析?聚类分析的作用是什么?
∙聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
∙聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
∙聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
∙聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
∙生物
∙聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识
∙地理
聚类能够帮助在地球中被观察的数据库商趋于的相似性
∙保险行业
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组
∙因特网
聚类分析被用来在网上进行文档归类来修复信息
∙电子商务
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
题号:2 题型:简答/计算题本题分数:6
简述类间平均距离连接法的概念。
∙类平均法(Average Linkage)中,用两类样品中,所有观测值两两观测间距离的平均作为类间距离.
类平均法事一种应用比较广泛,聚类效果较好的方法
题号:3 题型:简答/计算题本题分数:10
简述层次聚类法的基本思想。
∙层次聚类[1] 方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为凝聚的,分裂的两种方案。
∙1凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
∙2分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。
∙层次凝聚的代表是AGNES算法,层次分裂的代表是DIANA算法。
∙
题号:4 题型:简答/计算题本题分数:6
简述概率抽样的概念。
∙概率抽样是指在调查总体样本中的每个单位都具有同等可能性被抽中的机会。又称随机抽样,概率抽样以概率理论和随机原则为依据来抽取样本的抽样,是使总体中的每一个单位都有一个事先已知的非零概率被抽中的抽样。
总体单位被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现,虽然随机样本一般不会与总体完全一致。
题号:5 题型:简答/计算题本题分数:4
简述不重复抽样的概念。
∙不重复抽样又叫不重置抽样或不放回抽样,是指统计抽样时每个单位只能被抽到一次,即每次被抽到的单位记录后不再放回总体,这样每次抽选都使下一次待抽选的总体减少一个单位。这实际上等于从总体中同时抽取n 个单位组成一个样本。在不重复抽样中每一次抽选各样本单位的概率是不同的,但可以验证各样本被抽中的概率是相等的。由于抽样方法的改变,使估计和检验的平均误差的计算也发生了变化
题号:6 题型:简答/计算题本题分数:8
简述整群抽样的优点。
∙整群抽样的优点是实施方便、节省经费。整群抽样方法的运用,需要与分层抽样方法区别。当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差很大、而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群之间差别不大、而每个子群内部的异质性比较大时,则特别适合于采用整群抽样的方法。
题号:7 题型:简答/计算题本题分数:8
简述分层抽样的优点。
∙1、就是在不断增加样本规模的前提下降低抽样的误差,提高抽样的精度。
2、分层抽样的另一个优点,就是非常便于了解总体内不同层次的情况,便于对总体不同的层次或类别进行单独研究。
∙分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。当总体是由差异明显的几部分组成时,往往选择分层抽样的方法
题号:8 题型:简答/计算题本题分数:4
简述区间估计的概念。
∙区间估计,是参数估计的一种形式。1934年,由统计学家J.奈曼所创立的一种严格的区间估计理论。置信系数是这个理论中最为基本的概念。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
题号:9 题型:简答/计算题本题分数:10
简述决定系数的含义和作用。
∙决定系数(coefficient of determination),有的教材上翻译为判定系数,也称为拟合优度。是相关系数的平方。表示可根据自变量的变异来解释因变量的变异部分。如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R^2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定
∙判定系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中单个解释变量的影响程度。
∙对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。
∙
题号:10 题型:简答/计算题本题分数:4
简述总体相关系数的概念。
∙相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
∙相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确