相关性分析 聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Q型聚类实例分析
• 例:一组有关12盎司啤酒成分和价格的数 据,变量包括beername(啤酒名称)、 calorie (热量卡路里) 、 sodium (纳含量) 、 alcohol (酒精含量) 、 cost (价格)。 要求根据12盎司啤酒的各成分含量及12盎 司啤酒的价格对20种啤酒进行分类。
R型聚类实例分析
• 有10个测检项目,分别用x1-x10表示。有50 个学生参加测试,通过50个学生的数据,把 这10个变量聚成两类。并且找出每类中的代 表元素。
• x3,x8,x9,x10是第一类 • x1,x2,x4,x5,x6,x7是第一类。
x8的相关指数最高,所以x8代表可第二类元素。
• 分析(Analysis) →分类(Classify) →分层聚 类(Hierarchical Cluster) • Q型聚类选个案,R型聚类选变量。 • 统计量: 相似性矩阵:表格形式给出任意两个样本 的相关指数。
• 方法: • 聚类方法:组间聚类,组内聚类,最近邻元素 法,最远邻元素法 • 度量标准:平方Euclidean距离,Euclidean距 离,Pearson相关性。 • 标准化:如果参与聚类的变量的量纲不同会导致 错误的聚类结果。因此在聚类过程进行 之前必须对变量进行标准化。常用的是Z 分数法和全距从 0-1。 • 这是常用的几种方法,具体问题根据具体结果选 择方法。
很明显,当前工资与年龄呈负相关,年龄越大,工资 有越低的趋势。与以前工作经历相关系数更低。
• 例3:某次全国武术女子前10名运动员长拳 和长兵器两项得分数据,要求分析这两项 得分是否存在线性关系。 • 不能确定变量是不是等间隔测度的,所以 不能选择Pearson相关性,而要选 Spearman 和Kendall`s tau-b相关性。 • 由于只有2个变量,检验选择单侧检验。
•女子长拳与长兵器存在正相关关系,但相关系数不是 很高。
聚类分析
• 聚类分析是研究如何将客观事物合理分类 的一种数学方法。它是根据事物本身的特 点对被研究对象进行分类,使同一类中的 个体有较大的相似性,不同类中的个体有 较大的差异。 • 聚类分许根据分类对象的不同,可分为样 本聚类和变量聚类。 • 样本聚类又称Q型聚类,对样本进行分类。 • 变量聚类又称R型聚类,对变量进行分类。
数学建模
• • • • • • • • 蛛网模型 灰色预测模型 线性回归层次分析模型 综合模糊评价模型 行遍性问题 遗传算法 神经网络 微分方程 • • • • • • • SPSS Matlab Eviews Mathmatics Lingo Lindo Tex
数学建模
• • • • • 蛛网模型:主要用于经济,市场结果的预测。 灰色预测模型:预测结果。 线性回归:判断变量关系和预测结果。 层次分析模型:找到事物的每个分支对这个事物的 影响程度。 综合模糊评价模型:根据事物多个方面对事物进行 整体评价。 行遍性问题:图论问题。 遗传算法:解决最优化的搜索算法 神经网络 微分方程
• 相关系数: Pearson 只适用于服从正态分布的等间隔 测度的离 散或连续变量。(例如变量是时间) Spearman 和Kendall`s tau-b 非等间隔测度,分布不明的变量。
• 显著性检验 双侧检验(Two-tailed) 事先不知道变量相关方向(正相关还是负相 关)时选择此项。 • 单侧检验(One-tailed) 事先知道相关方向则选择此项。 • 相关系数右上方使用“*”,表示其检验值 要<0.05才算通过检验;用“**”表示其检 验值要<0.01才算通过检验。
相关性分析
• 相关分析是研究变量间密切程度的一种常 用统计方法。 • 线性相关分析研究的是变量间线性关系的 强弱程度和方向。所谓强弱程度是指变量 间的密切程度;方向指如果随着一个变量 的增大另一个变量也增大,则它们呈正相 关,方向为正;否则就是负相关。
• 例1:对1962~1988年安徽省国民收入与城 乡居民储蓄存款余额这两个变量进行线性 相关分析。 • 分析(Analysis) →相关(Correlate) →双变量 (Bivariate) • 把要相关分析的变量从左框移到右框。
• • • •
SPSS
• SPSS全称是“Statistical Package for Social Science”,即“社会科学统计软件 包”。 • SPSS可以进行回归分析,尺度分析,相关 性分析,聚类分析,判别分析,因子分析, 时间序列分析等等。 • 这节课介绍相关性分析 和 聚类分析。
• 标记显著性相关(Flag significant correlate): 把变量的显著性关系以图表的形式表示 出来,通常要选择此项。 • 选项(Options): 统计量:均值和标准方差,叉积偏差和协 方差。 只有在主对画框中Pearson相关分 析方法时才可以选择这两项。
• 例2:本题是一组银行雇员数据。分析目的 是观察salbegin(起始工资)和 salary (现工资) 与雇员本人各方面条件的关系。 • 变量有: age(பைடு நூலகம்龄) jobtime(本单位工作时间(月)) prevexp(以前工作经历(月))。
相关文档
最新文档