第三讲DPS应用(3、多元统计分析)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 对这类回归分析模型,也可对其进行逐步回归分析,只保留显著的项, 剔除不显著的项。DPS 系统提供的二次多项式回归功能模块的操作和 使用方法可参考单因变量逐步回归分析部分,不同之处只是在处理数 据矩阵时,除原始数据外还自动生成包括数据的二次多项式(即把各个 自变量数据的二次多项式也作为一个自变量因子)。因此,系统最多能 处理10 个自变量的原始数据矩阵(即m≤10)。
第三章 多 元 统 计 分 析
? 多元统计分析是运用数理统计方法来研究解决多指标问题 的理论和方法。在采用多元统计分析进行数据处理、建立 宏观或微观系统模型时,主要研究以下几个方面的问题:
? 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、 对应分析等方法,在众多因素中找出各个变量最佳的子集合,从 子集合所包含的信息描述多变量的系统结果及各个因子对系统的 影响。
? 例如一个预报模型的建立,可先根据有关生物学、生态学原理, 确定理论模型和试验设计;根据试验结果,收集试验资料;对 资料进行初步提炼;然后应用统计分析方法 (如相关分析、逐步 回归分析、偏最小二乘回归分析、主成分分析等 )研究各个变量 之间的相关性,选择最佳的变量子集合;在此基础上构造预报 模型,最后对模型进行诊断和优化处理,并应用于生产实际。
? 数据的输入格式是1 行1 个样本,每行依次放入自变量x、y 和因变量 z。将待分析的数据定义成数据块后,在菜单方式下选择“趋势面分
析”。
(四)趋势面分析
? 例如某地铜元素在地表 一特定的地层中含量的 变化情况,现将各个采 样点的原始数据编辑成 右图的格式。图中第一 列是经度、第二列是纬 度,第三列是铜元素含 量。
? 例:为研究某地1962~1988 年三化螟种群消长演替规律,根据历 年积累的资料进行系统聚类分析。三化螟种群消长特征指标有第 二、三代幼虫发生量,第二、三代卵盛孵高峰期(分别以5 月31 日 和7 月20 日为零),二代至三代及三代至四代的增殖系数。原始数 据编辑整理及其数据块的定义见图
(五)聚类分析 由于该数据的量纲不同,各列数据(即各最后还要进行聚类分析方法的选择,本例
敏感,故它特别适合高度偏倚的数据。 ? 马氏距离 ? 卡方距离:徐振帮等(1986)认为,卡方距离比欧氏距离等常用
的距离系数有更强的分辨能力。
(五)聚类分析
1. 系统聚类分析 ? 编辑数据、定义数据块:一行一个样本,一列一个变量;选定待 分析数据,定义成数据矩阵块;
? 进入主菜单,选项执行“系统聚类分析”过程:在分析过程中, 系统会先后要求选择数据转换方法、相似性尺度以及聚类方法。 不过,对每一种选择都有一个默认值。可采用系统的默认值对数 据实施规格化转换、采用卡方距离相似尺度和以离差平方和聚类 方法进行聚类分析。
(五)聚类分析
? 聚类分析的功能是将一批样品或变量按照它们在性质上的亲疏程度进 行分类。描述这种亲疏程度通常有两个途径:一是把每个样品看成 m
维(变量的个数为m个)空间的一个点,进而在m 维坐标中,定义点与
点之间的某种距离。另一途径是用某种相似系数来描述样品之间的亲 疏程度。当确定了样品或变量间的距离或相似系数后,就可以对样品 或变量进行分类。分类的方法很多。一类方法是在样品距离的基础上 定义类与类之间的距离,首先将n 个样品自成一类,然后每次将具有 最小距离的两类合并,合并后重新计算类与类之间的距离,将此过程 一直继续到所有样品归为一类为止。最后把这个过程做成一张聚类谱 系图。这种聚类方法称为系统聚类法。另一类方法是将n 个样品初步 分类,然后根据分类函数尽可能小的原则,对已分类别进行调整,直 到分类合理为止。这种聚类方法称为调试法,如动态聚类就属于该类 型。此外,还有在不打乱样本秩序的条件下对样本进行聚类分析,如 有序样本的最优分割法。
? 构造预测模型,进行预报控制。探索多变量系统运动的客观规律 及其与外部环境的关系,进行预测预报,以实现对系统的最优控 制,是应用多元统计分析技术的主要目的。在多元分析中,用于 预报控制的模型有两大类。一类是 预测预报模型,通常采用多元 线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等 建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。
1. 残差图(当缺诊省断状、态预是以测因结变束量后的,拟点合值击作右横下坐角标的、“残差返作回为编纵坐标,显示当前回归方程 拟合残差)。辑可”提按供钮以下,基系本统信会息给:出分析结果
① 如果各个点都在- 2 到+2 的范围之内,且没有任何趋势,这说明所选用的模型是好 的。如果残差图不正常,有异常点 (散点)落在- 2~+2 的范围之外,或 Cook 距离大 于1,或散点分布有某种趋势,这说明模型不是很好,应当进行适当的修正。
(四)趋势面分析
? 在某些研究领域,数学模型多为非线性模型,而且寻求这些非线性模 型的函数表达式一般比较困难,在这种情况下可采用多项式形式去拟 合回归方程。在利用趋势面分析拟合回归模型时,所选择的趋势面模 型必须使剩余值比较小,回归平方和比较大,这样才能使拟合度较高, 结果才能达到足够的准确性。例如粮食产量与气温和降雨量等自然因 素的关系是非线性关系,可采用趋势面分析来拟合回归模型从而预测 粮食产量。
(二)逐步回归分析
? 数据的输入格式是一行为一个样本,一列为一个变量,因变量放在 最右边,输完一个样本后再输下一个样本。将输入待分析的所有数 据定义成数据矩阵块。
? 在逐步回归分析时,系统首先在 0.1 的置信水平下挑选自变量,
并自动调整F值以保证选入一个 自变量因子,在当前所取的Fx 值
下,进行逐步回归(引入或剔除变
? 从计算结果可以看出,趋势方程的方差分析,其显著水平p 等于
0.0015,达到极显著水平,拟合度78.10%。
(五)聚类分析
? 聚类分析(cluster analysis) 是数理统计中研究 “物以类聚”的一种方法。
? 在数值分类方面,可归纳为两大类问题:一类是 已知研究对象的分类情况,将某些未知个体正确 地归属到其中某一类,这是 判别分析 问题;另一 类问题是在事前没有分类的情况下进行数据结构 的分类,这就是 聚类分析所要解决的问题。
(四)趋势面分析
? 执行“趋势面 分析”后,系 统会出现如下 对话框。在对 话框中,系统 给出了当前运 行参数的缺省 值。当然可根 据自己的要求 修改这些参数。 在对话框中, 可改变趋势面 次数等。
(四)趋势面分析
? 参数修改后,用鼠标点击“保存图形”按钮,这时系统会将等高线图 保存下来。退出对话框后,系统给出分析结果如下: 趋势面方程: Z=-39602.61631+993.64405*X+1703.76971*Y-22.62857*X^29.16000*X*Y-30.91428*Y^2+0.1916667*X^3+0.0571429*X^2*Y +0.0571429*X*Y^2+0.1916667*Y^3 残差标准差=1.027016021942,F=5.9454,P= 0.0015,拟合度 =78.10%
Байду номын сангаас
(五)聚类分析
1. 系统聚类分析
? 系统聚类就是利用变量或样本间亲疏程度的数量指标,即 相似系数或距离远近来进行聚类。目前已有大量的相似系 数和距离,但在数值分类中比较常用的却是少数。
? 欧氏距离: 它是聚类分析中最广泛使用的距离。 ? 绝对值距离(又称Manhattan 度量或网格变量) ? 切比雪夫距离 ? 兰氏距离:这是一个自身标准化的量。由于它对大的奇异值不
(三)二次多项式回归分析
? 现代的二次回归正交旋转设计试验,即把正交设计和回归分析有机地 结合起来,在正交设计的基础之上,利用回归分析,在给出的因素和 指标之间,找出一个明确的函数表达式,建立因果关系的数学模型, 以便定量地描述在某个生物学过程中各因素对指标的作用,并用该数 学模型预测和控制生产。目前,组建多元二次回归模型几乎都是运用 二次(旋转)回归设计来实现,当然也可对某些符合要求的历史资料作同 样的分析,组建类似于二次(旋转)回归模型的多元二次多项式模型。
? 主要分析结果解释
? (1) 回归模型诊断:第一,方程的方差分析F 值的显著水平p 要小于等于 0.05,否则,所建立的回归方程不能使用;第二,各个回归系数的偏相 关系数的显著水平最好也小于等于0.05;第三,Durbin-Watson 统计量 d 是否接近于2。
? (2) 通径分析:根据通径系数的大小和正负,可以推断各个因子对因变量 的直接影响和间接影响。
量)。在当前F值分析结束时,系
统会出现如图界面,并询问用户 是继续引入变量、剔除变量还是 结束变量的引入、剔除工作。
(二)逐步回归分析
? 输出结果包括
? ① 各个变量的平均值、标准差、协方差矩阵和相关系数矩阵; ? ② 回归方程式; ? ③ 偏相关系数、t 检验值、复相关系数及其临界值; ? ④ 回归方程剩余标准差; ? ⑤ 拟合值及拟合误差; ? ⑥ 直接通径系数、间接通径系数和决定系数等。
个变量)的数量级别相差也较大,故在进中分别采用离差平方和法、类平均法、重
行聚类分析之前先采用规格化变换方法心对法和最短距离法等四种方法进行分析。
数据进行处理。对原始数据进行规格化聚变类分析的输出结果包括数值和图形两部
? 在DPS 中,将17 家医院数 据编辑、定义成数据块(图)
? 在菜单下选择“多元分析→ 回归分析→线性回归”功能 项后,系统会给出下图的操 作界面
(一)线性回归
2. 各个自变量参数估计主要结果:包括回归系数、标准回归 系3数. 、数回据归转系换数:显提著供水了平取及对各数个、自平变方量根的及方倒差数膨等胀3 系数, 这一块种主数要据为转诊换断方各式个,自当变残量差是图否分存析在表多明重方共差线显性现象而 设计的示。为非齐性时可考虑对数据进行转换,在点 4. 击预“测重区新域建:立可方输程入”各按个钮预后报,因即可得到新的 5回.子当归的前方取回程值归,,方并并程可指总继定体续计检诊算验断置指残信标差区模性块能:。给出了当 间前的模置型信的水决平定,系点数击、“F预检测验”值及其显著水平。 按一钮个后较即好可的得回到归预模测型值不及但其要在求显著水平的值 当前小置,信而水且平决下定的系置数信要区大间。值。
一、回归分析
(一)线性回归
? 为研究医院所需要的人力, 某部门对所辖的17 家医院 调查了一组数据,共6个变 量:x1 为日平均病人数, x2 为月平均X 光透视人数, x3 为月平均所占用的床位 天数,x4 为当地人口数 /1000,x5 为平均每个病人 住院天数,y 为月平均使用 的人·小时数。
? 进行数值分类,构造分类模式。在多变量系统的分析中,往往需 要将系统性质相似的事物或现象归为一类,以便找出它们之间的 联系和内在规律性。过去许多研究多是按单因素进行定性处理, 以致处理结果反映不出系统的总的特征。进行数值分类,构造分 类模式一般采用聚类分析和判别分析技术。
? 如何选择适当的方法来解决实际问题?需要对问题进行综合考 虑。对一个问题可以综合运用多种统计方法进行分析。
② 如果残差呈现某种趋势,而不是散点分布,这时须考虑线性回归模型是否合适,或 考虑建立其他回归函数模型。
③ 当误差方差随因变量估计值 (或自变量 )的增大而增大,这时方差显示为非齐性,这时 须考虑对数据进行转换。
④ 如果有离群值 (异常点 )应酌情处理 (删除、压缩等 )。
(二)逐步回归分析
? 从多元线性回归分析中我们知道,如果采用的自变量越多,则回归平 方和越大,残差平方和越小。然而,采用较多的变量来拟合回归方程, 会使得方程的稳定性差,每个自变量的区间误差积累将影响总体误差, 用这样建立起来的回归方程作预测的可靠性差、精度低;另一方面, 如果采用了对Y 影响甚小的变量而遗漏了重要变量,可导致估计量产 生偏倚和不一致性。鉴于上述原因,我们希望得到“最优”的回归方 程,这样的“最优”回归方程就是包含所有对Y 有显著影响的变量而 不包含对Y 影响不显著的变量的回归方程。逐步回归分析法就是一种 能自动地从大量可供选择的变量中选择那些对建立回归方程比较重要 的变量的方法。
相关文档
最新文档