苏科初中数学九年级下册《8.3 统计分析帮你做预测》教案.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计预测与决策教案
时间:2005年9月
1
管理预测与决策方法授课计划
•定性预测方法
•定量预测方法
◆确定性方法
回归分析预测方法
时间序列平滑预测方法
趋势外推预测方法
马尔可夫预测与决策法
◆不确定性方法
灰色系统预测
随机性决策分析
模糊决策
粗糙集理论
第一章预测概述
1.1 引言
1. 预测的兴起
预测于20世纪60-70年代在美国逐步兴起的
预测:预测是指对事物的演化预先做出的科学推测。
广义的预测,既包括在同一时期根据已知事物推测未知事物的静态预测,也包括根据某一事物的历史和现状推测其未来的动态预测。
狭义的预测,仅指动态预测,也就是指对事物的未来演化预先做出的科学推测。
预测理论作为通用的方法论,既可以应用于研究自然现象,又可以应用于研究社会现象,如社会预测、人口预测、经济预测、政治预测、科技预测、军事预测、气象预测等。
2. 预测的作用
正确的预测是进行科学决策的依据。
政府部门或企事业单位制定发展战略、编制计划以及日常管理决策,都需要以科学的预测工作为基础。
如“诸葛亮借东风、空城计”、以美国为首的多国部队实施的“沙漠风暴”,研究人员建立了热能转换模型,进行了一系列模拟计算。
因此,人们说第一次世界大战是化学战(火药),第二次世界大战是物理战(原子武器),而海湾战争是数学战,指的是这场战争在战前就已对战争的进程以及战争所涉及和影响的方方面面做出了科学预测。
制订经济计划的依据之一
提高经济效益的手段之一
提高管理水平的途径之一
1.2 预测的基本原则
1. 坚持正确的指导思想
2. 坚持系统性原则
预测者所研究的事物和自然界的其他事物一样,都有自己的过去、现在和将来,就是存在着一种纵的发展关系,因果关系,而这种因果关系要受某种规律的支配。
将事物作为一个互相作用和反作用的动态整体来研究,而且要将事物本身与周围的环境组合成一个系统综合体来研究。
例如:1943年全世界估计有三亿疟疾病患者,每年有300万人死亡,4500万人死于瘟疫,1945年后使用了DDT,十年内疟疾病的死亡率降低了二分之一,瘟疫病患者每年仅死亡几千人。
然而DDT除了杀死害虫外,还杀死了大量其他有益的鸟类、鱼类等动物及植物,而且外界环境不能使DDT毒性衰减,据估计现在存留在大气层,大地以及海洋中的DDT约有十亿磅以上。
2
3.坚持关联性原则
4.坚持动态性原则
1.3 预测的分类
1.按预测的范围或层次分类
(1) 宏观预测
是指针对国家或部门、地区的活动进行的各种预测。
它以整个社会经济发展的总图景作为考察对象,研究经济发展中各项指标之间的联系和发展变化。
如:社会商品总供给、总需求的规模、结构、发展速度和平衡关系的预测;社会物价总水平的变动;宏观经济预测是政府制定方针政策、编制和检查计划,调整经济结构的重要依据。
(2) 微观预测
是针对基层单位的各项活动进行的各种预测。
它以企业或农户生产经营发展的前景作为考察对象,研究微观经济中各项指标间的联系和发展变化。
具体商品的生产量、需求量和市场占有率的预测等。
微观经济预测,是企业制定生产经营决策,编制和检查计划的依据。
宏观预测应以微观预测为参考;微观预测应以宏观预测为指导,二者相辅相成。
2. 按预测的时间长短来分类
(1) 长期预测
一般是指对5年以上发展前景的预测.
(2) 中期预测
一般指1年以上5年以下发展前景的预测.
(3) 短期预测
一般指对3个月以上1年以下发展前景的预测
(4) 近期预测
一般指对3个月以下企业生产经营状况的预测。
3. 按预测方法的性质分类
(1) 定性预测
指预测者通过调查研究,了解实际情况,凭自己的实践经验和理论、业务水平,对事物发展前景的性质、方向和程度做出判断进行预测的方法。
(2) 定量预测
是指根据准确、及时、系统、全面的调查资料和信息,运用软计算方法和数学模型,对事物未来发展的规模、水平、速度和比例关系的测定。
常用的定量预测方法有回归分析预测、时间序列预测、因果分析预测、灰色系统预测、粗糙集方法、模糊集方法及神经网络等。
4. 按预测时是否考虑时间因素来分类
(1) 静态预测
指不包含时间变动因素,对事物在同一时期的因果关系进行预测
(2) 动态预测
指包含时间变动因素,根据事物发展的历史和现状,对其未来发展前景做出的预测。
1.4 预测的程序
1. 明确预测任务,制定预测计划
预测计划是根据预测任务制定的预测方案,包括预测的内容、项目,预测所需的资料,准备选用的预测方法,预测的进行和完成时间,编制预测的预算,调配力量,组织实施等。
2. 搜集、审核和整理资料
筛选资料的标准有三个(1) 直接有关性;(2) 可靠性;(3) 最新性。
3.选择预测方法和建立数学模型
数学模型也称为预测模型,是指反映经济现象过去和未来之间,原因和结果之间相互联系和发展变3
4
化规律性的数学方程式.
4.检验模型,进行预测
模型建立之后必须经过检验才能用于预测。
一般的,评价模型优劣的基本原则有以下几条:
(1) 理论上合理
(2) 统计可靠性高
(3) 预测能力强
(4) 简单适用
5. 分析预测误差,评价预测结果
即分析预测值偏离实际值的程度及其产生的原因.
6.向决策者提交预测报告
1.5 预测的精度和价值
1. 预测精度评价指标
(1) 预测误差
设某一项预测指标的实际值为X,预测值为 令 (2) 相对误差
预测误差在实际值中所占比例的百分数称为相对误差,记为ε,即
(3) 平均误差
(4) 平均绝对误差
(5)平均相对误差
(6)均方误差
(7)均方根误差
X
X e -=X
称为预测精度
通常把
εε-⨯-==1%
100X X
X X e )
(111
1X X n e n e n
i i n i i
-=
=∑∑==|
|1||1||11X X n e n e n i i n i i
-==∑∑==∑∑==⨯-=⨯=n i i
i
i n i i i X X X n X e n 11%
100||1%100||1|| ε∑∑==-=
=n i i i n i i X X n e n s 1
2
122)
(11|| ∑∑==-==n
i i i n
i i X X n e n S 12
12)
(11
5
(8)两面商
测定预测准确度的另一个指标是Janus 商,计算公式如下:
利用预测模型对样本期外的数据进行预测,有事前预测与事后预测两种。
对样本期外实际情况已经发生的若干时期所进行的预测叫事后预测,对实际情况尚未发生的未来时期所进行的预测叫事前预测,后者是预测的最终目的。
2. 预测的价值
预测的价值可分为事实预测和非事实预测 一般说来,对于人们难以控制的事物或现象,预测的精度越高,其价值就越大,如气象预测、地震预测等,这类预测称为事实预测。
对于一些部分可控的事物,就不能按照预测的精度或预测是否成为事实来衡量其价值。
这类预测通常称为非事实性预测(指预测具有引导人们去执行预测结果的功能。
非事实预测可分为按照对预测结果的影响效应,非事实性预测可以分为自实现预测(self —fullfilling forcast)和自拆台预测(self-defeating forcasting)两种。
第二章 定性预测方法
•定性预测,是预测者根据自己的知识背景以及所掌握的实际情况和实践经验,对经济发展前景的性质、方向和程度做出的判断。
•定性预测特点:需要的数据少,能考虑无法定量的因素,比较简便可行。
•在掌握的数据不多、不够准确或主要影响因素难以用数字描述,无法进行定量分析时,定性预测就是一种行之有效的预测方法。
•由于定性预测主要靠预测者的经验和判断能力,易受主观因素的影响,主要目的不在数量估计。
为了提高定性预测的准确程度,应注意以下几个问题:
(1) 应加强调查研究,努力掌握影响事物发展的有利条件、不利因素和各种活动的情况。
从而使对经济发展前景的分析判断更加接近实际。
(2) 在进行调查研究,搜集资料时,应作到数据和情况并重,使定性分析定量化。
也就是通过质的分析进行量的估计,进行有数据有情况的分析判断,提高定性预测的说服力。
(3) 应将定性预测和定量预测相结合,提高预测质量。
在预测过程中,应先进行定性分析,然后进行定量预测,最后再进行定性分析,对预测结果进行调整定案。
这样才能深入地判断事物发展过程的阶段性和重大转折点,提高预测的质量,为管理、决策提供依据。
2.1 市场调查预测法
•常用的市场调查预测法有以下几种:
1 .经济管理人员意见调查预测法
2 .销售人员意见调查法
∑∑∑∑=++==++=--==
n i i i m n n i i n i i m n n i i X X n X X m e n e m J 1
2121212)(1)(111
3.商品展销、定货会调查预测法
4.消费者购买意向调查预测法
2.2 市场调查预测法
•为了提高预测的准确程度,在进行市场调查预测时应注意以下几个问题:
•(1)调查表不要包罗万象,应只包括和预测有关的基本内容;
•(2)要抽选出一定数目的具有代表性的调查单位;
•(3)设法取得被调查者的充分合作;
•(4)要参考统计资料和市场信息,对调查预测结果进行修正,以提高预测的准确程度;
•(5)尽量利用城市和农村住户抽样调查资料,以节省人力、物力,提高调查预测的科学性和准确性。
2.3 专家预测方法
•1. 头脑风暴法
头脑风暴法:主要是通过组织专家会议,激励全体与会专家参加积极的创造性思维。
在诸多直观预测方法中,头脑风暴法占有重要地位。
20 世纪50 年代,头脑风暴法作为一种创造性的思维方法在预测中得到广泛运用,并日趋普及。
从20 世纪60 年代末期到70 年代中期,实际应用中头脑风暴法在各类预测方法中所占的比重由6.2% 增加到8.1% 。
•2. 德尔菲(Delphi)法
德尔菲(Delphi)法:德尔菲法是专家会议预测法的一种发展。
它以匿名方式通过几轮函询,征求专家们的意见。
预测领导小组对每一轮的意见都进行汇总整理,作为参考资料再发给每个专家,供他们分析判断,提出新的论证。
如此多次反复,专家的意见渐趋一致,结论的可靠性越来越大。
–德尔菲(Delphi)法是美国“兰德”公司20世纪40年代首先用于技术预测的。
德尔菲是古希腊传说中的神谕之地,城中有座阿波罗神殿可以预卜未来,因而借用其名。
•近十年来,德尔菲法已成为一种广为适用的预测方法。
许多决策咨询专家和决策者,常常把德尔菲法作为一种重要的规划决策工具。
斯蒂纳(G. A. Steiner)在其所著作的《高层次管理规划》一书中,把德尔菲法当作最可靠的技术预测方法。
在军事领域中德尔菲法应用最为普遍。
工业科技发展和市场需求预测,国外也多采用德尔菲法。
德尔菲法应用的其它领域还有:人口预测、医疗和卫生保健预测、经营预测、教育预测、研究方案的预测、信息处理、以及各级各类社会、经济、科技发展规划等等。
德尔菲(Delphi)法步骤
(1)制定调查表,准备必要背景材料具体、明确、便于答复、材料客观
(2)选择专家
具有较高理论水平或具丰富实践经验的人
(3)反馈调查
特点
(1)匿名性
(2)轮间反馈性
(3)预测结果的统计特性
派生德尔菲法
–自从“兰德”公司首次用德尔菲法进行预测之后,很多预测学家(其中包括“兰德”公司的专家)对德尔菲法进行了深入研究,对初始的经典德尔菲法进行了某些修正,并开发了一些派生方法。
–派生方法分为两大类:
(1)保持经典德尔菲法基本特点;
6
(2)改变其中一个或几个特点。
•专家的选择
–德尔菲法是一种对于意见和价值进行判断的作业。
如果应邀专家对预测主题不具有广泛的知识,很难提出正确的意见和有价值的判断。
即使预测主题比较窄和针对性很强,要物色很多对这一专题涉及的各个领域都有很深造诣的专家也很困难,因而物色专家是德尔菲法成败的关键,是预测领导小组的一项主要工作。
–如果预测任务仅仅关系到具体技术发展,最好同时从部门内外挑选。
从外部选择专家,大体按如下程序进行:
(1)编制征求专家应答问题一览表。
(2)根据预测问题,编制所需专家类型一览表。
(3)将问题一览表发给每个专家,询问他们能否坚持参加规定问题的预测。
(4)确定每个专家从事预测所消耗的时间和经费。
•编制调查表
•调查表一般根据实际预测问题的要求编制。
•德尔菲预测过程
经典德尔菲法一般分四轮进行。
第一轮:发给专家的第一轮调查表不带任何框框,只提出预测主题。
预测领导小组对专家填写后寄回的调查表进行汇总整理,归并同类事件,排除次要事件,用准确术语提出一个事件一览表,并作为第二轮调查表发给每个专家。
第二轮:专家对第二轮调查表所列的每个事件作出评价,并阐明理由。
领导小组对专家意见进行统计处理。
第三轮:根据第二轮统计材料,专家再一次进行判断和预测,并充分陈述理由。
有些预测在第三轮时仅要求持异端意见的专家充分陈述理由,因为他们的依据经常是其他专家忽略的一些外部因素或未曾研究过的一些问题。
这些依据往往对其他成员重新作出判断产生影响。
第四轮:在第三轮统计结果基础上,专家再次进行预测。
根据领导小组要求,有的成员要重新做出论证。
通过四轮,专家的意见一般可以相当协调。
2.4 主观概率法
主观概率:是预测者对某一事件在未来发生或不发生可能性的估计,反映个人对未来事件的主观判断和信任程度。
•主观概率法是对市场调查预测法或专家预测法得到的定量估计结果进行集中整理的常用方法。
客观概率,是指某一随机事件经过反复试验后,出现的频数,也就是对某一随机事件发生的可能性大小的客观估量。
如掷一枚硬币,出现国徽面和出现数字面的客观概率各为1/2。
•主观概率加权平均法
–主观概率加权平均法是以主观概率为权数,通过对各种预测意见进行加权平均,计算出综合性预测结果的方法。
•累计概率中位数法
–累计概率中位数法是根据累计概率,确定不同预测值的中位数,对预测值进行点估计和区间估计的方法。
2.5 预兆预测法
1.预兆预测法概念
预兆预测法:就是根据预测对象前兆现象的变化情况,推断预测对象发展前景的预测方法。
7
自然现象、社会现象、经济现象等之间的相互联系,有时在变动时间上呈现先后顺序。
当一种现象发生变化之后,另一种现象随之发生变化。
前者的变化传递了后者即将发生变化的信息,成为后者发生变化的前兆现象。
2.经济波动
所谓经济波动,指的是经济增长中出现上升与下降交替的循环往复运动。
一个典型的经济波动周期包括复苏、高涨、衰退和萧条四个阶段。
3. 监测预警指标体系的构造
•应用预兆预测法对经济波动进行监测预警时要建立指标体系,通过对指标系统的观测和分析来反映经济运行系统的变化,以便对经济增长中行将出现的波动态势发出警报信号,为提早实施宏观调控提供依据,做到防患于未然。
设置指标体系要考虑三个方面的问题:
(1)指标的内容
指标的内容要与预警目标一致。
(2)指标时差关系分类
根据指标变动的时差关系,入选指标可以分为先行、同步和滞后三种类型
(3)指标选择的原则
●经济性质的重要性
●变动特征的灵敏性与稳定性
●统计上的完整性、及时性与充分性。
•4.信息指标的综合、识别与评价
(1)扩张指数方法
扩张指数方法根据扩张和半扩张指标数量比例进行指标信息的综合。
计算公式是:
(2)景气对策信号方法
景气对策信号方法采用类似交通管制信号灯的方法来显示经济总体的运行状态和应当采取的景气对策,如我国将经济运行的景气波动范围划分为过热、偏热、正常、偏冷和过冷五个景气区,分别用红灯、黄灯、绿灯、浅蓝灯和蓝灯表示。
(3) “组合信号”预测
在实际应用中为了提高预测的准确性,还可以利用同步指标甚至是滞后指标参与预测,然后取各个预测值的平均值作为最终预测值,称为“组合信号”预测值。
第3章回归分析预测法
3.1 引言
1.回归分析的提出
•回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。
•高尔登在1889年发表的著作《自然的遗传》中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。
•回归的现代涵义与过去大不相同。
一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。
其目的在于根据已知自变量来估计和预测因变量的总平均值。
2.回归分析和相关分析
(1)函数关系
函数关系反映客观事物之间存在着严格的依存关系。
在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。
一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。
8
(2)相关关系
相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。
这种线性依存关系有两个显著的特点:
①客观事物之间在数量上确实存在一定的内在联系。
表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。
②客观事物之间的数量依存关系不是确定的,具有一定的随机性。
表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。
这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。
(3)回归分析与相关分析的关系
相关分析是以相关关系为对象,研究两个或两个以上随机变量之间线性依存关系的紧密程度。
通常用相关系数表示,多元相关时用复相关系数表示。
回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,并据此对因变量进行估计和预测的分析方法。
由回归分析求出的关系式,称为回归模型
回归分析与相关分析的联系是,它们是研究客观事物之间相互依存关系的两个不可分割的方面。
在实际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。
在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。
相关分析需要回归分析来表明客观事物数量关系的具体形式,而回归分析则应建立在相关分析的基础上。
3.回归模型的种类
(1)根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。
(2)根据回归模型的形式线性与否,回归模型可以分为线性回归模型和非线性回归模型。
(3)根据回归模型所含的变量是否有虚拟变量,回归模型可以分为普通回归模型和带虚拟变量的回归模型。
此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。
3.2 一元线性回归预测法
一元线性回归预测法,是对两个具有线性关系的变量,建立线性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。
•1. OLS (Ordinary Least Square)估计
•2. OLS的特性
•最小二乘估计量具有线性、无偏性和最小方差性等良好的性质。
线性、无偏性和最小方差性统称BLUE性质。
满足BLUE性质的估计量称为BLUE估计量。
•3. 回归方程的检验
•在一元线性回归模型中最常用的显著性检验方法有:
–相关系数检验法
–F 检验法
–t 检验法
3.3 回归方程的检验
3.3.1 离差平方和的分解与可决系数
在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。
变差产生的原因如下:
①受自变量变动的影响,即x取值不同时的影响;
②受其他因素(包括观测和实验中产生的误差)的影响。
为了分析这两方面的影响,需要对总变差进行分解。
9
10 1.离差平方和的分解
∑∑∑-+-=-2
22)ˆ()ˆ()(y y y y y y i i i i =Q Q L yy 2
1+= 即
总变差=剩余变差+回归变差
2.可决系数2R
总变差
回归变差=2R yy L Q 2= 可决系数2R 的大小表明了在y 的总变差中由自变量x 变动所引起的回归变差所占的比例,是反映变量x 与y 之间的线性相关关系密切程度的一个重要指标。
根据上述定义,有
∑∑∑∑---=--=22222)()ˆ(1)()ˆ(y y y
y y y y y R i
i i i
3.3.2 相关系数检验法
相关系数是用来衡量一元线性回归模型中两个变量之间线性相关关系强弱程度的指标。
一般说来,相关系数愈大说明两个变量之间的线性相关关系愈强。
但相关系数的绝对值大到什么程度时,才能认为两变量之间的线性相关关系是显著的,回归模型用来预测是有意义的?对于不同组数的观测值,不同数值的显著性水平,衡量的标准是不同的。
这一数量界限的确定只有根据具体的条件和要求,通过相关系数检验法的检验才能加以判别。
相关系数检验法的步骤如下:
1.计算相关系数R ;
2.根据回归模型的自由度(n -2)和给定的显著性水平α值,从相关系数临界值表中查出临界值)2(-n R α;
3.判别。
若|R|>)2(-n R α,表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预测;若|R|≤)2(-n R α,表明两变量之间线性相关关系不显著,检验未通过。
在这种情况下,回归模型不能用来进行预测。
这时,应分析其原因,对回归模型重新调整。
3.3.3 F 检验法
构造F 统计量
)
2/()2/()ˆ()ˆ(1222-=---=
∑∑n Q Q n y y y y F i i i 可以证明F 服从第一自由度为1,第二自由度为n -2的F分布。
对给定的显著性水平α,查F分布表可得临界值)2,1(-n F α。
若F>αF ,则认为两变量之间线性相关关系显著;反之,若F≤αF ,则认为两变量之间线性相关关系不显著。
3.3.4 t 检验法
t 检验法是检验a , b 是否显著异于0的方法。
我们以对b 检验为例来说明t 检验法的步骤。
构造t 统计量b S b t ˆ
ˆ= 其中∑∑∑-=--=212
2
ˆ)2()2()ˆ(i i i i b x n Q x n y y S ,b S ˆ称为b ˆ的样本标准差。
可以证明b S b t ˆ
ˆ=服从自由度为(n -2)的t 分布。
查t 分布表得临界值)2(2/-n t α。
若t>)2(2/-n t α,则认为b 显著异于0,反
之,若t ≤)2(2/-n t α,则认为b 不显著异于0。
对于a 是否显著异于0的检验过程与此完全相同。
3.3.5 预测区间
1.点估计
在一元线性回归模型中,对于自变量x 的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。
设预测点为),(00y x ,则预测值为:
0ˆˆˆx b a y +=
2.区间估计
所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。
设其预测误差为:
000ˆy
y e -= 由于0y 和0ˆy
都服从正态分布,所以0e 也服从正态分布,其期望值与方差分别为: 0)ˆ()()ˆ()(00000=-=-=y E y E y
y E e E 2
2202
00000)()(1)ˆ()()ˆ()(σσ⎥⎥
⎦
⎤⎢⎢⎣⎡--++=+=-=∑x x x x n y D y D y y D e D i 2220)()(11σ⎥⎥⎦⎤⎢⎢⎣⎡--++=∑x x x x n i 所以,))()(11,0(~2
2200σ⎥⎥⎦
⎤⎢⎢⎣⎡--++∑x x x x n N e i 令
2
2202
)()(11y
i S x x x x n S ⎥⎥⎦
⎤⎢⎢⎣⎡--++=∑ 通过上述分析,可以得到,在显著性水平为α时,预测值0ˆy 的预测区间为: 0ˆy
02/)2(S n t -α 当实际观测值较多,满足大样本条件(一般n >30)时,式(中根式的值近似地等于1,式中
的)2(2/-n t α也近似趋于正态分布2/αZ ,因此,可简化为:
y S Z y
⋅2/0ˆα 3.3.5 几个应当注意的问题
1.重视数据的收集和甄别
在收集数据的过程中可能会遇到以下困难: (1)一些变量无法直接观测。
(2)数据缺失或出现异常数据。
(3)数据量不够。
(4)数据不准确、不一致、有矛盾。
2. 合理确定数据的单位
在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。
比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。
因此,适当选取变量的单位,使模型中各变量的数量。