辽宁工程技术大学-地理建模复习资料,仅供参考
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中(了解)以及浅蓝色字体内容不需背下来,掌握其大概意思就行;(理解) 内容不需死记硬背,但需要看明白。
其中肯定会考利用指数平滑法计算题和城市垃圾场选址的概念模型。
题型:选择题(可能有判断题)、名词解释题、简答题、计算题。
第1章绪论
第1节模型的一般概念
模型:对现实世界中的实体或现象的抽象或简化,是对实体或现象中的最重要的构成及其相互关系的表述。
第2节模型的基本特征
模型的基本特征:结构性、简单性、清晰性、客观性、有效性、可信性、易操作性
第3节模型的分类与用途
概念模型:利用科学的归纳方法,以对研究对象的观察、抽象形成的概念为基础,建立起来的关于概念之间的关系和影响方式的模型。
物理模型(了解):①又叫实体模型,现实世界在尺寸上缩小或放大后构成的相似体。
②建立在分析现象与机理认识基础上的模型。
③用物理学方法抽象形成的反映物质或现象本质的理想模型。
④物理模型是对真实数据库的描述。
数据库中的一些对象如下:表,视图,字段,数据类型、长度、主键、外键、索引、是否可为空,默认值。
数学模型(了解):用数学方程来描述现实世界结构和特性的模型。
模型的其他分类——按人们对事物发展过程的了解程度分类:①白箱模型——指那些内部规律比较清楚的模型。
如力学、热学、电学以及相关的工程技术问题。
②灰箱模型——指那些内部规律尚不十分清楚,在建立和改善模型方面都还不同程度地有许多工作要做的问题。
如气象学、生态学、经济学等领域的模型。
③黑箱模型——指一些其内部规律还很少为人们所知的现象。
如生命科学、社会科学等方面的问题。
但由于因素众多、关系复杂,也可简化为灰箱模型来研究。
模型的其他分类——根据对空间数据的表达(GIS中):栅格模型和矢量模型。
①矢量结构精度高,存储量小;易建拓扑关系,擅长管理线状地物和拓扑关系搜索;易于网络分析;空间位置表达明显属性隐含;图形显示质量好。
但数据结果复杂,叠加操作困难,空间分析能力较差。
②栅格结构精度稍低;数据量大;难于建拓扑;属性表达明显,位置隐含;图形显示的质量不如矢量。
但数据结构简单,易于与遥感、摄影数据结合,空间操作与分析容易,有发展潜力。
第2章概念模型
第1节概念和变量
概念:概念又称为术语、专业名词等,是一组观念、一种结构,是对于问题普遍的、本质特征的反映。
指标维度、属性变量(不需掌握定义)
方位变量:用方位角的值表示的变量。
可分为真方位角、磁方位角和坐标方位角。
第2节数据
数据源——离散数据和连续数据(理解):1)连续数据——>离散数据举例:①地图数字化中等高线的绘制;②遥感影像:将连续的地物波谱离散化;③DEM:数字地面模型,将连续的地表离散化为三角形或正方形连接成的格网。
2)离散数据——>连续数据举例:①等高线的插值与拟合;②人口——>人口密度
绝对误差、相对误差和百分误差:绝对误差——测量的真值与给定的测量值或由计算得到的近似值之间的差值;相对误差——绝对误差除以测量值的真值;百分误差——相对误差乘以100。
(测量和计算的准确度的真正指标是相对误差)
数据的精密性、准确性和精确性:1、精密性:在进行某一量的测量时,各次测量的数据大小彼此接近的程度——它是偶然误差的反映。
2、准确性:测量数据的平均值偏离真实值的程度——它是系统误差的反映。
3、精确性:测量的精确度是指测量数据集中于真实值附近的程度——它是对测理结果的综合评价。
GIS数据的来源?(了解)
(1)空间数据:①室外地面观测—>键盘和电子记录设备—>GIS传统测绘(钢卷尺)—>光学测绘(经纬仪、钢卷尺)—>光、电测绘(经纬仪、测距仪、全站仪)—>光、机、电(测量机器人)—>光、机、电、传感器(三维激光扫描仪)②GNSS(Global Navigation Satellite System):美国的GPS、俄罗斯的Glonass、欧洲的Galileo、中国的北斗卫星导航系统③遥感—>磁带机或硬盘—>GIS④纸质地图—>扫描数字化—>GIS
(2)属性数据:野外测量、调查统计资料、……
GIS数据的误差源?
(1)按误差属性①位置误差②属性误差③逻辑一致性误差:数据内容(位置/属性/时间),拓扑
一致性④其他误差
(2)按数据处理过程①数据采集②数据编辑③数据处理④数据分析和建模⑤其他误差
GIS数据质量控制?
①手工或人工检查②元数据方法③地理相关法:需要专业知识
测量尺度
第3节系统和地理系统
系统:内部包含若干组成,其间通过有规则的相互作用而相互依赖,并以某些形式联合而成的统一整体。
地理系统:太阳辐射能进入地球表层后再各个圈层中流通转化,使他们相互依存,相互作用,形成一个复杂的整体,这就是地理系统。
反馈分析(理解):反馈——一个系统为了实现自己的目标状态,把系统的输出信息再次输入,影响信息的再输出,这个过程就是反馈。
①正反馈——通过反馈活动,使系统的状态越来越偏离目标;②负反馈——通过反馈活动,使系统的状态越来越接近目标。
第6节概念模型的例子
(必考大题)城市垃圾场选址的概念模型(开放性答案,就是老师在课堂上讲的,找出各个需要满足的条件画一个模型)
【思考】城市垃圾场选址的概念模型(以下来自课件,不作为答案)(了解)
1、第一步,分析问题(问题分解,文字描述)
垃圾场选址—>垃圾场需满足若干条件—>寻找(选择)同时满足这些条件的区域—>如果每个条件能用一个数据图层表示,问题转化为—>多个图层的叠加分析,寻找交集
2、第二步,解决问题的关键证据(选址条件,专业知识+专家建议)
3、第三步,抽象出概念、定义(对证据或条件进行简化)
4、第四步,确定数据源(对证据或条件进行简化)
5、第五步,条件量化(专业知识、专家建议)
6、第六步,图层数据处理
7、第七步,图层叠加
8、第八步,输出结果(生成二值图)
第3章统计相关模型概述
第1节建模基础
普查-抽样-对象-总体-个体-样本:【例子】想了解北京市民对征收房地产税的看法,需要进行问卷调查,给出几种选项(非常支持、支持、无所谓、反对、非常反对),目的是希望知道对这个问题的不同看法各自占的比例。
可以调查每一个北京市民的观点,这是普查,但费时费力;也可以只调查部分北京市民,根据这些人的观点来理解整个北京市民的总体观点,这是抽样调查。
这个例子中,每一个北京市民是一个研究对象,单个北京市民的观点称为个体,所有北京市民对这个问题的观点为一个总体,总体是包含所有要研究的个体的集合。
而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本,是总体的一部分。
简单随机抽样:在抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样,而这样得到的样本则称为随机样本。
抽样误差、非抽样误差:抽样误差-总体特征值与由样本得到的总体特征值之间的差异,取决于抽样的方法、样本的代表性等。
非抽样误差-数据在采集、记录、编辑等过程中产生的误差。
第3节建模步骤
数据整理:
1)规范化变量命名
(了解)含义明确:准确而简洁,避免歧义、模糊;尽量术语化(科学术语),例如DEM、DSM还是DTM,特别是中英文对照问题
格式规范:中文or英文,有or无下划线,大小写……
标准单位名称(如果有量纲)
多期数据的统一性问题:变量名称未变,但涵义发生变化,或扩大或缩小(人均收入—>人均可支配收入),或计算方法不同(如郁闭度),或数据类型变化(栅格-矢量),或调查方法变化(如分层抽样—>机械抽样);变量名称和涵义均发生变化;变量从无到有或从有到无(如CPI指数)。
2)明确变量的尺度和数据类型
3)检查样本
(了解)样本编号与现场一致(或有对照表);不应有缺失、模糊。
4)录入数据——形成数据文件或数据库
(了解)属性特征数据:专题属性与时间属性数据——建立属性检查规则:单变量、不同变量间的联系;空间特征数据:检查拓扑、地理相关法检查。
5)填写说明日志
(了解)所有整理的相关记录,便于使用者了解数据的处理过程、出现问题容易通过日志找回源头、为后续的结果解释做准备。
第4节数据预处理
统计特征描述——中位数(理解):将观察值从小到大排列后,位于中间位置的数。
(了解)样本量为奇数——中间位置的数
样本量为偶数——中间两个数的均值
※由于中位数不易受极端值影响,所以中位数比均值稳健
【举例】平均收入;评委打分;跳水打分(5评委-7评委)
第4章统计相关模型-相关分析
一、简单相关分析
1 线性相关系数
简单相关分析上用得最多的是(Pearson相关系数)
Pearson相关系数(Pearson’s correlation coefficient)——参数检验
(了解)又叫相关系数或线性相关系数。
它一般用字母r表示。
它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。
①公式(不用记)
②说明:相关系数的绝对值
<0.1,不相关
0.1-0.3,弱相关
0.3-0.7,中等相关或相关性较强
>0.7,强相关
2 偏相关分析(理解例题)
例题:现有一批汽车的资料(数据见“例题-简单线性相关和偏相关分析-auto(汽车数据).sav),现希望分析汽车价格和每加仑汽油可行驶的距离之间的相关关系。
1)定义(了解):
在多要素所构成的系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。
用以度量偏相关程度的统计量,称为偏相关系数。
要点(理解要点③):
①偏相关分析是研究多变量中两个变量的关系
②前提是必须控制其他变量的影响(保持不变)——“偏”
③偏相关系数反映在多个变量中,某一变量对另一变量的独立贡献
④如果在多个变量中计算其中两个变量A与B的简单相关相关系数,得到的结果反映了其余多个变量通过B对A的共同影响,所以有时会给我们假象。
3 复相关系数的计算与检验
复相关系数:反映几个变量与某一个变量之间的复相关程度。
二、典型相关分析(了解)
在现实世界中,两组变量之间具有相关关系的问题很多,例如生物群落与生活环境之间的
关系(如生物与土壤之间),土壤养分与大气环境之间,投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国内收入、运输业国内收入、建筑业国内收入等)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间具有相关关系等。
三、对相关分析的理解(明白其大概意思就可以)
1、相关分析的结果只表征变量间的线性关系(线性相关系数、偏相关系数、复相关系数)的强弱;无法表明其他的如非线性关系等复杂关系。
2、相关分析的结果不一定能反映现实世界变量间的真实关系:也许与样本选择有关(或者叫样本选择偏差),也可能是非线性关系,也可能是样本中的异常值或强影响点引起
3、变量之间有关系这个事实并不意味着一定存在着因果关系
4、如何证明因果关系
5、相关分析的积极作用
(1)反映事物之间的某种联系
(2)相关分析是因果关系的基础,因此,相关研究对于探索性研究具有重要意义,有助于提出假设,作进一步的验证性研究。
(3)只要有关系,即使不是因果关系也不妨碍人们利用这种关系进行推断:
6、现实中容易犯的认识错误
(1)以偏概全(样本选择偏差)
(2)同时发生的事有因果关系
(3)一先一后发生的事有因果关系
①斗牛的真相:公牛因为看见红色而愤怒吗?
②食物相克——海鲜和维生素C(水果)虾和柠檬水(砷)
(4)把巧合视为因果
占卜、风水、算命、星座学、属相配对
第5章统计相关模型—回归分析
一、回归分析概述
1、回归分析
回归分析研究一个随机变量与多个变量之间的定量关系,检验解释变量的显著程度并比较其作用的大小,进而用两个或多个变量的变化解释和预测因变量的变化。
2、回归分析模型(理解残差项ε)
,
+
=,
,
(ε
)
=
,2,1
p
p
m
⋅⋅⋅
j
y j≤
f
x
回归方法的关键是针对不同测量尺度的数据,寻找m个解释变量的最优组合(假设有m个自变量,并不是所有的解释变量都纳入方程中,所以有进入方程的变量个数p≮m),使得随机干扰项最小。
3、随机干扰项的意义
1)代表没有纳入到方程中的变量:
①未知的变量:人们认识影响因变量的因素常常不完全,什么因素影响Y,不是一无所知就是知而不确。
②缺少数据的变量:有些变量因各种原因得不到想要的数据
③对因变量的影响较弱的变量:
④为了追求更加简单的模型而舍掉的变量
2)变量的数据或样本在测量或处理中的误差
3)建模的方法或函数的形式误差:有散点图估计存在线性关系,实则是非线性关系
4)人类行为的内在随机性:即使引入所有变量,个别因变量中仍不免有些内在随机性。
4、回归分析的步骤(了解)
1)根据数据的测量尺度和目的选择适当的回归方法;
2)选择解释变量和因变量;
3)模型计算;
4)结果分析和检验
5)模型对比和确认
5、回归分析的内容(了解)
1)回归方程
2)回归方程检验
3)方程确认
4)回归模型的比较
二、简单线性回归
1、原理
β+
β
ε
=X
Y1
+
即根据样本观测值,建立因变量Y和自变量X间的直线方程y=β0 + β1x ,求解截距β0和斜率β1
形象解释
2、假设条件
1)因变量Y和自变量X:正态分布的连续型随机变量
2)残差项ε
正态性:N(0,σ2)
等方差性: ε的方差(或标准差)对于所有x的值不变
独立性: ε的值互相独立
3、回归结果的检验
1)方程的显著性检验(一般为F检验)
2)回归系数的显著性检验(一般为t检验)
3)回归直线的拟合优度——决定系数R2(0-1之间)(用Adjusted R Square)
4)残差项ε的检验(数值越大说明越合适)
【例题】用SPSS完成(老师上课讲的例题,了解)
这里有美国60个著名商学院的数据(Bschool.sav),包括变量有五年收益(单位:千美元)、进入MBA学习前的工资、MBA毕业后的工资、学费、GMA T分数等(数据中我删掉了两个不好解释的变量)。
现在来研究MBA毕业后的工资和进入MBA前的工资间的关系。
1、画出散点图——观察两变量是否具有线性趋势
SPSS操作(SPSS16.0英文版):
Graphs->Legacy Dialogs->Scatter/Dot…->Simple Scatter->输入变量、图题等->执行
2、相关分析——计算两变量间的简单相关系数
SPSS操作(SPSS16.0英文版):
Analyze->Correlate->Bivariate…->输入变量,默认勾选Pearson->执行
3、简单线性回归——建立两变量间的线性回归方程
SPSS操作(SPSS16.0英文版):
Analyze->Regression->Linear…->输入因变量(Salary Post MBA )和自变量(Salary Pro MBA )、Statistics设置、Plot设置->执行
4、回归结果的检验与分析
5、回归分析结果的表达
1)文字表达(重点:对结果会用文字进行描述并且写出回归方程)
研究了以MBA毕业后的工资为因变量和以MBA前的工资为自变量的线性回归模型,结果表明:回归方程是显著的(F=339.827,P<0.001);MBA前的工资是显著的预测变量(t=18.434,P<0.001);自变量解释了因变量中85.2%的变异,回归结果较好。
回归方程为
=x
y(R2=0.852)
.2-
829
.
11
403
三、多元线性回归
1、多元线性回归模型(掌握几何意义)
εββββ++⋅⋅⋅+++=k k x x x 22110y
多元线性回归实质是通过样本数据找到各回归系数(β0, β1,… βk )的估计值,得到如下的方程
k k x x x y
ββββˆˆˆˆˆ22110+⋅⋅⋅+++= 从几何意义讲,得到的多元线性回归方程是K+1维平面上的超平面,即回归平面。
2、多元线性回归方法
利用最小二乘法估计,使残差的平方和最小
3、回归方程的拟合优度检验
4、回归方程的显著性检验(了解)
4、5、回归系数的显著性检验(了解)
6、残差分析(了解)
1)残差为0的正态性分析
2)残差的独立性分析
3)异方差分析
7、多元线性回归中的其他问题(了解)
1)探测样本中的异常值
2)解释变量的筛选
3)变量的多重共线性问题
四、曲线估计
1、概述
变量之间的关系并不总是表现为线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。
对于非线性关系通常无法直接通过线性回归来分析,无法直接建立线性模型。
2、本质线性与本质非线性
①本质线性-形式上虽然呈非线性关系,但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型。
②本质非线性-变量关系不仅形式上呈非线性关系,而且也无法通过变量变换转化为线性关系,最终无法进行线性回归分析建立线性模型。
六、相关分析与回归分析的区别(理解)
联系与区别:都是研究变量间的关系;相关分析中的变量间是对等关系,回归分析中有因变量和自变量,因变量是我们关注的目标,自变量引起因变量的变化;一般在回归分析前先研究相关分析,如果变量间相关性较弱,则没有进行回归分析的必要。
第6章动态数据分析模型
动态数据分类(理解,小点可能出选择题):1、按时间t值:离散数据和连续数据2、数据的表现形式(1)绝对时间序列——属性值为总量水平①时期序列:每一个数据反映的是一段时期内发展的结果,即“过程的总量”,如国内生产总值。
②时点序列:每一指标值反映现象在一定时点上的瞬间水平,如年底总人数。
(2)相对数和平均数时间序列——由绝对时间序列派生①两个时期数据派生②两个时点数据派生③时期序列(分子)和时点序列(分母)共同派生
动态数据的构成(1)趋势变动(2)季节变动(3)循环变动(4)随机变动
注意季节变动和循环变动的区别
①都表示一段时期内的变动,但季节性变动通常不大于1年,循环变动以若干年计;
②季节变动的规律性更强,周期相对固定;循环变动,上面的例子,虽然有一个总的变化规律,但周期性不强;
③从成因看,季节变动主要是由自然因素和制度性因素引起;循环变动则由系统内部的因素引起。
确定性时间序列
1、趋势外推的数学模型(估计这里可能会有选择题)
2、移动平均
一次移动平均:由于随机干扰和周期波动,时间序列往往呈现表面杂乱无章的散点图,为了提取关于目标变化趋势的有用信息,可采用移动平均法。
设已给时间序列}{x t ,用t y 表示第t 期的预测值,则
)(111+-++=n t t t t x x x n
y - 该模型假设下一期的值由前n 期的算术平均值决定。
n 称为移动平均时间数,常取奇数。
则1y +t 的递推式为
)(1y )(n 1y 11211+-++--+-+=+⋅⋅⋅++=n t t t n t t t t x x n
x x x 【例题】对下列数据分别进行3次和5次移动平均
【例题】对下列数据分别进行三期和五期移动平均
3、指数平滑法
设有时间序列}{t x ,用t y 表示t 期的预测值,则
1)1(--+=t t t y x y αα
称为一次指数模型,也称一次指数平滑法。
其中α称为平滑指数,范围是(0~1)。
该模型实质是用t 期的观测值t x 来修正t-1期的预测值1-t y ,并将修正后的结果作为t 期的预测值。
当α接近0时所建立的模型的平滑作用好,通常取值范围在0.01-0.5。
α取值可参考如下几点:
①当时间序列较为稳定,无明显的增长或下降趋势时,α取小值,20.0~05.0∈α
②缺乏原始资料,yt 的初始条件不可靠时,α取最大值,以使模型经较小的时间周期,就可由初始值 逼近实际过程。
③原序列中不规则波动大,或外部环境变化大时,α取最大值,以使模型反映灵敏,通常5.0~3.0∈α
在不易做出很好的判断时,可分别用几个不同的α值加以试算比较,取其预测误差较小者。
(必考计算题:会根据一次指数模型进行计算)【练习】(教材表6.8)用一次指数平滑法分别计算α=0.05,α=0.2,α=0.3,α=0.5时的新时间序列,设初始值y0=100,比较α取何值时预测结果较好。
当时间序列长度t→∞时,无论初始值y0取什么值,随着时间的增长,最终y0对预测目标yt 的影响趋于0。
但是当t不大时,y0对yt的影响较大,因此要求y0的取值可靠。
一般地,当时间序列长度大于50时,可用x1为初始值y0;如果小于15或20,可将过去的数据取一部分进行算术平均,加权平均或指数平滑求得。
如果没有可靠数据可用,则需用专家评估法计算y0。