数据分析建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.18386 0.23931 0.1944
-0.31307 -0.12404 0.024753 -0.21859 0.006477 4 0.093672 -0.23614 0.000439 08 -0.32115
1 0.13812 0.05388
0.13812 1 0.034333
0.18749 0.20326 0.045256
2.3常用的统计方法
在实际问题的数学建模中,常用的统计方法 有数据的统计描述和分析、统计推断、相关 性分析、方差分析、回归分析、因子分析、 主成分分析、聚类分析和判别分析等。
1数据的描述性统计
针对一组杂乱无章的数据(即样本),描述性统计的步骤为: 初步整理和直观描述----作出频数表和直方图 进一步加工,提取有用信息----计算统计量 统计量:用来进一步反映数据特征,它是加工出来的,反映样 本数据特征的函数,它不含任何未知量,大致可以分三类: (1)表示位置的统计量----样本均值、中位数、上下1、4分位点 (2)表示变异程度的统计量----标准差、方差、极差 (3)表示分布形状的统计量----偏度、峰度
>> [H,p]=jbtest(X,0.05) %P为接受假设的概率值,P越接近于 0,则可以拒绝是正态分布的原假设; H= 0 p= 0.7281
>> [mu1,sig1,mu_ci,sig_ci]=normfit(X,0.05); mu=[mu1,mu_ci'] mu = 208.8167 207.6737 209.9596 %该分布的均值及置信区间 >> sig=[sig1, sig_ci'] sig = 6.3232 5.6118 7.2428 %该分布的方差及置信区间
2.数据分析法
2.1 思想 采用数理统计方法(如回归分析、聚类分析 等)或插值方法或曲线拟合方法,对已知离 散数据建模。 适用范围:系统的结构性质不大清楚,无法 从理论分析中得到系统的规律,也不便于类 比,但有若干能表征系统规律、描述系统状 态的数据可利用。
2.2 基础知识
(1)数据也称观测值,是实验、测量、观察、调 查等的结果,常以数量的形式给出; (2)数据分析(data analysis)是指分析数据的技 术和理论; (3)数据分析的目的是把隐没在一大批看来杂乱 无章的数据中的信息集中、萃取和提炼出来,以找 出所研究对象的内在规律;
相关分析的步骤:
建立样本相关系数,这是衡量x、y之间关系密切程 度的指标。 n
ρ xy = cov( x, y ) =
∑ ( x − x)( y − y)
i i i =1
∑
n i =1
( xi − x) 2 ⋅
∑
n i =1
( yi − y ) 2
主要任务:由x、y的一些观测值如估计及检验有关 的假设,如(一般地,当时,x、y不相关;时,x、 y有正(负)相关)。
-0.15689 0.14232 -0.1498
0.14996 0.014662 0.001888 3 -0.1313 -0.0293
数据分析建模简介
观察和实验是科学家探究自然的主要方法,但 如果你有数据,那么如何让这些数据开口说话呢?数 据用现代人的话说即信息,信息的挖掘与分析也是建 模的一个重要方法。
1.科学史上最有名的数据分析例子
开普勒三定律 数据来源:第谷·布拉赫(1546-1601,丹麦人),观察力极 强的天文学家,一辈子(20年)观察记录了750颗行星资 料,位置误差不超过0.67°。 观测数据可以视为实验模型。 数据处理:开普勒(1571-1630,德国人),身体瘦弱、近 视又散光,不适合观天,但有一个非常聪明的数学头脑、坚 韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐 的整体),花了16年(1596-1612)研究第谷的观测数据, 得到了开普勒三定律。
tn − 2 ( 2 ) = t8 (0.005) = 3.355 , c =
α
tn − 2 ( α ) 2 n−2+t
2 α n−2 2
( )
= 0.765 < 0.91
所以拒绝H0,即x与y的线性相关性高度显著,即格 子高的人一般体重也要大些。
[R,P]=corrcoef(A(:,1:12)) % 相关系数 【解读】:R返回相关系数矩阵;P用于检验假 设:如果P(i,j)较小,小于0.05,则相关性显 著。 【结果】:
k=kurtosis(A) % 峰度【解读】:峰度是 分布形状的另一种度量,若比3(正态 分布的峰度)大得多,表示分布有沉重 的尾巴,说明样本中有较多远离均值的 数据。 【结果】:3.6784 4.3238 3.1295 2.5877 3.0065 2.7328 6.5922 4.2458 2.4431 10.269 2.8131 4.3174 2.8452; ------------------------------10月分布最 分散。
例:
>> X=[216,203,197,208,206,209,206,208,202,203,206,213,218,207,208,...
202,194,203,213,211,193,213,208,208,204,206,204,206,208,209,... 213,203,206,207,196,201,208,207,213,208,210,208,211,211,214,... 220,211,203,216,224,211,209,218,214,219,211,208,221,211,218,... 218,190,219,211,208,199,214,207,207,214,206,217,214,201,212,... 213,211,212,216,206,210,216,204,221,208,209,214,214,199,204,... 211,201,216,211,209,208,209,202,211,207,202,205,206,216,206,... 213,206,207,200,198,200,202,203,208,216,206,222,213,209,219];
表1 某地区45年来降水量数据(单位:毫米)
年份 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1月 10 20 24 103 14 43 52 63 31 23 19 16 0 35 18 18 52 43 2月 82 77 47 94 53 14 42 48 160 66 26 54 24 88 86 28 65 0 3月 55 169 114 25 159 185 60 98 87 216 160 13 77 91 40 44 139 120 4月 92 93 46 224 103 107 148 269 243 67 105 136 223 196 183 100 127 84 5月 230 162 160 351 111 245 153 181 175 110 79 148 126 230 44 111 155 138 6月 127 106 201 470 489 196 242 17 519 199 247 203 9 379 168 110 76 82 7月 341 48 90 568 55 72 295 115 46 119 32 385 166 60 81 87 101 200 8月 104 130 165 43 160 78 112 306 0 23 30 416 327 32 73 0 68 57 9月 127 140 85 2 28 5 15 113 58 104 154 108 32 71 49 19 145 80 10月 44 63 77 29 0 22 30 155 68 24 56 32 10 145 61 86 68 23 11月 46 21 46 33 1 4 142 13 102 66 100 71 75 6 57 50 160 32 12月 26 1 35 89 20 4 31 32 60 0 26 39 26 11 38 51 2 104 年总计 1284 1030 1090 2031 1193 975 1322 1410 1549 1017 1034 1621 1095 1344 898 704 1158 963
ቤተ መጻሕፍቲ ባይዱ
相关系数表格(R)
1 0.14954 0.070286 0.27593 0.35991 0.087625 0.14954 1 -0.1383 0.070286 -0.1383 1 0.27593 0.18386 -0.31307 0.35991 0.23931 -0.12404 0.087625 0.1944 0.024753 0.05388 0.034333 1 0.36359 0.085131 -0.21859 0.10318 -0.10886 0.006477 4 0.06594 0.060145 0.058771 0.32935 1 -0.19965 0.089692 0.093672 0.1119 -0.13387 -0.23614 0.17558 0.1292 0.000439 08 0.026847 -0.23735 0.061987 0.077931 0.011184 0.15171 0.1106 1 0.050781 0.062304 -0.32115
3 相关性分析
在现实问题中,常会遇到没有因果关系的变量x与y(地位对 称),比如: (1)一个家庭的月收入x与这个家庭的孩子数量y; (2)一个人的身高x与他的体重y等。 这里x与y无因果关系,但它们之间却存在着一定的关系,如 (2)中,一般来说个子高的人体重也大一些。因此,人们 希望了解这些x、y之间关系究竟密切到了什么程度?这就需 要统计意义下的相关。
2 统计推断
统计推断主要有参数估计和假设检验。 参数估计:点估计、均值的区间估计和方差 的区间估计 假设检验:均值检验、方差检验
【例】:学校学生的身高构成一个总体,通常认为身高是 服从正态分布的(这就是问题的基本假定),从这群人中 随机抽出n人,量得身高为(这就是观测数据),它受到随 机性的影响。 若要估计这群人的平均身高,即上述正态分布的均值(这 种估计就是一种推断形式,此处估计的对象是总体分布中 的未知参数,故又称为参数估计)。若感兴趣的问题是“平 均身高是否超过1.7米”就需要通过样本检验关于总体分布的 命题“”是否成立?(这便是假设检验)
例:从某大学中随机选择10名男生,的观测值如表3。
表3 身高与体重观测值 身高(x) 1.71 1.63 1.84 1.90 1.58 1.60 1.75 1.78 1.80 1.64 体重(y) 65 63 70 75 60 55 64 69 65 58
计算相关系数:ρ xy = 0.91 ; 设(x,y)服从正态分布,考虑假设检验问题: H0:x与y线性不相关,取显著水平α = 0.01 ,查表得
第一步:探索性数据分析(统计方法) 1.做出相关图形:散点图、直方图、频数表等 plot(A(:,1),'*') %绘制散点图 hist(A(:,1)) %绘制直方图 直方图:hist(A(:,1)) 频数表:tabulate(A(:,1)) -----------经过观察无明显规律。
2.计算相关的统计参数:频数表、均值、方差、标 准差、偏度、峰度、协方差矩阵等 tabulate(A(:,1)) % 频数表 M=mean(A); % 均值 V=var(A); % 方差S=std(A); % 标准差 y=skewness(A) % 偏度 【解读】:偏度用于衡量样本均值的对称性,若偏度 为负,则数据均值左侧的离散型比右侧的强;若偏 度为正,则右侧的离散性比左侧的强。严格对称分 布的偏度为0。 【结果】:0.99934 1.0284 0.70601 0.56734 0.40354 0.6779 1.9055 1.3992 0.55898 2.3232 0.82274 1.1327 0.62368。 -----------------------------全部右偏。