统计建模-数据描述分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子 宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而 纵坐标为各种身高区间的身高的频数。
30
40
直方图
20
10
0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0
图 3.1 地 区 1高 三 男 生 身 高 的 直 方 图
Std. Βιβλιοθήκη Baiduev (标准差)=10.91,Mean (均值)=170.9,N (人数)=163
2.盒型图
简单一些的是盒形图(boxplot,又称 箱图、箱线图、盒子图)。 图2的左边一个是根据地区1高三男生 的身高数据所绘的盒形图;其右边的 图代表另一个地区(地区2)的高三 学生的身高。
一、定量变量的图表示: 1.直方图 对于一个定量变量,比如某个地区 (地区1)测量了163个高三男生的身 高(S3height1.txt)。 用图形来表示这个数据,使人们能够 看出这个数据的大体分布或“形状” 的一个办法是画直方图(histogram)。 图1就是利用这个数据由SPSS软件所 画的直方图。
其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于 第一行茎为150cm,因此叶子中的九个数字001223344代表九个数 目150、150、151、152、152、153、153、154、154cm等。每 行左边有一个频数(比如第一行有9个数目,第二行有17个等等); 可以看出最长的一行为从165cm到169cm的一段(有35个数)。
高三男生身 高
170
160
150
3.茎叶图
在直方图和盒形图中,很难恢复数据 的原貌。而另一种图:茎叶图(stemand-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3), 茎叶图既展示了分布形状又有原始数 据。它象一片带有茎的叶子。茎为较 大位数的数字,叶为较小位数的数字。
其他:描述统计分析 Descriptive等 ,图表
SPSS统计图
统计图汇总
条图 散点图 线图 直方图 饼图 面积图
箱式图
正态Q-Q图
正态P-P图
质量控制图
Pareto图
自回归曲线图
高低图
交互相关图
序列图
频谱图
误差线图
在对数据进行深入加工之前, 总应该对数据有所印象。 可以借助于图形和简单的运算, 来了解数据的一些特征。 由于数据是从总体中产生的, 其特征也反映了总体的特征。 对数据的描述也是对其总体的 一个近似的描述。
1、数据编辑窗口:(1)启动SPSS直接进入
(2)文件→新建→数据文件 File/New/Data
2、程序编辑窗口: 文件→新建→语句 文件 File/New/Syntax
3、输出窗口: 现实统计方法运行输出的结果, 对输出结果可以进行模块裁剪、编 辑、存档等
频数分析
利用频数分析可以方便地对数据按组进行归纳整理,对 变量的数据有一个整体上的认识。
主要内容
统计软件及描述性统计 回归分析 方差分析 多元统计分析
统计软件及描述性统计
SPSS统计 软件
SPSS采用类似EXCEL表格的方式输入与管 理数据,数据接口较为通用,能方便的从其他数 据库中读入数据。 其统计过程包括了常用的、较为成熟的统计 过程,完全可以满足非统计专业人士的工作需要。
概率统计建模
李新民 数学科学学院
概率统计建模题
(1)CUMCM1993-B:足球队排名问题; (2)CUMCM2001-B:公交车调度问题; (3)CUMCM2002-B:彩票中的数学问题; (4)CUMCM2004-D:公务员招聘问题; (5)CUMCM2005-A:长江水质的评价和预测问题; (6)CUMCM2006-B:艾滋病疗法评价与预测问题; (7)CUMCM2007-A:中国人口预测问题 (8)CUMCM2008-D:NBA赛程的分析与评价问题 (9)CUMCM2009-B:眼科病床的合理安排 (10)CUMCM2010-B:上海世博会影响分析与评价 (11)CUMCM2011-A:城市表层土壤重金属污染分析 (12)CUMCM2012-A:葡萄酒的评价 (13)CUMCM2013-A:车道被占用对城市道路通行能力的影响
HEIGHT Stem-and-Leaf Plot Frequency 9.00 17.00 20.00 35.00 25.00 24.00 13.00 11.00 4.00 2.00 Stem width: Each leaf: Stem & 15 . 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 . Leaf 001223344 55666667778899999 01112222223333333444 55555666666667777788888888888999999 0000000011112222233333344 555666677777777777888899 0111111122333 55667788899 2333 56 (>=198) 1 case(s)
210
200
158 96 5
190
盒型图
248 250 259 323
180
盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线 140 (边)为上下四分位数(点);按照 SPSS的默认选项,如果所有 N= 163 175 样本中的数目都在离四分位点 1.5倍盒子长度之内,则线的端点为 地区1 地区2 最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四 地区 分位间距),在其外面的度量单独点出
例1:对某大学10名学生测量他们的血压x,得到如下数据 : 120 120 120 134 128 102 130 132 126 126 (1)建立数据文件:例1.sav (2)选择统计方法:Analyze→Descriptive Statistics→Frequencies,送入变量,点击确定 (3)输出结果:
非专业统计人员的首选统计软 件
SPSS的功能
样本数据的描述和预处理; 假设检验(包括参数检验、非参数检验及 其他检验); 方差分析 相关分析 回归分析 聚类分析 判别分析 因子分析 时间序列分析
SPSS的窗口类型
数据编辑窗口 程序编辑窗口 输出窗口 简式输出窗口