多元统计分析-1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在 SPSS 中,打开数据sugar.sav 之后,选择 Analyze-Compare Means-One Sample T Test, 然后选中变量weight 作为检验变量(“Test Variable”),在检验值(“Test Value”)处选择 500(µ0),然后“OK”即可。
SPSS 选Analyze-Descriptive Statistics Explore,把变量‘得分’ 选入到 ,把变量‘得分’ Dependent List,再把‘班级’ 选入 ,再把‘班级’ 选入Factor List, 点击 , 点击statistics 选descriptives 和 percentiles 然后 然后OK
茎叶图 Stem-and-leaf
茎叶图 Stem-and-leaf
茎叶图 Stem-and-leaf
茎叶图 Stem-and-leaf
Age Stem-and-Leaf Plot for Region= North America Frequency 3.00 8.00 19.00 23.00 37.00 Байду номын сангаас4.00 63.00 54.00 50.00 49.00 31.00 15.00 4.00 2.00 Stem & Leaf
如果两个老师,而学生水平差不多, 如果两个老师,而学生水平差不多 成绩 不同是由于老师的评分标准不同导致 • 一班分数的均值和标准差分别为 78.53和9.43,而二班的均值和标准差 和 , 分别为70.19和7.00。 分别为 和 。 • 那么得到 分的一班的张颖是不是比 那么得到90分的一班的张颖是不是比 得到82分的二班的刘疏成绩更好呢 分的二班的刘疏成绩更好呢? 得到 分的二班的刘疏成绩更好呢 ? 怎么比较才能合理呢? 怎么比较才能合理呢?
例1.2 (数据 Rich.sav)该数据摘自福布斯是 )
世界富豪排行榜, 世界富豪排行榜,展示了世界最富有的一些 人的名次( 人的名次(Rank,为正整数,越小越富 所 ,为正整数,越小越富),所 属区域( 分别代表北美、 属区域(Region,1 至5分别代表北美、欧 洲、 , 分别代表北美 亚洲和太平洋、南美、非洲), 年龄(Age)和净 亚洲和太平洋、南美、非洲 年龄 和净 财富(NetWorth,单位 亿美圆 财富 ,单位10 亿美圆)
Stem width: 10.00 Each leaf: 1 case(s)
茎叶图 Stem-and-leaf
散点图Scatter plot 散点图
例 1.3 (数据 marriage.sav)美国男士和女士初婚年 龄的数据。该数据描述了自1900 年到1998 年男女 第一次结婚的年龄的中位数。自1900 到1960 年是 每十年一个值,以后到1990 是每五年取一个数, 1995 年以后每年一个数。 - 横坐标(如年份),另外男士和女士结婚年龄为 纵坐标来画散点图。SPSS 选项为Graphs- legacy dialogs -line-multiple (values of individual cases), 然 后把男、女放在lines represent –把年选入Variable (category labels), OK. 点击图形做细致改动 - 在60年代婚姻年龄降低,而后来又升高。而男子 结婚年龄平均比女性高
• 点击饼图,可对图做细微改进。 • 在properties 中点击text style将FangSong放 入Font • 点击data value labels 将percent 和 “语种” 放入Labels displayed
如何用少量数字来概括数据? 如何用少量数字来概括数据?
两个班级同一门课的成绩, 例 1.5( grade.sav)两个班级同一门课的成绩 ( 两个班级同一门课的成绩 就下面两种情况分析这两个班的成绩 1.一个任课老师 两个班在一起上课 一个任课老师, 一个任课老师 2. 两个任课老师 - 点击 点击grade.sav , 选Graphs-legacy dialogshistogram, 将‘得分’放入 得分’放入variable中, , 中 班级’ 放入panel by Rows, 可以选 将 ‘ 班级 ’ 放入 display normal curve
……
直方图 (histogram)
横坐标是年 龄区间, 龄区间,纵 坐标高度是 落在相应的 年龄区间里 的人数
直方图 (histogram)
横坐标财富 区间, 区间,纵坐 标高度是落 在相应的财 富区间里的 人数
盒形图(boxplot, Box-whisker) 盒形图
盒子中间横线是中 位数(median), 封 位数 闭盒子的上下两横 线(边)为上下四 分位数(点 分位数 点), 按 SPSS默认,如所 默认, 默认 有样本都在离四分 位点1.5 倍盒长之 位点 内,则线的端点为 最大和最小值, 最大和最小值,否 则线长就是1.5 倍 则线长就是 的盒长, 的盒长,在其外面 的点被软件认为是 离群点(outlier); 离群点 ; 而超过盒长三倍的 被认为是极端值 (extreme)。
定性变量的图表示:饼图和条形图 定性变量的图表示:饼图和条形图
• 例 1.4 (数据 language.sav)说世界各种 主要语言(包括母语和日常使用)的人数 • 饼图:选SPSS中 Graphs- legacy dialogs – pie (values of individual cases), 点击define. 将母语放入slices represent, 将语种放入 slice labels-variable 点击OK • 条形图:选SPSS中 Graphs- legacy dialogs –bar charts-clustered (summaries of separate variables), 点击define. 将母语和日 常用语放入bar represent,语种放入 category axis 点击OK
用SPSS进行假设检验的例子1 SPSS进行假设检验的例子1 进行假设检验的例子
One Sample T Test
例2.1(数据:sugar.sav)一个顾客买了一包标有500g重的一包红 (数据: ) 糖,觉得份量不足,于是找到监督部门;当然他们会觉得一包份量 不够可能是随机的。于是监督部门就去商店称了50包红糖;得到均 值(平均重量)是498.35g;这的确比500g少,但这是否能够说明 厂家生产的这批红糖平均起来不够份量呢?首先,可以画出这些重 量的直方图(图6.1)。这个直方图看上去象是正态分布的样本。 于是不妨假定这一批袋装红糖呈正态分布。
• 把数据进行标准化,然后再比较标准化后 的数据。某观测值xi的标准得分定义为
xi − x z = s
• 在我们的例子中 , 张颖的标准得分为 在我们的例子中, 张颖的标准得分为(9078.53)/9.43= 1.22, 而刘疏的标准得分为 = , (82-70.19)/7=1.69。 = 。 • 显然如果两个班级平均水平差不多,刘疏 显然如果两个班级平均水平差不多, 的成绩应该优于张颖的成绩; 的成绩应该优于张颖的成绩;这是在标准 化之前的数据中不易看到的。 化之前的数据中不易看到的。
Rank
1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0
name
citizenship region age networth resident
NAM NAM NAM EU AS NAM EU AS NAM AS EU 50.0 75.0 66.0 79.0 55.0 53.0 57.0 49.0 82.0 77.0 39.0 50.0 42.0 30.0 28.0 23.5 22.0 21.5 20.0 19.6 18.8 18.2 United States United States Mexico Switzerland United Kingdom United States France Saudi Arabia Canada Hong Kong United Kingdom
茎叶图 Stem-and-leaf
3 . 234 3 . 77788999 4 . 0011111122233344444 4 . 55666666777888888999999 5 . 0000000000111112222223333333333444444 5 . 5555556666666666777777888888899999 6 . 000000011111111111122222222222233333333333333344444444444444444 6 . 555555556666666667777777777888888888888899999999999999 7 . 00000000000011112222222223333333333333444444444444 7 . 5555555566666666666677777777778888888888999999999 8 . 0000000000111222222222223333444 8 . 555666667788889 9 . 0011 9 . 77
教材 : 《多元统计分析》何晓群编著,中国人 民大学出版社。
参考书目: • Business Statistics: A Decision-making Approach (D. F. Groebner & P. W. Shannon) • 《商务与经济统计精要》(原书第2版)戴 维R·安德森等著,机械工业出版社,2005。 • 《统计分析与SPSS的应用》,薛薇编著, 中国人民大学出版社,2001。 • 从数据到结论, 吴喜之编著,中国统计出 版社
数据的描述
Descriptive Statistics 描述统计 -用表格、图形和数值对数据进行 用表格、 直观的描述
广告投入和销售额之间的关系
例 1.1(数据ads.sav,ads.txt)显示了某企业的广 告投入和销售额之间的关系(万元)。
散点图
定量变量的图表示 直方图、盒形图、茎叶图和散点图
William Gates III United States Warren Buffett United States Carlos Slim Helu Mexico Ingvar Kamprad Sweden Lakshmi Mittal India Paul Allen United States Bernard Arnault France Prince Alwaleed Bin Talal Saudi Arabia Kenneth Thomson & family Canada Li Ka-shing Hong Kong Roman Abramovich Russia
点击Rich.sav 点击 - 直方图 SPSS选Graphs-legacy dialogs- histogram 直方图: 选 - 盒形图 SPSS中Graphs- legacy dialogs - boxplot 盒形图: 中 - 茎叶图:SPSS 选Analyze-Descriptive Statistics茎叶图: Explore,把变量 选入到Dependent List,再把 ,把变量Age 选入到 , Region 选入Factor List,然后OK 即可得到各个区 选入 ,然后 域富人年龄的茎叶图。 域富人年龄的茎叶图。 -散点图 SPSS中Graphs- legacy dialogs – 散点图: 散点图 中 scatter/dots-simple scatter
多元统计分析
讲授老师: 博士、 讲授老师 赵博娟 (博士、教授 博士 教授) e-mail: bojuan_zhao@tjufe.edu.cn 时间地点: 时间地点: 周四: 周四:15:10-16:40 (M-203) 周五: 上机) 周五:8:00-9:30 (单H213上机 单 上机
成绩:满分100 成绩:满分 - 期末考试 70% - 作业、出勤