第九讲资料的统计分析
资料的统计分析
<1>确定原始数据在总体分布中的位置;
<2>对不同分布的各原始数据进行比较。
4、双变量的统计分析
一、相关关系
事物之间的联系大致可以分为两类,一类是确定性关 系,变量之间存在着一一对应的关系,即函数关系;另 一类是不完全确定的关系,两个变量之间存在着相互依 赖、相互影响的关系,却不是严格的一一对应关系,称 为相关关系。相关关系反映的是变量之间是否存在联系 亦即联系的程度。确定性关系与相关关系之间往往无法 截然区分,一方面,由于测量误差等随机因素的影响, 确定性关系在现实中往往通过相关关系表现出来;另一 方面,当人们对客观事物的内部规律了解得更深刻时, 相关关系又有可能转化为确定性关系。
(D)折线图:是用直线连接直方图中条形顶端的中点而成的。 当组距逐渐减小时,折线将逐渐变为平滑,趋向为曲线。
(3)集中趋势分析
是从一组数据中抽象出的一个代表值,以代表现象 的共性和一般水平。除可以说明某一社会现象在一定条 件下数量的一般水平外;集中趋势还可以对不同空间的 同类现象或同一现象在不同时间的状态进行比较;以及 分析某些社会现象之间的依存关系。
对研究变量的不同特征遵循如下的分类方法:
(1)列联表
<1>定义:又称交互分类表,所谓交互分类,指同时依 据两个变量的值,将所研究的个案分类。交互分类的目 的是将两变量分组,然后比较个组的分布状况,以寻找 变量间的关系。这样的表又叫作条件次数表。表的最下 一行和最右一列分别是每类地区和每种产业的总次数, 称为边缘次数。其分布称为边缘分布。其余的次数称为 条件次数。每一条件下的分布称为条件分布。
四分互差的间距越小,说明中位数的代表性越大,数 据分布越集中。对于分组数据,求Q1与Q3的方法也可 以用线性插值法或直接用公式:
医学统计学 9第九讲 秩和检验
7
2.20 0.05 2.5 2.99 0.84
8
2.12 -0.03 -1 3.19 1.04
9
2.42 0.27
4
3.37 1.22 10
2.52 0.37
5
4.57 2.42 11
1. 建立假设 H0:差值总体中位数为0 H1:差值总体中位数不为0;
α=0.05 2. 计算统计量: T+=62.5,T-=3.5
B组:1
2
4.5 4.5 4.5
+
8.5
++
++
++
+++
+++
6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
秩和
A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5
(4)将秩次冠以正负号,计算正、负秩和(T+,T-); T++T- =n(n+1)/2
(5)用不为“0”的对子数n及T(取绝对值小的秩和作为统
计量T)查T界值表,得到P值作出判断。
编秩
A组: - 、、+、+、+、++ B组: +、++、++、++、+++、+++
第九讲 基于秩次的统计方法
两独立样本秩和检验基本思想
H0:样本来自两个相同总体 H1:样本来自两个不同总体 假定H0成立,合并两样本,将观测值由 小到大排列,编写秩号
表1 两独立样本秩和检验计算表
A 样本 B样本
观察值 7
14 22 36 40 48
秩号 4
6 10 11 13 14
观察值 3
5 6 10 17 18
4
4 -2 18 30 -4 8 10
3
3 1 11 12 3 6 8
11
12
40
49
32
57
-8
8 6
6
4.下结论
经计算得R=10,n=12,查附表得R0.05=14, R0.01=7,故R0.05>R>R0.01,故0.05>P>0.01, 在α=0.05水准上拒绝H0,接受H1,认为A、 B两种照射方式造成的急性皮肤损伤程度不 同,B照射的损伤程度比A照射严重。
上面A组和B组中各有五个原始值,按顺序排 列:最小值设为1,再按绝对值大小对余下的 变量逐个排序,最大值为两组变量个数之和 10。依次可得1,2,3.5,3.5,5,6,7,8,9,10。这 10 个序号即是秩次。A组秩和就是等于 3.5+5+8+9+10=39.5,B组秩和就是等于 1+2+3.5+6+7=19.5。从两组的原始变量值也 可以初步看出:A组偏大,B组偏小。现在得 出的秩和也是A组大于B组,与由变量值所观 察到的一致。
12480.5 1896 2254.5 777
合计
133
129
262
17045
17408
大学生的恋爱心理
1 何为恋爱
• 格林费尔德(S.M.Greenfield):爱情是一种可以 观察的关于两性之间(偶尔在同性之间)的关系, 包含特殊的态度和情感体验。 • 罗斌(Z.Rubin):爱是个人对另一个特定人物所 持的一种态度,他以特定的方式表达自己对爱慕 对象的思想、感情和行为。 • 婚姻家庭大辞典:爱情是存在于人类两性之间的 一种崇高的情感,是“人类男女间基于生命繁衍 的本能和确保身心最大快慰而产生的互相倾心和 追求的生理和社会的综合现象。
3 恋爱的特征
(1)恋人之间常有非语言的沟通。眉目传情 (2)恋人之间有美化对方、只见对方优点而不顾及其 他方面的倾向。 “情人眼里出西施” (3)恋人有力图完善自己与对方协调起来的倾向。 (4)恋人会在日常的一举一动里表达自己对对方的关 心。“一日不见如隔三秋”
(5)恋人常常戒备对方会被别人抢走,有独占对方的 欲望。
outiline
• 恋爱概述 • 大学生恋爱心理 • 培养恋爱能力
一、 恋爱概述
• L’代表Listen(倾听),爱就是要无条件无偏见 地倾听对方的需求,并给予自己最大的协助。 O’代表only(唯一),爱就是百分百的纯正,对唯 一的你所作出唯一的承诺。 V’代表Valued(尊重),爱就是展现你的尊重, 表达体贴,真诚的鼓励,悦耳的赞美,尊重他或 她的选择。 E' 代表Excuse(宽恕) ,爱就是仁慈的对待,宽 恕对方的缺点与错误,维持优点与长处,并帮助 他改正错误。
失恋
• 失恋只是一种选择的结果 • 在失恋中学习,在失恋中成长 • 失恋给人再恋爱的机会
失恋者的心理变迁
① 分手一天后,若我们相遇,我会看着你的眼睛,用泪 水告诉你,不愿意看你离去; ② 分手一周后,若我们相遇,我不知所措,直到你消失 在人群里,我才知道,又将度过一个哭泣的夜晚; ③ 分手一个月,若我们相遇,我会掉转眼光,装作没有 看见你,却在心中升起希望,希望听到你叫我的声音; ④ 分手一季了,若我们相遇,我会停下脚步,静静地站 在街角,不想被你的快乐看见我的哀伤;
九年级数学尖子生培优竞赛专题辅导第九讲 统计与概率(含答案)
第九讲统计与概率趣题引路】1991年1月美国人塞望(M.Savan)女士在《检阅》杂志上刊登了一则趣题,当时曾引来了从小学生到大学教授上万封来信讨论.题目是:主持人指着三扇关闭的门,说:“其中两扇门是空的,有一扇门里有1辆车,请你选一扇门,如果选中了有车的那一扇,就可开走这辆车.”同时问约翰:“你是否愿意重选另一扇未被打开的门?”请你帮助约翰出个主意.解折由概率理论应该换,若不换的话得到车的概率是12;若换的话得到车的概率是23.知识延伸】自从出现了人类社会,就不可避免地产生社会性的生产活动、经济活动、教育活动和军事活动,这些活动中处处都有数据存在,于是也就出现了各种统计工作,如人口统计、资源统计、经济统计等等.统计学是一门与数据密切相关的学问,研究如何搜集、整理、计算和分析数据,然后从中找出一些规律.众数、中位数、平均数都是从不同的侧面反映了一组数据的集中趋势;方差则是反映一组数据波动大小的量;频率分布表和频率分布直方图则是从数和形的角度反映了落在某一范围内数据的多少.在日常生活中概率也是应用最广的运算.如早晨去上学,要不要带雨具,就要根据“降水概率”的大小来决定;又如每个家庭除了日常生活开支之外,都要有点积蓄,因为对于一个有学前儿童的家庭来说,儿童从六岁起要进行九年义务教育,需要各种开支,这是必然事件;家庭成员在某种情况下可能会生病,这是随机事件.不管你是自觉的,还是不自觉的,概率都在我们的头脑中起作用.事件A的概率(Probab i l i ty)用P(A)来表示,有0≤P(A)≤1.若A是必然事件,则它的概率是1,即P(A)=1;若A是不可能事件,则它的概率是0,即P(A)=0.一般地,在大量重复进行同一试验时,如果事件A发生的频率总是接近于某个常数,这个常数就叫做事件A的概率,记为P(A).例1】在桌面上掷若干枚硬币,回答下列问题:(1)3枚硬币,第1枚出现正面,第2枚出现反面,第3枚出现正面的概率是多少?(2)3枚硬币,其中2枚出现正面,1枚出现反面的概率是多少?(3)3枚硬币,第1枚出现正面,第2枚出现反面,问第3枚出现正面的概率是多少?解析(1)设“依次掷3枚硬币,第1枚出现正面,第2枚出现反面,第3枚出现正面”这一事件为A,“第1枚出现正面”这一事件为A1,“第2枚出现反面”这一事件为A2,“第3枚出现正面”这一事件为A3,则事件A的发生过程包含三步:先发生事件A1,再发生事件A2,最后发生事件A3,P(A1)、P(A₂)、P(A3)都是12,所以P(A)=P(A1)×P(A₂)×P(A3)=1111=2228⨯⨯.(2) 因为掷3枚硬币从其正反面的情况来看共有8种可能:(正,正,正),(正,正,反),(正,反,正),(正,反,反),(反,正,正),(反,正,反),(反,反,正),(反,反,反).其中“2正1反”的情况共有3种,所以3枚硬币其中2枚出现正面,1枚出现反面的概率是3 8(3)因为第3枚出现正面还是反面与前两枚的结果无关,所以第3枚出现正面的概率仍为12. 点评】(1)中首先要求事件A 1出现,在这个条件下有事件A 2出现,然后再有事件A 3的出现,这三个事件全部先后发生才意味着事件A 出现,所以是相乘关系.(2)(3)两题.虽然3枚硬币的最终情况都是“2正1反”,但题(3)中,由于“第1枚出现正面第2枚出现反面”的前提已经存在,因此只要考虑“第3枚出现正面”的概率.例2】已知一组数x 1出现f 1次,x 2出现f 2次,…x k 出现f k 次,且I 2k f f f n +++=,求()()()1121k k f x x f x x f x x ++-++-的值.(x 是这n 个数的平均数).解析 ∵1122112212k k k kk f x f x f x f x f x f x x f f f n++++++==+++∴1122k k f x f x f x nx +++=∴()()()1122k k f x x f x x f x x -+-++-=()()112212k k k f x f x f x f f f x +++-+++=0nx nx -=点评】这是应用加权平均数公式,在推导过程注意灵活运用公式和法则.好题妙解】佳题新题品味例1】(1)五个数3,1,6,3,x 的平均数是4,求x ;(2)一组数据x 1,x 2,…,x n 的方差是a ,则x 1-2,x ₂-2,…,x n -2的方差是多少?(3)某射手在一次射击中,射中10环、9环、8环的概率分别是0.24,0.28,0.19,求这个射手在这次射击中:①射中10环或9环的概率;②不够8环的概率.解析(1)由题意知1(1336)45x ++++=,解得x =7;(2)设12,,,n x x x 的平均数为x ,则()()()222121n a x x x x x x n ⎡⎤=-+-++-⎣⎦.数122,2,,2n x x x ---的平均数为()()()()12121122222n n x x x x x x x n n ⎡⎤-+-+⋯+-=+++-=-⎣⎦,∴122,2,,2n x x x ---的方差=()()(){}2221212(2)]2(2)2(2)n x x x x x x n ⎡⎤---+---++---⎡⎡⎤⎣⎣⎦⎣⎦=()()()222121n x x x x x x a n ⎡⎤-+-++-=⎣⎦(3)①射中10环或9环的概率=0.24+028=0.52,②不够8环的概率=1-(Q .24+0.28+0.19)=0.29. 点评】弄清平均数,方差、概率的概念是解题的关键.例2】已知样本容量为30,样本频率分布直方图如图9-1,各小长方形的高之比为AE :BF :CG :DH =2:4:3:1.求:(1)第二组的频率; (2)第二小组的频数.图91数据解析(1)∵小长方形的面积表示相应范围的数据的频率如设AE =2x ,BF =4x ,CG =3x ,DH =x .小方形的底长为a ,故有从左到右四个范围内的数据频率之比为2xa :4xa :3xa :xa =2:4:3:1 ∴第二组的频率为40.41234=+++,第二组的频数为0.4×30=12.点评】(1)在频率分布直方图中小长方形的面积为频率.因而这样的小长方形面积之和为1;小长方形的高之比为频率之比.(2)要在给出数据和具体要求下会画频率分布直方图.例3】对某工厂生产的大批同类产品进行合格率检查,分别抽取5件、10件、60件、150件、600件、900件、1200件、1800件,检查结果如下表所示:求该厂产品的合格率 解析 从上表的数据可看到,当抽取件数(即重复试验次数)n 越大,“一件产品合格”事件发生的频率mn越接近n 常数0.9,所以“一件产品合格”的概率约为0.9,我们通常说该厂产品的合格率为90%. 点评】事件A 发生的频率接近某个常数这个常数就是事件A 的概率,反映了事件A 发生的可能性的大小.中考真题赏析例1】(福州市中考题)甲,乙两名学生进行射击练习,两人在相同条件下各射靶10次,将射击结果作统计分析如下:(1)请你填上表中乙同学的相关数据;(2)所学的统计学知识,利用上述某些数据评价甲、乙两人的射击水平.解析(1)均数是7,众数是7,方差是1.2;(2)根据甲、乙两学生的射击环数、平均数、众数、方差,用一种数据或多种数据进行合理评价. 点评】本题综合运用统计学知识来解决实际问题,因未说明从何种角度来考虑,所以这是一道开放性试题..例2】(江苏省徐州市中考题)为了了解高中学生的体能情况,对100名学生进行了引体向上次数测试,将所得的数据整理后,画出频率分布直方图如图9-2,图中从左到右依次为第1,2,3,4,5组. (1)第1组的频率为多少?频数为多少?(2)若次数在5次(含5次)以上为达标,求达标率; (3)这100个数据的众数和中位数一定落在第3组吗?图92解析(1):对于第一小组而言,频率组距=0.05,而组距为2, ∴频率=0.05×2=0.1, 又∵频数数据总数=0.1∴频数=0.1×100=10(人);(2)次数在5次或5次以上的频率为(0.175+0.125+0.05)×2=0.65,达标率为65%;(3)显然,次数出现最多的数不能确定在哪一组.故众数不一定在第三组.又因为引体向上次数由小到大排列,第一组有10个数据,第二组有25个数据,第三小组有35个数据,前三组共计有70个数据,.可以断定,中位数一定在第三组内点评】要真正弄清频率与频数的关系,再弄清频率分布直方图的意义和其中小长方形的意义.竞赛样题展示例1】(2001年河北省初中数学创新与知识应用竞赛题)已知数据x 1,x ₂,x 3的平均数为a ;y 1、y 2、y 3的平均数为b ,则数据2x 1+3y 1,2x 2+3y 2,2x 3+3y 3的平均数为.解析∵x 1,x ₂,x 3的平均数为a ,∴3a =x 1,x ₂,x 3, ∵y 1、y 2、y 3的平均数为b , ∴3b =y 1、y 2、y 3∴2x 1+3y 1,2x 2+3y 2,2x 3+3y 3的平均数()()()1122332323233x y x y x y x +++++==()()12312323233333x x x y y y a b+++++⨯+⨯===2a +3b .点评】弄清研究的对象,了解平均数的概念是关键例2】(第16届江苏省竞赛题)编号为1到25的25个弹珠被分放在两个篮子A 和B 中,15号弹珠在篮子A 中,把这个弹珠从篮子A 移至篮子B 中,这时篮子A 中的弹珠号码数的平均数等于原平均数加14,篮子B 中弹珠号码数的平均数也等于原平均数加14,问原来在篮子A 中有多少个弹珠? 解析设原来篮子A 中有弹珠x 个,则篮子B 中有弹珠(25-x )个,又设原来A 中弹珠号码数的平均数为a ,B 中弹珠号码数的平均数为b ,由题意,得 (25)122532515114(25)151264ax x b ax a x b x b x ⎧⎪+-=+++=⎪-⎪-=⎨-⎪-+⎪-=⎪-⎩①②③ 由②得,+59=4x a ④,由③得344x b +=⑤ 将④⑤代入①得1125(59)(34)(34)=325444x x x x x +-+++解得x =9.即原来篮子A 中有9个弹珠.点评】用字母分别表示篮子A 、B 弹珠数及相应的平均数,运用方程、方程组来求解.过关检测】A 级1.为了检查库存的500箱袜子的质量,从每箱的100双袜子中抽取2%进行检查,在这个问题中总体、个体、样本、样本容量分别是什么?2.数据a 、4、2、5、3的平均数是b ,且a 、b 是方程x ²-4x +3=0的两根,求a ,b 的值3.已知样本方差22221210116010S x x x ⎡⎤=+++-⎣⎦,则这个样本的平均数x =.4.下列事件中哪些是随机事件?哪些是必然事件? (1)在标准大气压下水在0℃时开始结成冰;(2)计划中“神舟8号”太空飞行器能进入预定轨道;(3)把10g 白糖放入1kg 纯净水中能够全部溶化.5.从生产的一批螺钉中抽取1000个进行质量检查,结果发现有5个是次品,那么从中任取1个是次品的概率约为多少?B 级1.已知样本甲为a 1,a 2,a 3方差为21S ;样本乙为b 1,b 2,b 3,方差为22S .若a 1-b 1=a 2-b 2=a 3-b 3,则21S 和22S 的大小关系是.2.为了从甲、乙、丙三名学生中选拔一人参加射击比赛,对他们的射击水平进行了测验,三人在相同的条件下各射靶10次,命中环数如下:甲 7 8 6 8 6 5 9 10 7 4, 乙 9 5 7 8 6 8 7 6 7 7, 丙 7 5 7 7 5 6 5 5 7 6. 问:应派谁去参加比赛?3.某个学生参加军训,进行打靶训练,必须射击10次,在第6、第7、第8和第9次射击中,分别得了9.0环,8.4环,8.1环,9.3环,他们前9次射击所得的平均环数高于前5次射击所得的平均环数,如果他要使10次射击的平均环数超过8.8环,那么他在第10次射击中至少要得多少环?(每次射击所得的环数都精确到 0.1环).4.一次抽奖活动中印发奖券1000张,其中一等奖20张,二等奖80张,三等奖200张,那么第一位抽奖者(仅买一张奖券)中奖的概率是多少?5.某电视台综艺节目接到热线电话3000个,现要从中抽取“幸运观众”10名,张华同学打通了一次热线电话,那么他成为“幸运观众”的概率为多少?6.小丽拟将1,2,3…,n这n个数输入电脑求其平均值,当她认为输完时,电脑上只显示输入(n-1)个数,且平均值为5357,假设这(n-1)个数输入无误,则漏输入的一个数是多少?。
第九章 资料的统计分析Ⅰ
(3)中位数(Median)
把一组数据按值的大小顺序排列起来,处于中央 位置的那个数值就叫中位数。 它描述的是定序变量以上层次的变量. 它的含义 是整个数据中有一半数值在它之上,另一半数值 在它之下。 公式为: Md=(n+1)÷2
中位数特点: 不受极端值的影响 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据,各变量值与中位数 的离差绝对值之和最小,即
第九章 资料的统计分析(Ⅰ) ——单变量分析
一、单变量描述统计 1、频数分布与频率分布 2、集中趋势分析 3、离散趋势分析
一、单变量描述统计
单变量统计分析可分为两大方面,即,描述 统计和推论统计。 描述统计的主要目的在于用最简单的概 括形式反映出大量数据资料所容纳的基本 信息。它的基本方法包括集中量数分析和 离散量数分析等。 推论统计的主要目的则是用从样本调查 中所得到的数据资料来推断总体的情况,主 要包括区间估计和假设检验等。
中位数 L n 2 cf m 1 i
f
m
L为中位数所在组的下限值. Cf(m -1)为中位数所在 组以上的累计频数,为fm为中位数所在组的频数,i 为中位数所在组的组距.(以表4为例)
对于组距分组数据: n / 2 cf( m 1) L i 中位数= fm
其中,L为中位数所在组的下限值, cf (m-1) 为中位数所在组以上的累计频数, fm为中位数所在组的频数, i为中位数所在组的组距 计算例3的中位数
②从单值分组资料计算平均数
首先要将每一个变量值乘以对应的频 数f,得出各组的数值 之和,然后将各组的 数值之和全部相加,最后除以单位总数. ∑Xf ∑Xf X= ∑f = n
例3:调查某年级150名学生的年龄得到下 列结果:
多元统计分析第九讲 潜变量测量与量表设计概要
尺度
• 一个变量的取值范围或取值类别的集合称 为“尺度”(Scale),给描述对象赋值的 过程称为“度量”(Scaling),度量既基 于理论又基于经验。
• 操作性描述就是在理论框架的基础上选择 合适的变量与尺度反映抽象概念。
概念度量面临的困难
• 操作性描述必须具有客观性,在给定条件 下要可以重复操作并能得出相同或相近的 结果。
• 要找到一种尺度去度量某个抽象概念往往 是困难的,很难找到合适的可测度变量充 分反映一个理论概念所包含的意思。操作 性描述永远不会是完全恰当的。(如诊病)
概念度量面临的困难
• 中医的把脉诊病之所以难以被西方现代医学所接受,原因 之一就是这种方法在西方人看来是神秘而复杂的,其他人 不能重复采用这种方法验证其结论。 • 西医用的体温计大家都会读,别人可以很容易地重复进行 精确测度,有一定的客观性。然而,这种精确的测度同样 有问题。问题在于体温计读数到底代表了什么,它是否真 的能度量一个人的健康状况。体温计能反映体温高低,体 温高意味着发烧,但人的体温在一天的不同时间是变化的, 况且,许多疾病是不发烧的,如心脏病、糖尿病、关节炎 等。所以,仅靠体温计的读数并不能精确反映人的健康状 况。
信度分析的基本原理
• 对量表的有效性(信度)进行研究
• 考虑的是量表测量某个概念条目的内部一 致性
• SPSS主要对量表的内在信度进行分析
Cronbach’s α系数
• 测量量表内部一致性: • (1)计算各评估项目的相关系数矩阵,并 计算相关系数的均值; • (2)计算Cronbach’s α系数,数学定义为:
第9讲 随访资料的统计分析2
ˆ a bX Y
79780907@
15
Department of Health Statistics, TMMU
一、线性回归模型
多元线性回归总体回归方程
Y 0 1 X 1 2 X 2 k X k
β0:常数项 (constant),当X 取值为0时相应Y 的均数。 β1 , β2, …,βk :偏回归系数(partial regression coefficient), 简称回归系数,表示在其它自变量 保持不变时, Xi 增加一个单位时所引起的Y 的平 均变化量。 ε:随机误差 ,去除了k个自变量对 Y 的影响后的随 机误差,也称残差。
79780907@
18
Department of Health Statistics, TMMU
二、线性回归的前提条件
79780907@
19
Department of Health Statistics, TMMU
三、线性回归方程的参数估计
参数估计的基本原则
5.5
X
新生儿脐带血TSH水平(mU/L)Y
6
Department of Health Statistics, TMMU
【例9-3】 27名糖尿病人的空腹血糖(FPG)、 血清总胆固 醇(TC)、甘油三脂(TG)、高密度脂蛋白(HDL_C)、低密度 脂蛋白(LDL_C)、空腹胰岛素(INSULIN)、糖化血红蛋白 (HbA1C)的测量值列于下表中,试用逐步回归方法分析血 糖与其它几项指标的关系 。
5.5
新生儿脐带血TSH水平(mU/L)Y
5.0
4.5
4.0
第九讲地统计分析方法
3
区域化变量
当一个变量呈现一定的空间分布时,称之为区 域化变量,它反映了区域内的某种特征或现象。 区域化变量与一般的随机变量不同之处在于, 一般的随机变量取值符合一定的概率分布,而 区域化变量根据区域内位置的不同而取不同的 值。而当区域化变量在区域内确定位置取值时, 表现为一般的随机变量,也就是说,它是与位 置有关的随机变量。 区域化变量具有两个显著特征:即随机性和结 构性。
基础知识
地统计(Geostatistics)又称地质统计,是在法国著 名统计学家 G. Matheron 大量理论研究的基础上 逐渐形成的一门新的统计学分支。它是以区域化 变量为基础,借助变异函数,研究既具有随机性 又具有结构性,或空间相关性和依赖性的自然现 象的一门科学。 凡是与空间数据的结构性和随机性,或空间相关性 和依赖性,或空间格局与变异有关的研究,并对 这些数据进行最优无偏内插估计,或模拟这些数 据的离散性、波动性时,皆可应用地统计学的理 论与方法。 地统计分析的核心就是通过对采样数据的分析、对 采样区地理特征的认识选择合适的空间内插方法 1 创建表面。
Z ( x) Z ( xu , xv , xw )
Cov[Z ( x), Z ( x h)] E[Z ( x)Z ( x h)] E[Z ( x)]E[Z ( x h)]
(4.2.2)
协方差函数的计算公式
1 N (h) c(h) [ Z ( xi ) Z ( xi )][Z ( xi h) Z ( xi h)](4.2.3) N (h) i 1
前提假设
随机过程 地统计学认为研究区域中的所有样本值都是随 机过程的结果,即所有样本值都不是相互独 立的,它们是遵循一定的内在规律的。因此 地统计学就是要揭示这种内在规律,并进行 预测。 正态分布 若不符合正态分布的假设,应对数据进行变换, 转为符合正态分布的形式,并尽量选取可逆 的变换形式。
第九讲 双变量的统计分析(相关分析)
注意:方向的分析只适用于定序以上层次的变量
(3)相关关系的对称性与非对称性
相关的两个变量,不一定有因果关系, 可能是共同变化。
(4)相关的类型
相关关系是一种数量关系上不很严格的相互依 存关系。 如果这种关系近似地表现为一条直线,就称为 直线相关,又称线性相关; 如果这个关系近似地表现为一条曲线,则称为 曲线相关,又称非线性相关。 虽然在自然界和社会生活中,曲线相关现象远 比直线相关更多,但由于数学手段上的局限性, 社会统计研究中多以阐述线性(直线)相关为 主。
y
m
y
My
nMy
(105 45) 150 0 215 120
2、tau-y
不对称测量法 系数值介于0-1之间 计算系数时包括了所有的边缘次数和条件次数 如果是不对称关系最好选用tau-y计算
计算过程:先求出E1和E2,计算消减误差的比例
E1 E2 tau y E1
公式:
(1)不对称形式:
y
m
y
My
My=Y变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数的次数 n=全部个案数 n-My=不知道x值的情况下预测Y值产生的误差 分子E1-E2=(n-My)-(n-∑my)= ∑my-My
nMy
例1:分析性别与理想志愿之间的关系
y
m
注意:
社会调查中各相关系数的值不可能达到1 相关系数只表示各变量间相关程度的指标,没 有数量的关系。
09.第九讲推断性统计分析评价方法--相关分析
第九讲推断性统计分析评价方法——相关分析相关分析的方法可以对两事物之间的关系从数量方面给予推断评价。
这种分析的方法主要通过计算相关系数来实现,此外还应用了检验的方法。
一、相关系数相关系数是反映两事物之间的联系方向和程度的一个量数。
通常用表示,它的取值范围限于1-γ。
1≤≤1.的正、负号可以反映相关的方向,当>0时表示正相关;当<0时表示负相关。
2.的大小可以反映相关的程度,但需要进行显著性检验。
=0表示毫无关系。
3.=+0.8与=-0.8表示相关程度是相等的,而相关方向是不同的。
4.值仅说明两事物是否存在联系,但并不能说明它们是否存在因果关系,两者不可混为一谈。
二、相关分析的具体方法根据不同的数据资料,有不同的相关分析方法。
可查附表三得到。
可查表四得到。
若可查附表三得到。
(四)检验(两事物均为类别数据)1.2×2的检验规则(均为二分型的类别数据)若则认为两事物关系不显著,否则关系显著2.检验规则(为两事物的分类数)若则认为两事物关系不显著,否则关系显著。
*注意计算值时,应先对应每一个计算相对应的,然后代入公式计算。
如下表的计算,这是对法律常识成绩与所属阶层的相关分析。
各阶层人员法律常识考试成绩表可算得∴认为法律常识成绩与所属阶层之间没有显著关系。
由检验所针对的类别数据以及所举的例子可知,它特别适用于非学业方面的相关分析。
下面为朱自清的散文欣赏,不需要的朋友可以下载后编辑删除!!!谢谢!!!荷塘月色作者: 朱自清这几天心里颇不宁静。
今晚在院子里坐着乘凉,忽然想起日日走过的荷塘,在这满月的光里,总该另有一番样子吧。
月亮渐渐地升高了,墙外马路上孩子们的欢笑,已经听不见了;妻在屋里拍着闰儿,迷迷糊糊地哼着眠歌。
我悄悄地披了大衫,带上门出去。
沿着荷塘,是一条曲折的小煤屑路。
这是一条幽僻的路;白天也少人走,夜晚更加寂寞。
荷塘四面,长着许多树,蓊蓊郁郁的。
路的一旁,是些杨柳,和一些不知道名字的树。
第9讲 大学统计学课件-抽样调查
总体方差(δ2)和总体标准差(δ)——测定全及总体标 志变异程度的指标
抽样指标 —— 根据抽样总体各个单位标志值计 算的综合 指标,与全及指标相对应
抽样平均数 (x)——抽样总体中某一变量 值(观测值)的算术平均数
抽样成数(p)——具有某种标志的单位数 在抽样总体 中所占的比重 样本方差 (s2) 和样本标准差 (s)—— 说明 抽样总体标志变异程度的指标
2.5 3.0 4.0 4.5 5.0
0.98760 0.99730 0.99940 0.99993 0.99999
例 6.3 某大学有 500 人进行高等数学统考,随机抽查 20% , 所得有关成绩数据如表。 试以95.45%的概率保证:
(1)估计全部学生的平均成绩;
(2)确定成绩在80分以上学生所占的比重和估计人数。
区间推断的可靠程度(置信度)
令 x t则 t x x
x
p
p
则
t 则 p t p
式中:t — 概率自由度(极限误差为平均误 差的倍数)
x t x X x t x
依据中心极限定律,当 n≥30,抽样平均指标近似服从 正态分布,全及指标所落范围就可以用曲线所围成的面积大 小来计算。
x
s n
x
p
s2 n (1 ) n N
p(1 p) n (1 ) n N
抽样成数 p 平均误差
p(1 p) n
应用条件
n 5% N
n 5% N
影响抽样误差的因素
全及总体标志变动程度 ——与抽样误差的大小成正比关系
样本单位数
——与抽样误差的大小成反比关系 抽样组织形式 ——抽样组织形式不同,抽样误差的大小不同
09第9讲第六章-方差分析第一节-方差分析的基本原理与步骤
SSt==-∑C nT i 7.4428.1520764378323352335356=-++++ SSe=SST-SSt=603.2-442.7=160.5 进而计算各部分方差:68.11047.4422==t s 7.10155.1602==e s二、F 分布与F 检验1.F 分布设想在一正态总体N (μ,σ2)中随机抽取样本含量为n 的样本k 个,将各样本观测值整理成表6-1的形式。
此时的各处理没有真实差异,各处理只是随机分的组。
因此,由上式算出的2t S 和2e S 都是误差方差2σ的估计量。
以2e S 为分母,2t S 为分子,求其比值。
统计学上把两个方差之比值称为F 值。
即 22/e t S S F =F 具有两个自由度:)1(,121-==-==n k df k df e t νν。
F 值所具有的概率分布称为F 分布。
F 分布密度曲线是随自由度df 1、df 2的变化而变化的一簇偏态曲线,其形态随着df 1、df 2的增大逐渐趋于对称,如下图所示。
F 分布的取值范围是(0,+∞),其平均值F μ=1。
用)(F f 表示F 分布的概率密度函数,则其分布函数)(αF F 为:⎰0=<=αααF dF F f F F P F F )()()(因而F 分布右尾从αF 到+∞的概率为:⎰+∞=-=≥αααFdF F f F F F F P )()(1)(附表F 值表列出的是不同1ν和2ν下,P (F ≥αF )=0.05和P (F ≥αF )=0.01时的F 值,即右尾概率α=0.05和α=0.01时的临界F 值,一般记作F 0.05,F 0.01。
如查F 值表,当v 1=3,v 2=18时,F 0.05=3.16,F 0.01=5.09,表示如以v 1=df t =3,v 2=df e =18在同一正态总体中连续抽样,则所得F 值大于3.16的仅为5%,而大于5.09的仅为1%。
2.F 测验F 值表是专门为检验2t S 代表的总体方差是否比2e S 代表的总体方差大而设计的。
第九讲MATLAB基本统计分析
fpdf
均匀分布
unifpdf
伽马分布
gampdf
Weibull分布
weibpdf
几何分布
geopdf
非中心F分布
ncfpdf
超几何分布
hygepdf
非中心T分布
nctpdf
对数正态分布
lognpdf
非中心卡方布
ncx2pdf
如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat 就得到相应 的随机变量的分布函数、分位数、随机数的生成以及均值与方差.
例1 已知 X ~ N(2,0.52 ) 试求:P{X 3}, P{1 X 2} 解:normcdf(3,2,0.5)= 0.9772;
normcdf(2,2,0.5)- normcdf(1,2,0.5)= 0.4772
2. 做出密度函数曲线、求分位数
已知X的均值和标准差及概率p=P{X<x},求x的命令为:
N 600,196.6292
正态分布的检验: 1.大样本
h=jbtest(x), h=0,接受正态分布,h=1拒绝正态分布 2.小样本
h=lillietest(x),
h=0,接受正态分布,h=1拒绝正态分布
作业: 1.根据下表计算七项指标的均值、方差、偏度与峰度
全国 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 湖南
1.数据的下、上截断点
计算上、下截断点的公式如下:
Q1 1.5R , Q3 1.5R
其中,R为四分位极差,Q1 ,Q3 分别称为下四分位数与 上四分位数 .
对于0≤p<1,和样本容量为n的样本 X1, X2 ,..., Xn其 次序统计量记为: X(1) , X(2) , ..., X(n) 于是计算样本的P分位数的公式为:
第九章调查资料的统计分析
80—90 90—100 100—110 110—120 120—130 合计
工人数 绝对数 比重(%) 30 16.7 40 22.2 60 33.3 30 16.7 20 11.1 180 100
累积频数(频率)分布
表 3. 某年级学生的年龄分布
年龄 17 18 19 20 21 22 合计 人数(频数) 10 25 50 40 20 5 150 累计频数↓ 10 35 85 125 145 150 累计频数↑ 150 140 115 65 25 5
数据资料整理的一般程序包括数字资 料检验、分组、汇总和制作统计表或统 计图几个阶段。
1.检验
检验,主要是对数字资料的完整性和正 确性进行检验,以确保更加准确的研究结果。 完整性的检查主要包括两个方面,一是 检查各个应当填报的表格是否齐全,是否已 经被合乎要求地填写;二是检查各表内容填 写是否完整,是否有缺报或者漏填的内容。 数字资料正确性的检验,主要是看资料 是否符合实际和计算是否正确。
表1.
学 中学 高中 中专 大专 大学 硕士 博士 Missing Total 历 小学以下
97年统计学历分布
人 1 72 44 13 52 58 4 7 49 300 数
2.频率分布
频率分布(percentages distribution) 频率分布是一组数据中不同组的频数 相对于总数的比率分布情况.这种比率在社 会调查中经常是以百分比的形式来表达. 频率分布表是不同类别在总体中的相 对数量分布. 十分方便于不同总体与不同 类别之间的比较.因此这种分布表的应用更 为普遍.
表 4. 某企业百名职工收入分布
收入(元) 100-199 200-299 300-399 400-499 500-599 合计 职工数(人) 10 10 40 20 20 100 组中值 150 250 350 450 550 X 1 500 2 500 14 000 9 000 11 000 38 000
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主讲教师:王怀明 山东大学管理学院人力资源研究所
本讲主要内容
一、单变量统计分析 二、双变量统计分析
一、单变量统计分析
1. 单变量描述统计 描述统计的目的在于用最简单的概括形式反映大 量数据资料所容纳的基本信息,包括集中量数分 析和离散量数分析。
(1)频数分布与频率分布
频数分布:一组数据中取值不同的个案的次数分布情况, 它一般以频数分布表的形式表示。(P170) 频数分布表的作用: 第一、简化资料 第二、从频数分布表中,可以更清楚地了解调查数据的众 多信息
频率分布
一组数据种不同取值的频数相对于总数的比率分 布情况,常以百分比的形式表示。(P170) 频数分布表示不同类别在总体中的绝对数量分布, 频率分布表是不同类别在总体中的相对数量分布。
(2)集中趋势分析
集中量数分析是用一个典型值或代表值来反映一 组数据的一般水平,或反映这组数据向这个典型 值的集中情况。
工资收入
文化水平
ห้องสมุดไป่ตู้
大专以上 中学 小学及以下
合计
高
58
7
3
10
中
31
73
19
50
低
11
20
78
40
(%) 总计
(n)
100
100
100
(45) (275) (180)
100 (500)
交互列联表的形式要求
每个表的顶端要有标号和标题 表格中的线条一定要规范,简洁,最好不用竖线 表中百分比号的处理方法 在表的下端用括号标出每一纵览所对应的频数, 以指出每一栏百分比所具有的基础 将自变量放在上层,将因变量放在左侧,表中百 分比方向一般按自变量的方向 交互分类的两个变量的变量值应有所限制
表3 500名工人的工资分布表
工资收入
人数
百分比
高
50
10
中
250
50
低
200
40
总计
500
100
表4 500名员工文化水平与工资收入交互分类表
工资收入
文化水平
大专以上 中学 小学及以下
合计
高
26
18
6
50
中
14
202
34
250
低
5
55
140
200
总计
45
275
180
500
表5 500名员工文化水平与工资收入交互分类表(%)
3. 2检验
交互分类表既可以对样本的分布情况和内在结构 进行描述,也可以进行分组比较以及对变量之间 的关系进行解释。但这种结论只在所调查的样本 范围内成立,我们研究的目的不仅仅是描述和说 明样本的情况,更重要的是要通过样本的情况来 反映和说明总体的情况,要保证从样本中得出的 结果具有统计意义,保证样本中所体现的变量间 的关系也反映了总体的情况。必须对样本数据进 行2检验。
相关关系
(1)相关关系的概念:当一个变量发生变化时,另一个变量也随之发 生变化。相关关系分析只适合定序以上变量间关系分析。 (2)相关关系的方向:分为正相关关系和负相关关系。 (3)相关关系的强度:两个变量之间相关关系的强弱或大小,用相关 系数来表示。 (4)相关关系的类型:线性相关和非线性相关 (5)相关关系与散点图。
离散系数
标准差与平均数的比值,用百分比表示。
S
CV
X
2. 单变量推论统计
推论统计指用样本的统计值对总体参数进行估计的方法。 推论统计的内容有两个:一是区间估计,二是假设检验。 区间估计指在一定的可信度下,用样本统计值的某个范 围来估计总体的参数值。范围的大小反映的是这种估计的 精确度,可信度的高低反映的是这种估计的可靠性或把握 性。
常见的集中量数有算术平均数、众数和中位数三 种
算术平均数:总体各单位数值之和除以总体单位
数目之商。统计学中习惯以 X 表示。
X
∑x
n
X
∑xf
n
众数:一组数据中出现次数最多的数值 中位数:把一组数据按值大小顺序排列起来,处 于中央位置的那个数值。
(2)离散变量的分析
离散变量指用一个特别的数值来反映一组数据之 间的离散程度 例1:某校三个系各选5名同学,参加智力竞赛, 他们的成绩分别如下: 中文系:78 79 80 81 82 X=80 S=1.414 数学系:65 72 80 88 95 X=80 S=10.8 英语系:35 78 89 98 100 X=80 S=23.8
(1)总体均值的区间估计
(2)假设检验
假设检验是先对总体的某一参数作出假设,然后 用样本的统计量去进行验证,以决定假设是否为 总体所接受。。
假设检验所依据的是概率论中的小概率原理,即 “小概率事件在一次观察中是不可能出现的” 原 理。
研究者将原假设作为虚无假设,将与之相对立的 假设作为研究假设,然后用样本的数据计算统计 量,并与临界值相比较,当临界值大于统计值的 绝对值时,接受虚无假设,拒绝研究假设,否则, 接受研究假设。
因果关系分析
(1)当一个变量发生变化时,会引起或导致另一个变量 也随之发生变化。前一变量叫做自变量,后一变量叫做因 变量。 (2)因果关系的条件 变量X和变量Y之间存在不对称关系 变量X和变量Y在发生的顺序上有先后之别 变量X和变量Y的关系不是同源于第三变量的影响
2。交互分类
交互分类(cross-tabulation)是一种专门分析两 个定类变量(或一个定类变量,一个定序变量) 之间关系的方法。将调查所得的一组数据按照两 个不同的变量进行综合的分类,交互分类的结果 通常以交互列联表的形式反映出来
假设检验的步骤
建立虚无假设和研究假设 根据需要选择适当的显著性水平 ,通常选 =0.05和 =0.01两个水平; 根据样本数据计算出统计值,并根据显著性水平 查出对应的临界值; 将临界值与统计值比较,若统计值的绝对值小于 临界值,则接受虚无假设,否则,接受研究假设。
二、双变量统计分析
1、变量间关系
交互分类表的作用
(1)可以较为深入地描述样本资料的分布状况和 内在结构。
表1 人们对某项政策的态度(%)
赞成
反对
不表态
调查人数
45
45
10
n=2000
交互分类表的作用
表2 不同性别的人对某项政策的态度统计表(%)
态度
男
女
赞成
85
5
反对
10
80
不表态
5
15
交互分类表的作用
(2)通过分组比较可以对变量之间的关系进行分析和解 释
离散变量
常见的离散变量统计量有:全距、标准差、异众 比率、四分位差。 标准差:一组数据对其平均数的偏差平方和的算 术平均数的平方根。
异众比率
一组数据中非众数的次数相对于总体全部单位的 的比率。
VR
n — fmo
n
四分位差
将一组数据按大小排列,然后将其4等分,去掉 序列中最高的1/4和最低的1/4,中间的一半数值之 间的全距。