统计分析培训 ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

编号
日均能量摄入(kJ)
观察单位相同时两个样本计数比较的统计分析
两个样本计数比较的目的是其所代表的总体计数相同, 即:1 = 2 或 1 - 2 = 0 (无效假设)
两个样本计数之差的均数和方差
– 均数:X1 - X2 – 方差:S2(X1-X2)=X1+X2
利用可信区间(两个样本计数均大于20即可) 利用假设检验
二项分布数据当N很大X0很小(比例很低)时X的概率 分布
例:沪闵高架1天中发生的交通事故数(注:交通事故
发生的时间可以短至1秒)。 一个参数(对于样本X0)。
PX X e
X!
Notation:X~P()。
练习:长期统计数据显示:沪闵高架一天发生交通事 故5起,问今天发生0,1,2,3,4,5起交通事故的概率?最 多(至少)发生3起的概率?
缩减后的两个样本计数之差的均数和方差
– 均数:X1’ - X2’ – 方差:S2(X1’-X2’)=X1/n12+X2/n22
利用可信区间(两个样本计数均大于20即可) 利用假设检验
– 正态近似法
演习:沪闵高架20周发生交通事故300起,南北高架10周发生交 通事故200起,问两条高架一周发生交通事故数是否相同?
– 当(样本为X0)大于50时,如将大观察单位缩减为1/n的小 观察单位,转换后的样本计数X’服从均数为/n (样本为 X0/n),方差为/n2(样本为X0/n2)的正态分布
Poisson分布资料总体计数的统计推断
点估计
– X0 – 沪闵高架某天发生交通事故6起
区间估计
– 查表法(基于Poisson分布的确切概率) – 正态近似法
组1

a
女组R c
合计合计 n+1
n11 b
nR1 d n+1 n+2
n1n+ ij n2+ n
n1C
n1+
nRC
nR+
n+C
n
2分布
一个标准正态变量X的平方服从自由度为1的2分布
k标准正态变量X1,X2,…,Xk的平方和服从自由度为k 的2分布
G(G2)组间Q(Q2)分类水平百分构成或率的比 较,在组间总体率或总体百分构成相同的无效假设前 提下:
0 2 4 6 8 10 12 14 16 18
100人中B型血人数X的概率分布图
举例:二项分布近似正态分布示意图
总体百分构成或总体率的统计推断
点估计
– p 百分构成或率:p = X0/N – 常规疗法治疗流行性出血热病人50例,死亡8例,病死率为16%
区间估计
– 查表法(基于二项分布的确切概率) – 正态近似法
行列表的关联性分析
对于双向无序行列表
– 检验统计量的计算方法相同
X2
OE2 ~
E
2
G1Q 1
– 假设不同(与前相比): H0:行变量与列变量间无关联性; H1:行变量与列变量间有关联性
对于单向有序行列表
– 行或列平均分差异检验或等级资料的秩和检验
对于双向有序行列表
– 等级相关分析
非参数统计分析方法 -秩和检验法
分布(不用考虑分布中的均数、标准差等参数) 在两组或多组比较时,无需考虑方差是否齐性 相对于t检验、方差分析等参数方法,统计效
率较低(不能够充分利用数据信息)但稳健性 好(极端值的作用较小)
单样本分析One sample analysis
日均能量摄入参考值 7725kJ
11名健康妇女10天日均能量摄入(kJ)
t检验、方差分析的应用条件
要求数据服从正态分布,两样本或多个样本比 较时还要求方差齐性。
当不满足上述条件时,
– 转换数据-对数转换法、平方根转换法、反正弦转 换法等使转换后数据满足正态性和方差齐性
– 秩和检验法
秩和检验
用于计量/分类等级资料统计推断的一组方法 非参数方法-不要求数据服从正态甚至是任何
利用假设检验推断样本(样本率为p)是否来自于一已知总体 (总体率为0)
– 基本步骤 1、建立无效假设和备择假设H0: = 0; H1: 0 2、确定检验水准 = 0.05 3、在无效假设的前提下直接计算概率或利用正态近似法计算检 验统计量后找到p值 a、确切概率法 b、正态近似法 4、根据概率或p值作出推断
演习:沪闵高架上个月发生交通事故60起,沪闵高架一个月 发生交通事故数?
利用可信区间推断样本是否来自于一已知总体
– 查表法 – 正态近似法
演习:长期观察可知沪闵高架一个月发生交通事故50起,上 个月发生60起,问上个月交通事故发生数是否多于往常?
Poisson分布资料总体计数的统计推断
利用假设检验推断样本(样本计数为X0)是否来自于一已知 总体(总体计数为)
分类数据的组间比较 -2检验
分类数据的表现形式
频数表及交叉频数表cross-tabulation
所关心事件发生百分构成或发生率的组间比较
四格表-二分类数据的两组间比较
行列表(RC表、列联表)
分类水平的有序还是无序(对于水平数3的分类变量 有意义)
近视眼 水非平近1 视眼 合计
水平C
合计
– 当N>40且理论频数O均>5时,可直接应用;
– 当N>40但有理论频数1<O<5时,需进行连续性校正(称
Yates校正)
XY 2at es
OE0.52 ~
E
2 1
– 当N40,或有理论频数O<1时,只能用Fisher确切概率法 直接计算概率
注意:无论样本大小,均可用Fisher确切概率法进行 假设检验来自配对设计两样本率的比较
配对设计:针对可能影响研究结果的因素将研究对象 配对后,将每个对子的研究对象随机分配至不同处理 组,如同窝别小鼠、同性别病人、同一人的左右手。
数据结构-配对四格表
Yes
Yes
a
No
c
合计
n+1
No 合计
B法+
b
n1+
A法+
56
d
n2+
A法-
21
n+2
n
合计
77
B法+ 35 28 63
– 正态近似法
演习:沪闵高架一周发生交通事故30起,南北高架一 周发生交通事故40起,问两条高架一周发生交通事故 数是否相同?
观察单位不同时两个样本计数比较的统计分析
观察单位不同时,需要先缩减成为观察单位相同的两个样本计数, 如果第一个样本的缩减倍率为1/n1,第二个样本的缩减倍率为 1/n2,则缩减后的第一个样本计数X1’=X1/n1,第二个样本计数 X2’=X2/n2,这时比较的目的是缩减后的样本所代表的总体计数 相同,即:1’ = 2’ 或 1’ - 2’ = 0 (无效假设)
182
O-E 11.34 -11.34 -11.34 11.34
0
死亡 37 46 83
合计 106 76 182
(O-E)2/E 2.230 2.660 3.111 3.710
X2=11.711
四格表资料2检验的应用条件
四格表资料2检验是利用连续型的2分布应用于分类 资料,当样本含量较小时,不能直接应用
虽然观察单位不是Poisson分布的参数,但Poisson 分布资料的统计分析一定要注意单位的转换
– Poisson分布资料的可加性 – 观察单位的不可扩展性但可缩减性:大观察单位可转换为小
观察单位但反之不可
Poisson分布的正态近似
– 当(样本为X0)大于50时,样本计数X近似服从均数和方差 均为 (样本为X0)的正态分布。
Poisson分布的性质及其集中趋势和离散趋势
Poisson分布资料的性质
– 平稳性:样本计数大小只与观察单位的大小有关 – 独立性:各所关心事件的发生与否互不相关 – 普通性:所关心事件离散发生,无聚集性
Poisson分布的均数
– 样本计数:X0
Poisson分布的方差
– 样本计数:X0
Poisson分布的单位问题及正态近似
二项分布 N人中B型血人数X的概率分布
0.5
0.08
0.4
0.3
0.2
0.1
0 0 1 2 3 4 5 6 7 89
10人中B型血人数X的概率分布图
1.60E-01 1.40E-01
0.08
1.20E-01
1.00E-01
8.00E-02
6.00E-02
4.00E-02
2.00E-02
0.00E+00
演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村 民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否 高于一般?
两个样本百分构成或两个样本率比较的统计分析
两个率比较的目的是其所代表的总体率相同,即:1 = 2 或 1 - 2 = 0 (无效假设)
两个样本率之差的均数和方差
– 均数:p1 - p2 – 方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2)
利用可信区间 利用假设检验
– 正态近似法 – 2检验法
演习:随机抽查A乡村民100人,发现感染血吸虫者21 人,随机抽查B乡村民100人,发现感染血吸虫者15人, 问AB两乡血吸虫感染率是否相同?
Poisson分布资料的统计分析
Poisson分布
单位时间、面积、空间内所关心事件发生数的概率分 布
行列表又称RC表、列联表 2 C表 C有序
分析前要考虑的问题:
R C表 双向无序
1. 水平数 2. 水平之间是否有序 3. 要回答问题的性质
R C表 单向有序 R C表 双向有序
成组设计多个样本率或百分构成的比较
检验统计量的计算方法相同 X2 多组间所关心事件发生率的比较
OE2~
E
a+c
Column2 b d
b+d
Total a+b c+d N
成组设计两样本率的比较
假设检验的步骤
存活
– 建立无效假设和备择假设 单纯 69
– 确立检验水准 – 计算检验统计量 – 作出统计推断
联合 30 合计 99
观测频数O a=69 b=37 c=30 d=46
Total=182
理论频数E E(a)=57.66 E(b)=48.34 E(c)=41.34 E(d)=34.66
X2
OE2 ~
E
2
G1Q 1
成组设计两样本率的比较
当G=2,Q=2时(四格表资料),在两组所关心事件发 生率相同的无效假设前提下:
X2
OE2
E
~12
(无效假设前提下)理论频数(如第一个格子)的计 算: E(a)=(a+b)(a+c)/N
Row1 Row2 Total
Column1 a c
演习:随机抽查某乡村民100人,发现感染血吸虫者21人,该 乡血吸虫感染率?
利用可信区间推断样本是否来自于一已知总体
– 查表法 – 正态近似法
演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村 民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否 高于一般?
总体百分构成或总体率的统计推断
– 基本步骤 1、建立无效假设和备择假设H0:0 = ; H1: 0 2、确定检验水准 = 0.05 3、在无效假设的前提下直接计算概率或利用正态近似法计算检 验统计量后找到p值 a、确切概率法 b、正态近似法 4、根据概率或p值作出推断
演习:长期观察可知沪闵高架一个月发生交通事故50起,上 个月发生60起,问上个月交通事故发生数是否多于往常?
2
G1Q 1
– 假设不同(与四格表资料的2检验相比): H0:各组所关心事件的发生率相同; H1:各组所关心事件的发生率不全相同
两组间观察指标各水平百分构成的比较
– 假设 H0:两组间观察指标各水平的百分构成相同; H1:两组间观察指标各水平的百分构成不同
2检验的适用条件
理论频数:80%的格子>5和100%的格子>1。
合计 91 49 140
当b+c>40时,
X2
bc2
bc
~12
行列表的分析
生存 水平死1亡 合计
水平Q
合计
组组11 a n11 b
组2 c
d
合组计G n+1 nG1n+2
合计
n+1
n1+ n2+nij
n
n1C
n1+
n变G量Q 1的水平数nQ+变量2的水平数 2n+Q 2表 (四格n 表)
2 C表 C无序
统计分析培训 ppt课件
二项分布资料的统计分析
二项分布 Binomial Distribution
二分类变量:有且只有两种结果的变量,如性别、死 亡生存、复发未复发,一般用0和1表示其结果
Bernouli试验:具有两值结果的一次试验。条件:1、 互斥的有且只有两种结果;2、独立性;3、每次关心 结果的发生概率不变。
二项分布:进行的N次Bernouli试验中,所关心结果 按不变概率发生0、1、2、…、N-1、N次的概率分
布 P X N X X1 N X, N X X !N N !X !
练习:4张牌里有一张A,放回抽样抽5次,抽到 0,1,2,3,4张A的概率是多少?至少抽到2张A的概率?
相关文档
最新文档