统计学重点——精选推荐
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学重点
第⼀章绪论
1.(1)统计学(Statistics):是关于数据(data)的学问,是从数据中提取信息、知识的⼀门科学与艺术,包括研究设计、数据搜集、数据整理、数据分析和结果报告等步骤。
(2)医学统计学(Medical statistics):是研究医学和⽣物学中数据的设计、收集、整理与分析推断的⼀门学科。
(3)同质与变异(homogeneity and variation):在科学研究中,除了直接关注的研究因素外,其他⾮研究因素(如性别、年龄)也会影响研究结果,为了突出研究因素的作⽤,需要使各⽐较组之间的⾮研究因素尽可能相同,即同质。
即使⾮研究因素控制在相同条件下,个体的观察值之间也会有所不同(如双胞胎的性格、⾝⾼、体重等),这种在同质基础上个体之间的差异称为变异。
变异是统计学研究的基础,没有变异就⽆需统计学,统计学正是处理数据变异的科学。
(4)总体与样本(population and sample):总体(population):根据研究的⽬的所划定范围内的同质的个体构成的全体。
样本(sample):总体中随机抽取的⼀部分。
样本要具有:代表性、随机性和可靠性。
(5)误差的种类:
1、随机误差(random error):随机误差是由不确定原因引起的,不可避免和消除。
其偏离总体的⽅向不能确定。
包括随机测量误差和抽样误差。
随机测量误差:没有固定的倾向,可使多次观测结果有⼤有⼩。
抽样误差:由于抽样造成的样本指标与总体指标之间的差别。
2、系统误差:是由于偏倚(使研究结果按照⼀个⽅向偏离总体)产⽣的错误结果,
可校正和消除。
3、过失误差(gross error)是由于科研设计错误,或实验者的主观⽚⾯、粗⼼⼤意
引起的误差。
必须避免和剔除!
(6)概率与频率:概率是度量随机事件A发⽣可能性⼤⼩的⼀个数量. 记为P(A)。
(描述总体的特征)
频率(relative frequency) 若在n次同样的随机试验, 事件A发⽣了k
次, 则⽐值k/n 称为频率。
(描述样本的特征)
(7)参数与统计量:参数(parameter)是根据总体分布的特征⽽计算的总体指标。
⼀
般⽤⼩写的希腊字母表⽰总体参数。
统计量(statistical variable):由总体中随机抽取样本⽽计算的相
应指标,⼀般⽤拉丁字母代表。
2.统计⼯作的步骤
1.统计设计: 根据研究的⽬的,从统计学的⾓度对各步提前做出的周密的计划和安排。
设计:调查设计、实验设计、临床试验设计(药物等)
原则:对照、重复、随机、盲法
2.收集资料:根据研究⽬的实验设计的要求收集准确的完整的充满信息的原始资料。
资料来源:(1)经常性资料:原始记录、专门报告卡、统计报表
⽬前数据管理⼀般采⽤统计软件,如:Epi Data、SPSS、SAS。
4.分析资料(Analysis of data)就是将经过统计整理的结果,作⼀系列统计描述和统计推断,阐明事物的规律性。
采⽤统计分析软件,如:SAS、SPSS、STATA。
2.资料类型(types of data)
1.类型
1.数值变量:计量资料
2.分类变量:(1)计数资料:⼆分类变量、⽆序多分类变量;(2)等级资料:有序分
类变量
2.概念
1.计量资料:对每个观察单位⽤定量⽅法测定某项指标的数值⼤⼩所得的资料。
特点:
有计量单位
2.计数资料:按性质或类别进⾏分组,然后再清点各组数⽬所得的资料。
特点:⽆固有计
量单位
3.等级资料:将观察单位按某项指标的等级顺序分组,再清点各组观察单位的个数所得的资料。
特点:半定性或半定量的观察结果。
第⼆章统计描述
统计分析:(1)、统计描述:⽤统计指标、统计图、表对资料的数量特征及分布规律进⾏测定和描述;
(2)、统计推断:⽤样本信息推断总体特征:①参数估计,②假设检验;
(3)多因素分析:多重线性回归、logistic回归、Cox模型、对数线性模型等
1、统计资料的类型
变量类型变量值表现实例资料类
型
数值变量定量(具体数值)⾝⾼(cm)计量资
料
分类变量⽆
序
⼆分
类
对⽴的两类属性性别(男,⼥)计数资
料多分
类
不相容的多类属性⾎型(A,B,O,AB)
有
序
类间有程度差异的属性⽂化程度(初中、⾼中、⼤
学...)
等级资料
2、统计描述
1.定量资料:通过度量衡的⽅法,测量每个观察单位的某项研究指标的量的⼤⼩所得的⼀
系列数据资料
特点:1、有度量衡单位(通过测量得到);1、多为连续性资料(可在某⼀区
间取任何值)
2.(1)、定量资料的频率(频数分布)表:频率表和频率直⽅图;频率分布的两个特征;
频率表的⽤途
1)计算全距R:⼀组资料(数据)的最⼤值与最⼩值之差
2)确定组段数与组距:根据样本数多少,选择适当的组段数。
3)确定组段的上、下限
PS1、:频率直⽅图:每⼀直条的⾯积就是相应各组段的频率,所有组段的频率之和就是相应各直条的⾯积之和,整个直⽅图⾯积之和为1。
2、矩形⾯积=长(纵坐标)×宽(横坐标)=频率密度 ×组距 =频率 / 组距×组距=频率
(2)、定量资料的统计描述指标:集中趋势的描述;离散程度的描述
1)对称分布:频率分布中间⾼,两端低有⼀个对称轴,左右对称⽤两个参数描述。
平均⽔平:均数,变异程度:标准差2)偏态分布:频数分布⾼的偏向⼀端没有⼀个对称轴⽤两个参数描述。
平均⽔平:中位数,变异程度:四分位数间距、 3)集中趋势的描述:算术均数 (简称均数)、⼏何均数、中位数
算术均数⼏何均数中位数符号
G
M
含义
各观察值相加除以观察值的个数所得之商
N 各观察值的乘积开n 次⽅所得之根⼀组观察值按顺序排列,居中者
应⽤条件正态或近似正态分布右偏态或对数正态分布偏态或分布类型未知的资料计算公式
说明
加权法计算中X 值的含义,组中值=(上限+下限)/2
不能有0和负值的数据中位数为百分位数的特例
4)离散趋势的描述:全距(极差)R 、四分位数间距Q 、⽅差、标准差SD 、变异系数CV
1、⽅差:总体⽅差样本⽅差
2、标准差:
3、变异系数:是标准差与均数之⽐
5)应⽤:1、正态分布: 均数、标准差;2、偏态分布: 中位数、四分位数间距
fX X ∑=
=∑-n X G lg lg 1)2
1
(
+=n X
M 2
/][)12
()2
(++=n n X
X
M ()N X i ∑
-=22µσ(
)
12
2--=∑n X X S i 2σσ=(
)
N X i
∑-=
22µσ()N X i ∑
-=2µσ%100?=X S
CV
第三章统计表与统计图
1、统计表:⽤数据代替⽂字描述,便于统计结果的精确、简洁的表达和对⽐分析
(1)组成:①标题、②标⽬、③线条、④数字、⑤备注
(2)分类:简单表、复合表
(3)编制原则:①重点突出,简洁明了。
在⼀张表中只包含⼀个主题,使⼈⼀⽬了然,不要试图在⼀张表中概括多个主题。
②主谓分明,层次清楚。
主语和谓语的位置准确,标⽬的安排及其进⼀步的细分符合专业考虑。
③数据准确、可靠,⽂字和线条尽量从简。
2、统计图:⽤图形代替数据,获得直观、形象的效果
(1)种类:1.(直)条图;2.百分条图;3.饼(圆)图;4.线图;5.半对数线图;6.箱(式)图;7.散点图;8.直⽅图;9.统计地图
题
的要求⼀样,要能够概括图的内容。
3.直条图与直⽅图纵坐标要求从“0”开始。
4.⽐较不同事物时⽤不同的线条和颜⾊来表⽰,并附上图例。
5.直条图、线图、半对数线图和直⽅图的纵、横坐标上要有刻度和单位,
刻度要均匀等距(半对数线图的纵坐标除外)。
纵横周长度之⽐为5∶7较
合适,⽐例太⼤或太⼩都是不合适的。
图形适⽤资料实施⽅法
条图组间数量对⽐⽤直条⾼度表⽰数量⼤⼩
直⽅图定量资料的分布⽤直条的⾯积表⽰各组段的频数或频率
百分条图构成⽐⽤直条分段的长度表⽰全体中各部分的构成⽐
圆图构成⽐⽤圆饼的扇形⾯积表⽰全体中各部分的构成⽐
线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系
半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表⽰两现象间的相关关系箱式图定量资料取值范围⽤箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布⽤茎表⽰组段的设置情形,叶⽚为个体值,叶长为频数
第四章概率分布
1、概念:概率分布:描述随机变量值xi 及这些值对应概率P(X=xi)的表格、公式或图形。
连续型随机变量概率分布:正态分布;
离散型随机变量概率分布:⼆项分布、Poisson 分布
2、正态分布:有两个参数,即①均数µ 和②标准差σ,把服从正态分布的变量表⽰为: X~N(µ,σ2) 1)服从正态分布的变量X 的概率密度函数f (x)为
2)1.X 取值落在区间(-∞, x )内的累积概率为概率密度曲线下位于(-∞, x )的图形⾯积,等于其概率密度函数f (x)在-∞到 x 上的积分,记作F (x )
2.为正态分布的分布函数。
其值表⽰变量X 落在区间(-∞, x )内的概率,对应于从-∞到x 概率密度曲线下的阴影⾯积(常称为左侧尾部⾯积)
3.利⽤分布函数F (x )可以计算正态分布变量取值在任意区间 [a, b )的概率为 P (a ≤X <b)=F (b) -F (a) (其⼏何意义如图2中阴影部分所⽰)。
3) 服从正态分布的随机变量在⼀区间上曲线下的⾯积与该随机变量在同⼀区间内取值的概率相等。
正态曲线与横轴所夹⾯积为1 4)正态曲线与横轴所夹的⾯积为1。
位于(µ-1.64/1.96/2.58σ, µ+1.64/1.96/2.58σ)内的⾯积为0.90/0.95/0.99,说明正态变量在µ±1.64/1.96/2.58σ范围内取值的概率为0.9/0.95/0.99,在该区间以外取值的概率(两侧的阴影⾯积之和)为
0.1/0.05/0.01,左右两侧各0.05/0.025/0.005。
5)曲线下⾯积的求法:定积分法和标准正态分布法: 1、估计频数分布:标准正态分布查标准正态分布表(附表C1)得标准正态变量z 落在(-∞, z )内的概率值
2、制定医学参考值范围:医学参考值,⼜称正常值范围,医学上包括绝⼤多数正常⼈的某指标值的波动范围确定范围:⼀般以95%参考值范围最常⽤按资料特点选取不同⽅法计算正常值范围的上下限
①正态近似法:a 适⽤于服从正态分布或近似正态分布的资料
双侧1-α参考值范围
(n >100)时,可⽤:
作为95%的正常值范围(双侧)
②2)百分位数法:适⽤于偏态分布资料、分布型未知的资料以及分布末端有
不确定值的资料双侧 95%参考值范
单侧95%参考值范围或
2
22)(21)(σµπσ--=x e
x f 22
()21()()2πt x F x P X x e dt µσσ---∞
=<=?
()
2
,σµN s x x z -=
()
z
Φs
z x 2α±s
z x α->s
z x α+<()
1.96S
X 1.96S,X +-5.975.2~P P 5P
>95P
<
3、质量控制:绘出质量控制图
上、下警戒限上、下控制限
3、⼩结
正态分布是⼀种很重要的连续型分布,很多医学现象服从正态分布或近似正态分布,或经变量转换转换为正态分布,可按正态分布规律来处理,是许多统计学⽅法的理论基础正态分布的特征:①曲线在横轴上⽅,均数处最⾼;②以均数为中⼼,左右对称;③确定正态分布的两个参数是均数与标准差正态曲线下⾯积的分布有⼀定规律。
利⽤此规律可⽤于估计医学参考值范围和质量控制
第五章参数估计 1、概念
1.描述总体统计特征的指标—参数;描述样本统计特征的指标—统计量
2.统计推断:样本统计量总体参数
统计推断:参数估计(点估计、区间估计);假设检验
3.参数估计:抽样分布与标准误;Z 分布与t 分布;总体参数的估计
中⼼极限定理:当样本含量很⼤的情况下,⽆论原始测量变量服从什么分布,的
抽样分布均近似正态。
②标准误:
2)Z 分布:根据中⼼极限定理,即使样本统计量所来⾃的总体不服从正态分布,当
样本含量n ⾜够⼤时,样本均数也近似地服从正态分布。
可由公式作标准正态变换
如果样本均数的分布服从⼀般正态分布或
则 ~Z 分布
统计量参数读⾳均数 µ mu 标准差 S σ sigma
概率 P π pi 相关系数 r ρ rho s
x 2±s
x 3±X
X n S S X =
σµ-=
X z ()
σµ2,X N 2(,)
N n µσn X /σµ-X
3)t 分布①
②不服从标准正态分布,⼩样本时服从⾃由度ν=n-1的t 分布;t 分布曲线是以0 为中⼼的对称分布;⾃由度较⼩时,曲线峰的⾼度低于标准正态曲线,且曲线峰的宽度也较标准正态分布曲线峰狭,尾部⾯积⼤于标准正态曲线尾部⾯积,⽽且⾃由度越⼩, t 分布的这种特征越明显(翘尾低狭峰)
③标准正态分布中z 值⼤⼩与尾部⾯积(概率α)有关,以Za(单侧)和 Z a/2(双侧)表⽰;在t 分布中,当⾃由度⼀定时,a 越⼩,|t|越⼤;在α⼀定时,⾃由度越⼩, |t|越⼤,⼤于z 值;在t 分布中,t 值与α、ν的⼤⼩有关;在单侧时(尾部⾯积取单侧) t 界值表⽰为t a,v ,双侧时表⽰为ta/2,v ,其意义为
单侧 ,()P t t ανα≤-= 或 ,()P t t ανα≥=
双侧 /
2,
/
2,
()()P t t P t t ανανα≤-+≥=
⼀定⾃由度ν和概率α下的t 值 t a,v ,t a/2,v ,可通过查t 界值表获得
4)⼀组调查或实验数据,如果是计量资料可求得平均数、标准差等统计指标,如果是计数资料则求百分率藉以概括说明这群观察数据的特征,故称特征值;由于样本特征值是通过统计求得的,所以⼜称为统计量以区别于总体特征值。
总体特征值⼀般称为参数;进⾏科研所要探索的是总体特征值即总体参数,⽽我们得到的却是样本统计量,⽤样本统计量估计或推论总体参数的过程叫参数估计。
参数估计:⽤样本统计量估计总体参数。
包括:1、点(值)估计(近似值)(样本均数作为总体均数的点估计);2、区间估计(近似范围)①点估计:不考虑抽样误差
②区间估计:考虑抽样误差。
指按预先给定的概率,计算出⼀个区间,使它能够包含未知的总体均数,事先给定的概率称为
或
123,,,,(,)1n X
X X X X N X X t t n S S n µσµµν--===-服从正态分布,,服从分布,
⾃由度。
α-195
.01=-α95
.096.196.1=
+≤≤-n X n X P σµσ)
,(2/2/X X z X z X σσαα+-(
)
22,X X X Z X Z αασσ
-+2X
X Z ασ
±(,)
X X Z ασ-∞+(,)
X X Z ασ-+∞
t 分布法 (σ未知,以S 取代σ,且n 较⼩) v=v-1
第六章假设检验 1、概念
1)统计推断:参数估计(点估计、区间估计);假设检验
2)由样本信息对相应总体的特征进⾏推断称为统计推断。
若对所估计的总体⾸先提出
⼀个假设,然后通过样本数据去推断是否拒绝这⼀假设,称为假设检验。
1.反证法:当⼀件事情的发⽣只有两种可能A 和B ,为了肯定其中的⼀种情况A ,但⼜不能直接证实A ,这时否定另⼀种可能
B ,则间接的肯定了A 。
2.概率论(⼩概率):如果⼀件事情发⽣的概率很⼩,那么在进⾏⼀次试验时,我们说这个事件是“不会发⽣的”。
从⼀般的常识可知,这句话在⼤多数情况下是正确的,但是它⼀定有犯错误的时候,因为概率再⼩也是有可能发⽣的。
3)步骤: 1. 建⽴检验假设,确定检验⽔准:原假设 H0;备择假设 H1 2. 选择检验⽅法,计算检验统计量
A.成组设计两样本均数的⽐较:t 检验;两⼤样本均数的⽐较:z (u ) 检验;两样本⽅差的⽐较:F 检验;多个样本均数的⽐较:F 检验;多个样本率的⽐较:×2 检验 B 如果其⽐例值的绝对值(不⼤)<检验临界值,则不拒绝H0;如果其⽐例值的绝对值(较⼤)>检验临界值,则拒绝H0,接受H1,说明这种差异不仅仅是由于抽样误差所引起,很能由两总体均数本⾝的不相等所引起。
以上所指的⽐例值通常被称为检验统计量
3. 确定P 值,作出推断结论
如果 P>α,认为在检验假设H0成⽴的条件下,得到等于或⼤于现有统计量(z 值或t 值)的可能性⼤于α,不属于⼩概率事件,则不拒绝H0,结论:差别⽆统计学意义,不认为两总体参数不同;
如果 P ≤α,认为在检验假设H0成⽴的条件下,得到等于或⼤于现有统计量(z 值或 t 值)的可能性⼩于α,可判为⼩概率事件,则拒绝H0,接受H1,结论:差别有统计意义,两总体参数不同。
4、拒绝 H0;同时接受H1,对⽴条件H1:µ1 ≠ µ2
αµ
νανα-=--1)/()(2/)(2/t n S X t P << /2,/2,(..)1X X P X X t S t S
ανανµα-<<+=-()
2,2,,X X X t S X t S αναν-+2
F )(x t u z 、、、
5)可能发⽣的两类错误
假设检验的结果
客观实际
拒绝H 0
不拒绝H 0 H 0成⽴ I 型错误(α) 推断正确(1-α) H 0不成⽴即H 1成⽴
推断正确(1-β)
II 型错误(β)
第七章 t 检验 1、概念
1)t 检验和z 检验是⽤于计量资料两组⽐较的最常⽤的假设检验⽅法 2、检验⽅法 1、单组样本的t 检验⾃由度ν= n-1 n
S d
S d S d t d d
d d =
-=µ-=
2、配对设计计量资料⽐较的t 检验⾃由度ν= n-1
n S d
S d S d t d d
d d =
-=µ-=
d 为每对数据的差值,/d 为样本中各对差值d 的均数,Sd 为样本差值的标准差,S/d 为差
值样本均数的标准差,差值样本的标准误,n 为配对样本的对⼦数
3、两独⽴样本资料均数⽐较的t检验ν=n1+n2-2
α
X
S
12
??+=-21
21121n n S S c X X 2
)1()1(2
12
222112-+-+-=
n n S n S n S c
应⽤条件:1、正态性(矩法检验、W 检验);2、⽅差齐性(F 检验--
)()(2
22
1较⼩较⼤S S F =
分⼦ν1 =n1-1; 分母ν2 =n2-1)
4、t ’检验
5、Z检验
1、单样本与Z 0.05/2 = 1.96 进⾏⽐较
2、双样本与Z 0.05/2 = 1.96 进⾏⽐较
2、总结
成组设计两样本均数的⽐较:t 检验
两⼤样本均数的⽐较:z 检验(或称u 检验) 两样本⽅差⽐较:F 检验多个样本均数的⽐较:⽅差分析多个样本率的⽐较:×2 检验
第⼋章⽅差分析 1、⽅差计算公式
2
2212121n S n S X X t +-='22,2,2212211X X a X a X a S S t S t S t +?+?='νν1
1221,1
n n νν=-=-12
221122//X X S S n S n
-=+121212221122
//X X X X X X u S S n S n ---==
+)(/)(/000
已知时较⼤时σσµµn
X Z n n S X Z -=-=2
22
12121n S n S X X Z +-=()2212
n n g g ij ij i j N
ij
i j i j X C SS X X X C
=====-==--∑∑∑∑∑总
2
211,()()i
n g N
ij ij i j i j
X X C N N
====
∑∑
∑
2
1
2
1
1
()
()i
n ij j g
g
i i i i i
X SS n X X C
n ===∑=-=-∑∑
组间
1
g ν=-组间
N g
ν=-组内
2、均⽅差、均差
±?òì3ì?è3yó?à??ù2·?oíµ?′óD?óD1?ía£? ?1ó×?óé?èóD1?£?óéóú?÷2?·?×?óé?è2??àµè£?
òò′??÷2?·?à??ù2·?oí2??ü?±?ó±è??£?D
÷2·àù2·oí3yòàó|×óé裱è?µ 3??a?ù·?2?£??ò3??ù·?(mean square £?MS )?£×é ù·? oí×é?ú?ù·?µ1?ê??a:
SS MS ν=
组间
组间组间 SS MS ν=组内
组内组内
3、F 检验
1
N ν
=-总
2
11
()
i
n g
ij i i j SS X X ===-∑∑组内.
05.0,;
05.0,),,05.0(),,05.0(),,05.0(<>><=P
F F
P F F F MS MS F 则若则若查表组内组间组内组间组内组间组内组间νννννν
4、完全随机设计的⽅差分析 1)、组内变异(SSe):组内各个观测值与本组内均值之差的平⽅和。
反映了组内(同⼀⽔平下)样本的随机波动。
2)组间变异(SSTR ):组内均值与总均值之差的平⽅和 3)总变异(SST ):全部测量值⼤⼩不同,这种变异称为总变异,以各测量值Xij 与总均数间的差异度量。
5、均⽅
6、F 值与F 分布
7、总结
i X 2
11
)
(i k
i n j ij e X X SS i
-=∑∑==i
X X
2
1
)
(X X n SS i k
i i TR -=∑=X
∑∑==-=k i n j ij T i
X X SS 11
2)
()
1(-==k SS
SS MS TR TR TR TR ν组间均⽅:)
(k n SS SS MS e
e e e -==ν组内均⽅:.
05.0,;
05.0,),,05.0(),,05.0(),,05.0(<>><=
P F F P F F F
MS
MS F 则若则若查表组内组间组内组间组内组间组内组间νννννν
完全随机设计的⽅差分析表
变异来源
平⽅和SS
⾃由度ν均⽅MS F 值
总变异
∑∑==-=k
i n j ij T i
X X SS 11
2
)(
=2)1(S n -
1-=n T ν
处理组间
∑=-=k
i i i TR X X n SS 12)( 1-=k TR ν TR TR TR SS MS ν= e TR MS MS F =组内(误差)
∑∑==-=k i n j i ij E i
X X SS 11
2)(
=
∑=-k
i i
i
)1(
k n E -=ν
E E E SS MS ν=
8、随机区组设计的⽅差分析
随机区组设计的⽅差分析表
变异来源
平⽅和SS
⾃由度ν均⽅MS F 值
总变异
∑∑==-=k
i m
j ij T X X SS 11
2)(
=2)1(S n - 1-=n T ν
处理组间
∑=-=k
i i A X X m SS 1
2
)(
1-=k A ν
A A A SS MS ν= e
A
A MS MS F = 区组间 ∑=-=m
j j B X X k SS 1
2)(
1-=m B ν B B B SS MS ν= e
B
B MS MS F =
误差
B A T E SS SS SS SS --= )1)(1(--=m k E ν E E E SS MS ν=
9、t 检验与F 检验的关系
10、多个样本均数的两两⽐较
A E
B A n n MS X X q +-=
为误差均⽅
E MS
11、析因分析
变异来源⾃由度 SS MS F P 总变异 1gn -
2X C ∑-
A 主效应 1I -
21
A i SS A C nJ
=
∑- A MS A
A E
M S F M S =
B 主效应 1J -
21
B i SS B
C nI
=
∑- B
MS B B E
M S F M S =
AB
(1)(1)
I J -- 21
AB i A B SS T C SS SS n =
∑--- AB MS AB AB E
MS F MS =
误差
(1)
g n -
221
E i SS X T n
=∑-
∑ E
MS
12、⽅差齐性检查
1)Levene 检验法:⾮正态分布资料
F
(1)ij ij i Z X X =- (2)i
ij ij d Z X M =-
i d M 为第i 个样本的中位数(1,2,,, 1,2,,)i i g j n ==。
212
11()()(1)()i g
i i i n g
ij i i j N g n Z Z W g Z Z ===--=
--∑∑∑
(3)ij ij i Z X X '=-
i X '为第i 个样本截除样本含量10%后的均数
(1,2,
,, 1,2,
,)
i i g j n ==。
2)、Bartlett 检验法:正态分布资料
2i S 为第i 组的⽅差
2c S 为合并⽅差,即组内或误差均⽅E MS
k 为⽐较组数,i n 为第i 组样本例数,∑=i n n 为总例数
如果H 0为真,检验统计量服从1-=k ν的2
χ分布
第九章计数资料统计描述 1、概念
2、率
统计描述
统计推断应⽤计量资料
频数分布集中趋势离散趋势统计图表 t ,Z 检验⽅差分析秩和检验正常值范围可信区间计数资料相对数及其标准化统计图表
检验秩和检验
总体率的估计
21
2
Q Q
=
χ∑
=-=k
i i c
i S S n Q 1
221)ln()1(
----+=∑
=k i i k n n k Q 1211
1)1(3111
-=k ν
3、构成⽐
4、相对⽐
5、动态数列
1)绝对增长量(累计增长量、逐年增长量) 2)发展速度(定基⽐、环⽐) 3)增长速度(发展速度-1)
6、标准化 1.直接法(被标化组有年龄别××率) Ni :标准年龄别⼈⼝数;Pi :实际年龄别××率 N :标准⼈⼝总数
⼈⼝做标准⼈⼝构成⽐做标准
2.间接法(被标化组缺乏年龄别××率)
P: 标准总死亡率ΣniPi: 预期总死亡数 r: 实际总死亡数 r/ΣniPi (SMR) :
ni: 实际组别⼈⼝数标准化死亡⽐(Standard Pi: 标准年龄别死亡率 Mortality Ratio)
7、医学⼈⼝统计常⽤指标
描述⼈⼝学特征的常⽤指标(⼈⼝总数、⼈⼝构成-负担系数性别⽐)
⼈⼝死亡统计的常⽤指标(粗、婴⼉、新⽣⼉、新⽣⼉后期、围产⼉、5岁以下⼉童、孕产妇死亡率)(⽐例死亡⽐、死因顺位)
有关⽣育的常⽤统计指标(粗出⽣率、总出⽣率、年龄组⽣育⼒、总和⽣育⼒、终⽣育⼒)
(⾃然增长率、粗再⽣育率、净再⽣育⼒、更替⽔平)
疾病统计常⽤指标(发病率、患病率、治愈率、⽣存率)
K ?=可能发⽣某现象的总数
某现象实际发⽣的例数率A K A A ++-=?+率100%
=?某⼀组成部分的观察单位数构成⽐同⼀事物各组成部分观察单位总数(或倍数)
指标指标相对⽐%100?=B A N
P N P i i ∑=
'i
i 'P
N N P ??
∑=SM R
P P
n r
P P i i '
=∑=
8、定性资料总体参数估计 1)率的标准误
2)总体参数(率)的估计:点估计、区间估计(正态近似法、查表法)正态近似法
第⼗章卡⽅检验 1、公式 1)
2)卡⽅检验校验公式
3)2×2列联表卡⽅检验的专⽤公式
校正公式
4)适⽤条件
(1)
p n ππσ-=
(1)/p S p p n
=-?P p
=/2/2(,)
p p p Z S p Z S αα-+)
1)(1(,)(2
2
--=-=∑
C R T T A νχn n n T C
R =
其中∑
=--=k
i i
i i T T A 1
2
2
)
2、完全随机设计⾏×列表资料的χ2检验——独⽴样本R ×C 列联表资料的χ2检验
⾃由度:ν=(R-1)x (C-1)
Aij 为每个格⼦的实际频数,ni 和mj 分别为与Aij 对应的第i ⾏合计数和与第
j 列合计数。
3、2×2列联表的确切概率法
在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率Pi ;再按检验假设⽤单侧或双侧的累计概率P ,依据所取的检验⽔准α做出推断 4、配对资料差异性检验
)
)()()(()2
2
d b c a d c b a n bc ad ++++?-=
(χ∑
--=T T A 2
2
)
5.0(χ)
)()()(()2/(2
2
d b c a d c b a n
n bc ad ++++--=χ()∑
-=T
T A 2
2
χ
-=∑∑==R i C
j j i m n A ij n 11221χ()()()()n d c b a d b c a d c b a P i ++++=
222
()40(||1)40b c b c b c
b c b c b c
+--+<=
+2
校正时,时,。