中山大学医学统计学9.3数值变量资料的统计推断01
数值变量资料的统计分析.
1、大样本(如n>100)数据总体均数的可信区间
移项后: 总体均数的95%可信区间:
缩写为: 或:
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95%的 可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
(一)极差(range)
极差又称全距,即一组观察值中最大值与最小值 之差,用R表示。
适用范围:可用于所有资料的离散趋势描述,但 较粗略。
(二)四分位数间距(quartile interval)
四分位数间距是上四分位数 (即 )与下四分 位数 (即 )之差,其间包括了全部观察值中间 的一半,用 表示。
适用范围:可用于所有资料的离散趋势描述,但主 要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
(三)方差和标准差
方差(variance)是每一观察值的离均差平方和 的平均值。总体方差用 表示,样本方差用 表 示。
标准差(standard deviation)即方差的平方 根。总体标准差用 表示,样本标准差用 表 示。
第三节 参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察,用样本的 水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异,或各 样 本 指 标 之 间 的 差 异 , 就 称 为 抽 样 误 差 ( sampling error)。
抽样研究时,抽样误差是不可避免的,只能估计其 大小。
(2)均数对应的位置曲线最高,且以均数为中心左右对
称;
(3)正态分布曲线的位置和形状取决于两个参数
医药数理统计学:实习03 数值变量资料的统计推断
请独立完成作业,抄袭复制作业者一律0分 27
于双侧尾部面积为0.05的所对应的|t|值 D. t分布的标准差大于等于1 E. 标准正态分布是 t 分布的极限分布
14
5.用大量来自同一总体的独立样本对总体参数作估计时, 关于95%置信区间(CI),正确的说法是: ___
A. 大约有95%的样本的CI覆盖了总体参数 B. 各个样本估计出的CI是相同的 C. 对于每一个CI而言,有95%可能性覆盖总体参数 D. 样本含量越小,估计出来的CI越精确 E. 对于每一个CI而言,总体参数落在此区间的可能
几何均数的计算
1)应说明为何使用几何均数;
“抗体滴度资料呈对数正态分布”
2)最后要将计算结果公写共卫成生为学院1:医G学的统计形与流式行病
2015/3/20
学系
3
作业基本要求: 1. 首页右上角:班级、学号、姓名; 2. 不要将SPSS的结果直接复制粘贴,只报告必要的结 果,如以表格形式报告,请整理成规范统计表; 3. 不需要报告SPSS的操作过程。
18
9.比较两药疗效时,若___时,可作单侧检验。 A. 已知A药与B药均有效 B. 不知A药好还是B药好 C. 已知A药不会优于B药 D. 已知A药与B药差不多好 E. 已知A药与B药疗效差别很大
19
10.在假设检验中,Ⅰ类错误的是指: A 拒绝实际上并不成立的H0 B 接受实际上并不成立的H0 C 拒绝实际成立的H0 D 接受实际成立的H0 E 拒绝实际上并不成立的H1
A. 182.082.623.46/11 B. 182.082.583.46/11 C. 182.082.623.46 D. 182.082.583.46 E. 182.081.963.46
(医学课件)医学统计学计量资料的统计推断
2023-11-05
目录
• 引言 • 计量资料数据的描述和分析 • 参数估计与假设检验 • 方差分析及其拓展技术 • 非参数统计推断方法 • 回归分析及其拓展技术 • 临床实践中的统计应用实例
01
引言
概念与定义
医学统计学
是运用数理统计学的原理和方法,在医学领域中进行数据资料的 收集、整理、分析和推断的一门学科。
适用于存在拉丁方设计的实验设计。
05
非参数统计推断方法
符号检验
符号检验
适用于配对资料和两个独立样本资料,通过计 算正号和负号的数目来检验差异是否显著。
适用条件
当理论分布或样本分布未知,或无法从理论分 布推导出适当的统计量时使用。
优缺点
计算简单,适用于小样本数据,但不适用于大样本数据。
秩和检验
秩和检验
频数分布
对收集到的数据进行频数分布分析,统计 各数据值的出现次数和频率。
集中趋势
通过平均数、中位数等指标,反映数据的 集中趋势。
离散程度
通过标准差、四分位数间距等指标,反映 数据的离散程度。
偏态和峰态
通过偏度系数和峰度系数等指标,反映数 据的偏态和峰态。
数据的质量控制
数据清洗
对采集到的数据进行预处理,去除无效、错误或重 复的数据。
确定研究目的和研究对象
在收集数据前,需明确研究目的和研究对象 ,以便确定所需收集的数据类型和范围。
设计调查方案
根据研究目的和研究对象,制定合适的调查方案, 包括调查方法、问卷设计、样本量等。
数据采集
根据调查方案,采取合适的方式和方法采集 数据,包括线上和线下的问卷调查、临床观 察、实验室检测等。
医学统计学——数值变量资料的统计描述
血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=
∑
n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k
实用卫生统计学试题含答案
医学统计方法概述l .统计中所说的总体是指: A 根据研究目的确定的同质的研究对象的全体2 •概率P=0,则表示B某事件必然不发生3.抽签的方法属于 D 单纯随机抽样4 .测量身高、体重等指标的原始资料叫:B计量资料5•某种新疗法治疗某病患者41人,治疗结果如下:该资料的类型是:D有序分类资料治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 16•样本是总体的C有代表性的部分7•将计量资料制作成频数表的过程,属于¬¬统计工作哪个基本步骤:C整理资料&统计工作的步骤正确的是C设计、收集资料、整理资料、分析资料9•良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少:B系统误差10•以下何者不是实验设计应遵循的原则D交叉的原则11•表示血清学滴度资料平均水平最常计算 B 几何均数12•某计量资料的分布性质未明,要计算集中趋势指标,宜选择 C M13.各观察值均加(或减)同一数后:B均数改变,标准差不变14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、10、2、24+(小时), 问该食物中毒的平均潜伏期为多少小时 C 615•比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:D变异系数16•下列哪个公式可用于估计医学95%正常值范围 A X±1.96S17•标准差越大的意义,下列认识中错误的是B观察个体之间变异越小18.正态分布是以E均数为中心的频数分布19•确定正常人的某项指标的正常范围时,调查对象是B排除影响研究指标的疾病和因素的人20•均数与标准差之间的关系是E标准差越小,均数代表性越大21•从一个总体中抽取样本,产生抽样误差的原因是A总体中个体之间存在变异22•两样本均数比较的t检验中,结果为 P<0.05,有统计意义。
P愈小则 E愈有理由认为两总体均数不同23.由10对(20个)数据组成的资料作配对 t检验,其自由度等于 C 924• t检验结果,P>0.05,可以认为B两样本均数差别无显着性25.下列哪项不是t检验的注意事项 D分母不宜过小26.在一项抽样研究中,当样本量逐渐增大时B标准误逐渐减少27. tV t0.05(v),统计上可认为C两样本均数,差别无显着性28.两样本均数的t检验中,检验假设(H0)是 B 仁(1229.同一总体的两个样本中,以下哪种指标值小的其样本均数估计总体均数更可靠 A. Sx30.标准差与标准误的关系是:C前者大于后者31在同一正态总体中随机抽取含量为n的样本,理论上有 95%的总体均数在何者范围内 C均数加减1.96 倍的标准误32 .同一自由度下,P值增大C t值减小33.两样本作均数差别的 t检验,要求资料分布近似正态,还要求D两样本总体方差相等34.构成比的重要特点是各组成部分的百分比之和 C 一定等于135 .计算相对数的目的是 C为了便于比较36.某医院某日门诊病人数 1000 人,其中内科病人 400 人,求得 40%,这 40%是 B 构成比 37.四个样本率作比较,x2>x20.01(3),可以认为 A 各总体率不同或不全相同 38.卡方检验中自由度的计算公式是D (行数 -1)(列数 -1)39.作四格表卡方检验,当 N>40 ,且 _______________ 时,应该使用校正公式 E1<T<540 .若 X2> X2 0.05(贝V)A P<0 05 41.相对数使用时要注意以下几点,其中哪一项是不正确的 B 注意离散程度的影响42.反映某一事件发生强度的指标应选用 D 率43.反映事物内部组成部分的比重大小应选用 A 构成比44.计算标化率的目的是 D 消除资料内部构成不同的影响,使率具有可比性45.在两样本率比较的 X2检验中,无效假设(H0)的正确表达应为 C n 1= n2 46.四格表中四个格子基本数字是 D 两对实测阳性绝对数和阴性绝对数47 .比较某地1990~1997年肝炎发病率宜绘制C普通线图48.关于统计资料的列表原贝,错误的是 B 线条主要有顶线,底线及纵标目下面的横线,分析指标后有斜线和竖线49.比较甲、乙、丙三地区某年度某种疾病的发病率情况,可用 A 直条图50.描述某地某地 210 名健康成人发汞含量的分布,宜绘制 B 直方图 l 、统计中所说的总体是指: A 根据研究目的确定的同质的研究对象的全体。
(医学课件)医学统计学-计量资料的统计推断
样本含量的计算
依据检验效能和检验水准的设计
样本含量计算是依据特定的检验效能和检验水准来进行计算的。
依据样本均数标准误和两样本均数差的标准
样本含量计算需要依据样本均数的标准误以及两样本均数差的标准,来推算出样 本含量。
检验效能的概念与计算
Байду номын сангаас
检验效能的概念
检验效能是指当拒绝一个无效假设时,犯第二类错误的概率 ,也就是说检验效能是衡量错误拒绝一个有效假设的指标。
检验效能的计算
检验效能可以通过计算来得出,一般是通过计算出无效假设 下犯第二类错误的概率来得出检验效能。
提高检验效能的方法
提高样本含量
增加样本含量可以提高检验效能,因为样本含量的增加可以减少随机误差,从而降低无效 假设犯第二类错误的概率。
提高检验水准
提高检验水准也可以提高检验效能,因为当检验水准提高时,临界区域会缩小,从而可以 减少无效假设被拒绝的概率。
要点二
数据管理(Data Manage…
可以对数据进行整理、编辑、分类和 计算,支持多种数据格式,包括Excel 、Access、文本文件等。
要点三
高级统计( Advanced St…
可以进行复杂的数据分析,如结构方 程模型、多因素方差分析、重复测量 等。
06
医学研究中统计方法的合理选择与应 用
研究设计对统计方法选择的影响
医学统计学-计量资料的统计推断
xx年xx月xx日
目录
• 引言 • 参数估计 • 假设检验 • 样本含量与检验效能 • 常用的统计软件及其在医学中的应用 • 医学研究中统计方法的合理选择与应用
01
引言
课程背景
医学科学研究的复杂性
(医学课件)医学统计学-计量资料的统计推断
用于比较多个组间的均值是否存在显著差异,以及判断因素对因变量的影响是否显著。
方差分析的应用
数据独立、数据正态分布、各组方差齐性。
方差分析的假设
05
线性回归分析
03
线性回归模型的适用条件
满足线性关系、误差项独立同分布、误差项无序列相关、满足正态性和同方差性等假设。
线性回归模型
01
引言
临床试验设计和数据分析流行病学调查和疾病预防医学图像分析和诊断临床决策和循证医学
对样本数据的分布特征进行描述和解释利用样本信息对总体特征进行估计和推断通过数据分析和模型预测,为医学研究和临床实践提供科学依据
课程背景
统计学在医学中的应用
计量资料统计推断的目的和重要性
02
描述性统计
数值数据
用于描述定量特征,包括连续型和离散型两种。
数据处理和分析的医学应用
介绍了医学统计学未来的发展趋势和研究方向,包括生物信息学、遗传统计学、多变量统计方法等。
医学统计学的未来发展
选择正确的统计方法
实际应用中需要注意的问题
数据的预处理
假设检验的解读
临床意义的解释
生物信息学的应用
随着生物信息学的快速发展,医学统计学在基因组学、蛋白质组学、代谢组学等领域的应用将更加广泛。
2023
医学课件:医学统计学-计量资料的统计推断
CATALOGUE
目录
引言描述性统计参数估计假设检验线性回归分析多因素分析临床医学中的统计应用讨论与总结
01
引言
医学统计学是医学科研和临床实践中的重要工具医学研究中产生大量的计量资料,需要对这些数据进行统计分析医学统计学在预防、诊断和治疗方面有着广泛的应用
医学统计学-计量资料的统计推断
假设检验的基本原理
零假设(H0)
假设总体参数等于某一特定值,如总体均数等于某一数值。
对立假设(H1)
与零假设相对立的假设,如总体均数不等于某一数值。
统计意义
根据样本数据计算出统计量,并依据零假设的分布规律,得出P值,判断是否拒绝零假设 。
t检验
01
单样本t检验
比较样本均数与已知的参考值或正常值。
况的分布情况。
队列调查
02
根据是否暴露于某因素或暴露程度,将研究对象分为不同队列
,以评估因素与结局的关系。
病例对照调查
03
通过选取病例和对照,比较两组之间暴露因素的差异,以评估
因素与结局的关系。
临床试验设计
01
随机对照试验
将研究对象随机分为试验组和对照组 ,给予不同干预措施,以评估干预措 施的有效性和安全性。
02
双样本t检验
比较两组独立样本的均数是否相等。
03
配对t检验
比较两组配对样本的均数是否相等。
方差分析
方差分析的基本思想
将数据的变异分解为组间变异和组内变异,并计算各组 对总变异的贡献率。
方差分析的应用
用于比较多个处理组与一个对照组之间的差异,以及比 较多个处理组之间的差异。
04
回归分析
线性回归分析
性和安全性
比如公共卫生监测中,通过对群体健康指标 的统计分析,可以评估公共卫生干预措施的
效果和评价健康政策的效果
医学研究中计量资料统计推断的应用范围广 泛
比如流行病学研究中,通过对群体暴露和疾 病发生之间的计量资料统计分析,可以探讨 病因和疾病预防措施
02
计量资料的描述性统计
均值和标准差
医学统计学分类变量资料的统计推断
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
(医学课件)医学统计学-计量资料的统计推断
描述一组数据的分布形态,若峰态为正,则数据分布比正态分布更陡峭,反之更扁平。峰态可通过计算峰态系数来衡量。
峰态
数据分布的偏态和峰态
推断性统计学
03
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
定义
主要用于样本含量较小,总体标准差未知的正态分布资料。
用途
单样本t检验、配对t检验和两样本t检验。
THANKS
谢谢您的观看
重视实际应用
医学统计学需要更加注重实际应用,针对具体的医学问题展开研究和探索,将理论转化为实践,为医学决策提供更加科学、可靠的依据。
大数据处理技术
随着医学数据量的不断增加,大数据处理技术将成为医学统计学中不可或缺的一部分。包括分布式计算、云计算、内存计算等新兴技术将为医学数据的存储、处理和分析提供更为高效和灵活的解决方案。
03
通过数据分析和模型预测,为医学研究和临床实践提供科学依据
计量资料统计推断的目的和重要性
01
对样本数据的分布特征进行描述和解释
02
利用样本信息对总体特征进行估计和推断
描述性统计学
02
按数据性质分
定量数据和定性数据。定量数据可再分为连续型和离散型;定性数据可再分为无序和有序。
按数据来源分
来自总体或样本的数据;有序或无序的数据。
xx年xx月xx日
医学课件:医学统计学-计量资料的统计推断
CATALOGUE
目录
引言描述性统计学推断性统计学高级推断性统计学临床研究中的统计学应用医学统计学面临的挑战与未来发展
引言
01
课程背景
统计学在医学中的应用
临床试验设计和数据分析
医学图像分析和诊断
卫生统计学试题(含答案)
医学统计方法选择题一:医学统计方法概述l.统计中所说的总体是指:AA根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体2.概率P=0,则表示BA某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 DA分层抽样B系统抽样C整群抽样D单纯随机抽样E二级抽样4.测量身高、体重等指标的原始资料叫:BA计数资料B计量资料C等级资料D分类资料E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 1该资料的类型是:DA计数资料B计量资料C无序分类资料D有序分类资料E数值变量资料6.样本是总体的CA有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于¬¬统计工作哪个基本步骤:CA统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 CA收集资料、设计、整理资料、分析资料B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少:BA抽样误差B系统误差C随机误差D责任事故E以上都不对10.以下何者不是实验设计应遵循的原则DA对照的原则B随机原则C重复原则D交叉的原则E以上都不对第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 BA算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择CA XB GC MD SE CV13.各观察值均加(或减)同一数后:BA均数不变,标准差改变B均数改变,标准差不变C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、lO、2、24+(小时),问该食物中毒的平均潜伏期为多少小时?CA 5B 5.5C 6D lOE 1215.比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:DA全距B标准差C方差D变异系数E极差16.下列哪个公式可用于估计医学95%正常值范围 AA X±1.96SB X±1.96SXC μ±1.96SXD μ±t0.05,υSXE X±2.58S 17.标准差越大的意义,下列认识中错误的是BA观察个体之间变异越大B观察个体之间变异越小C样本的抽样误差可能越大D样本对总体的代表性可能越差E以上均不对18.正态分布是以 EA t值为中心的频数分布B 参数为中心的频数分布C 变量为中心的频数分布D 观察例数为中心的频数分布E均数为中心的频数分布19.确定正常人的某项指标的正常范围时,调查对象是BA从未患过病的人B排除影响研究指标的疾病和因素的人C只患过轻微疾病,但不影响被研究指标的人D排除了患过某病或接触过某因素的人E以上都不是20.均数与标准差之间的关系是EA标准差越大,均数代表性越大B标准差越小,均数代表性越小C均数越大,标准差越小D均数越大,标准差越大E标准差越小,均数代表性越大第九章数值变量资料的统计推断21.从一个总体中抽取样本,产生抽样误差的原因是AA总体中个体之间存在变异B抽样未遵循随机化原则C被抽取的个体不同质D组成样本的个体较少E分组不合理22.两样本均数比较的t检验中,结果为P<0.05,有统计意义。
《医学统计学》计量资料的统计推断
1. 准确度:可信区间包括μ的概率大小,1-α来衡量 2. 精密度:区间的长度,越小,精密度越高 3. 准确度高,精密度就低,同时提高准确度和精密度,
只能增大样本含量n。
可信区间的计算
1. σ未知
X tv gSX , X tv gSX
2. σ已知或σ未知但n足够大
σ已知
• 当H0为真时,检验结论拒绝H0接受H1,这类错误称为第一
类错误或Ⅰ型错误(type Ⅰ error),亦称假阳性错误 • 检验水准,就是预先规定的允许犯Ⅰ型错误概率的最大值,
用α 表示
• 当真实情况为H0不成立而H1成立时,检验结论不拒绝H0,
这类错误称为第二类错误或Ⅱ型错误(type Ⅱ error), 亦称假阴性错误,概率大小用β 表示,只取单侧,一般未
第二节 t分布
随机变量X N(,2)
均数X
N(, 2 n)
u X
u变换
u X n
t X X , v n 1
S n SX
标准正态分布
N(0,12)
标准正态分布
N(0,12)
Student t分布 自由度:n-1
自由度
举例:三个人分10个苹果
自由度:随意变化量个数 自由度=变量个数-约束条件个数
计量资料的统计推断
统计推断
• 在医学研究中,通常在总体中随机抽取一 定数量观察单位作为样本进行抽样研究, 然后有样本信息推断总体特征,这个过程 称为统计推断
总体
抽取部分观察单位
样本
参数
如: 总体均数
总体标准差本标准差S 样本率 P
统计推断主要内容:
1. 均数的抽样误差与标准误 2. t分布 3. 总体均数的估计 4. 假设检验 5. t检验
医学统计学试题及其答案
医学统计学试题及其答案 The latest revision on November 22, 2020l.统计中所说的总体是指: A A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体2.概率P=0,则表示 B A某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 D A分层抽样B系统抽样C整群抽样D单纯随机抽样E二级抽样4.测量身高、体重等指标的原始资料叫: B A计数资料B计量资料C等级资料D分类资料E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗人数82363 1 该资料的类型是: D A计数资料 B计量资料 C无序分类资料 D有序分类资料 E数值变量资料6.样本是总体的 C A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于统计工作哪个基本步骤:C A统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 C A收集资料、设计、整理资料、分析资料 B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料 D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少: B A抽样误差B系统误差C随机误差D责任事故E以上都不对10.以下何者不是实验设计应遵循的原则 DA对照的原则B随机原则C重复原则D交叉的原则E以上都不对第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 B A算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 CA XB GC MD SE C V13.各观察值均加(或减)同一数后: B A均数不变,标准差改变B均数改变,标准差不变C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、lO、2、24+(小时),问该食物中毒的平均潜伏期为多少小时 CA5B5.5C6D10E1 2 15.比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:DA全距B标准差C方差D变异系数E极差16.下列哪个公式可用于估计医学95%正常值范围 AA X±B X±Cμ±Dμ±,υS X E X±17.标准差越大的意义,下列认识中错误的是 B A观察个体之间变异越大B观察个体之间变异越小C样本的抽样误差可能越大D样本对总体的代表性可能越差E以上均不对18.正态分布是以 E A t值为中心的频数分布B参数为中心的频数分布C变量为中心的频数分布D观察例数为中心的频数分布E均数为中心的频数分布19.确定正常人的某项指标的正常范围时,调查对象是 B A从未患过病的人B排除影响研究指标的疾病和因素的人C只患过轻微疾病,但不影响被研究指标的人D排除了患过某病或接触过某因素的人E以上都不是20.均数与标准差之间的关系是 E A标准差越大,均数代表性越大B标准差越小,均数代表性越小C均数越大,标准差越小 D均数越大,标准差越大E标准差越小,均数代表性越大第九章数值变量资料的统计推断21.从一个总体中抽取样本,产生抽样误差的原因是 AA总体中个体之间存在变异 B抽样未遵循随机化原则C被抽取的个体不同质 D组成样本的个体较少 E分组不合理22.两样本均数比较的t检验中,结果为P<,有统计意义。
医学统计学计量资料的统计推断
医学统计学计量资料的统计推断主要内容: 标准误 t 分布总体均数的估计假设检验均数的 t检验、u 检验、方差分析几个重要概念的回顾: 计量资料: 总体: 样本: 统计量: 参数: 统计推断:参数估计、假设检验第一节均数的抽样误差与总体均数的估计欲了解某地2000年正常成年男性血清总胆固醇的平均水平,随机抽取该地200名正常成年男性作为样本。
由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。
一、均数的抽样误差与标准误一、均数的抽样误差与标准误抽样误差: 由于抽样引起的样本统计量与总体参数之间的差异??X ?? ?? 数理统计推理和中心极限定理表明: 1、从正态总体N(??,??2)中,随机抽取例数为n的样本,样本均数??X也服从正态分布;即使从偏态总体抽样,当n足够大时??X也近似正态分布。
2、从均数为??,标准差为??的正态或偏态总体中抽取例数为n的样本,样本均数??X的总体均数也为??,标准差为????X 标准误含义 :样本均数的标准差计算: (标准误的估计值) 注意: ????X 、S??X 均为样本均数的标准误标准误意义: 反映抽样误差的大小。
标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
标准误用途: 衡量抽样误差笮?/B> 估计总体均数可信区间用于假设检验二 t 分布对正态变量样本均数??X 做正态变换(u变换): ????X 常未知而用S??X估计,则为t变换: 二、 t 分布 t 值的分布即为t分布 t 分布的曲线:与??有关 t分布与标准正态分布的比较 1、二者都是单峰分布,以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。
当ν逐渐增大时,t分布逐渐逼近标准正态分布,当ν???时,t分布完全成为标准正态分布 t 界值表(附表9-1 ) t??/2,??:表示自由度为??,双侧概率P为??时t的界值 t分布曲线下面积的规律: 中间95%的t值:-t0.05/2,?? ?? t0.05/2,?? 中间99%的t值:- t0.01/2,?? ?? t0.01/2,?? 单尾概率:一侧尾部面积双尾概率:双侧尾部面积 (1) 自由度(ν)一定时,p与t成反比; (2) 概率(p)一定时,ν与t成反比; 三总体均数的估计统计推断:用样本信息推论总体特征。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(a)
(b)
(c)
7
中心极限定理:
理论证明: 1) 从 N(μ,σ2) 中随机抽取含量为 n 的样本,样
本均数也服从正态分布; 2) 即使偏态总体,当n足够大时(>50),样本
均数也近似服从正态分布。
8
中心极限定理:
X ~ N (, 2 ),X ~ N (, 2 )
n
x = n
---- 均数的标准差,又称为标准误 (Standard Error, S.E.)
自由度= ,逼近标准正态分布;
(4) t 分布的概率密度曲线下面积也有一定的规 律性。
16
自由度 = 9时,单侧(a)与双侧(b) t 分布曲线下尾部面积
t , t0.05,9 1.833 t / 2, t0.05/ 2 ,9 2.262
17
tα,ν -- t 分布的双侧和单侧分位数(临界值), 双侧:P(t≤-tα,ν)+ P(t≥tα,ν)=α 单侧:P(t≤-tα,ν)=α 或 P(t≥ tα,ν)=α
X -
X
-
~ N (0,1)
x
n
sx → x , X - X - ~ t( )分布
s x
s/ n
• 其中ν=n-1为自由度,决定了t 分布的形状。
• Gosset (1908) 以笔名“Student”提出t分布理论, 称为学生氏t分布(Student’ s t-distribution)。
14
• 将某地14岁健康女生的身高资料作为总体,其分布近 似正态分布,均数为155.40cm,标准差为5.30cm。现 从该总体中随机抽取n=10的100个样本,可计算100 个样本的均数,得频数分布如下:
组段(cm) 151~ 152~ 153~ 154~ 155~ 156~ 157~ 158~ ≥159
1) 衡量样本数据的可靠性; 2) 与样本均数结合,估计总体均数的置信区间; 3) 对均数的假设检验。
12
二、t 分布
设
X
~
N(, 2)
,则
X
~
2 N(, )
n
标准化变换:
若 X ~ N(, 2 ) , 则标准化变换后
的u值
u
=
X-
~
N (0,1)
13
设
X
~
N(, 2)
,则
X
~
2 N(, )
n
标准化变换: u
2
2.920 4.303 6.965 9.925 22
1.717 2.074 2.508 2.819
3
2.353 3.182 4.541 5.841 23
1.714 2.069 2.500 2.807
4
2.132 2.776 3.747 4.604 24
1.711 2.064 2.492 2.797
5
2.015 2.571 3.365 4.032 25
1.708 2.060 2.485 2.787
6
1.943 2.447 3.143 3.707 26
1.706 2.056 2.479 2.779
7
1.895 2.365 2.998 3.499 27
1.703 2.052 2.473 2.771
8
1.860 2.306 2.896 3.355 28
1.701 2.048 2.467 2.763
9
1.833 2.262 2.821 3.250 29
1.699 2.045 2.462 2.756
10
1.812 2.228 2.764 3.169 30
0.4
f( t)
0.3
0.2
→∞(Z 分布) =5 =1
0.1
0.0 -4 -3 -2 -1 0 1 2 3 4
t
15
t 分布的特点
(1)密度曲线定义于( , ),单峰, t 0 处
最高,左右对称; (2)比标准正态分布矮胖; (3)一簇曲线,与自由度有关,
自由度越小, t 值越分散,曲线低平,尾部高;
第九章 数值变量资料的统计分析
顾菁 中山大学 公共卫生学院 医学统计与流行病学系
1
第三节 数值变量资料的统计推断
一、均数的抽样误差与标准误
(1)
二、 t 分布 三、总体均数的置信区间估计
(2)
四、假设检验的基本思想和步骤
2
一、均数的抽样误差与标准误
总体
μ
抽取部分观察单位
样本
抽样误差
x
x?
3
例题1.
频 数 1 6 10 18 29 20 8 6
2
这100个均数的均数 155.52cm,标准差1.64cm。
10
但在实际工作中,往往只做一次抽样: n=10, X ~=N15(7.2,0c2m) , s =6.20cm
n
抽样误差: s s 6.20 1.96cm x n 10
11
均数标准误的用途:
自由
概率 P
自由
概率 P
度 双侧: 0.10 0.05 0.02 0.01 度 双侧: 0.10 0.05 0.02 0.01
ν 单侧: 0.05 0.025 0.01 0.005 ν 单侧: 0.05 0.01.821 63.657 21
1.721 2.080 2.518 2.831
描述均数抽样误差大小的统计指标
s sx = n
与 s 成正比 ---- 减小标准差 与 n 成反比 ---- 加大样本含量
9
例:某地14岁健康女生的身高近似服从正态分布, μ=155.40cm,σ=5.30cm。从该总体随机抽取n=10 的100个样本,得到100个均数。
抽样误差是多少?
组段(cm) 151~ 152~ 153~ 154~ 155~ 156~ 157~ 158~ ≥159
频数1
6 10 18 29 20 8
6
2
4
40
30
20
10
Std. Dev = 1.64
Mean = 155. 5
0
N = 100.00
100个样本的均数
X
的分布情况
i
5
抽样实验:
从总体N(4.6602, 0.57462)中抽样 ,n=5 ,
样本1 (n=5): x1 4.5770 样本2 (n=5):x2 4.4515 样本3 (n=5): x3 4.4247 样本4 (n=5): x4 4.7028
平均水平? 离散趋势?
…
…
抽样误差:
一份样本不同于另一份样本;样本不同于总体
6
从总体N(4.6602, 0.57462)中抽样,
n=5 , 1000份样本; 样本均数的分布如下图 n=10 ,1000份样本; n=30 ,1000份样本
n=5
n=10
n=30
3.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7