第十章 分类变量资料的统计推断
分类资料的统计分析
分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。
常见的分类资料有性别(男、女)、学历(小学、初中、高中、大学)、职业(医生、教师、律师等)。
分类资料中每个分类称为一类或一组,根据组别统计频数或百分比可以揭示不同分类间的差异和关系。
二、方法1.频数与频率分析:通过统计每个类别的个数,得到各类别的频数和频率(频次比),并绘制柱状图、饼图等图表,直观地展示不同类别的占比情况。
2.极差分析:对于有序分类资料,比如学历,可以计算最高和最低值的差距,该差距称为极差。
极差分析衡量了不同类别之间的距离,有助于比较不同类别在一些变量上的差异。
3.交叉分析:用于分析两个或多个分类资料之间的关系。
通过交叉表格(列联表)和卡方检验,可以计算出各类别之间的关联度,判断不同分类是否相互关联。
4.分类资料的描述性统计分析:主要包括计算百分比、计算平均数、计算方差等统计指标。
通过这些指标,可以对不同类别的分布情况进行综合分析。
三、实践应用1.人口统计学:年龄、性别、婚姻状况等是人口统计学中常见的分类资料。
通过对这些资料的统计分析,可以了解人口结构、人口变动趋势等,为制定人口政策提供参考。
2.市场调研:对于市场调研中收集到的消费者分类资料,可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为,帮助企业制定更加精准的销售策略。
3.教育评估:对学生的学历、家庭背景等进行统计分析,可以了解学生群体的整体素质水平、教育资源配置情况等,为教育政策制定和学校招生计划提供依据。
4.健康管理:对医疗数据中患者的病种、治疗效果等分类资料进行统计分析,可以评估不同病种的流行趋势、治疗效果、药物副作用等,为医疗决策提供参考。
总之,分类资料的统计分析是统计学中的重要内容,通过对分类资料的频数、频率、交叉分析等方法进行利用,可以揭示分类之间的差异、关系和趋势,为各个领域的决策者和研究者提供参考依据。
预防医学之分类变量的统计推断
• 常用指标有:发病率、死亡率、出生率等
应用相对数的注意事项
• 防止概念混淆;分析时不能以构成比代替 率
• 计算相对数的分母一般不宜过小 • 正确地合并估计率(平均率或合计率) • 相对数比较时要注意可比性
防止概念混淆
春
10
10.00
春
10
10.00
夏
20Biblioteka 20.00夏20
20.00
秋
30
30.00
秋
30
30.00
冬
40
40.00
冬
40
40.00
相对数比较时的可比性
甲院
乙院
科室
出院人数 治愈人数 治愈率(%) 出院人数 治愈人数 治愈率(%)
内科 876 295 33.67
329 104 31.61
外科 305 292 95.74
• 可见这两组资料内部的构成不同(不同的科室治愈 率是不同的),可比性差,不可直接比较总治愈或 合计治愈率
率的标准化
• 采用统一的标准对内部构成不同的各组频率进行 调整,而后对比各组标准化率的方法称为率的标 准化法
• 调整后的率为标准化率,简称标化率(standard rate),或调整率(adjusted rate)
患病人数 9 13 91
102 12 227
患病率(1/万) 0.9 2.9 13.0 16.0 37.5 7.9
60岁以上年龄段为高血压的高危年龄段!
相对数
• 对分类变量汇总后,通常这些频数不能直 接比较;分类资料的统计描述与推断中通 常使用相对数,而不是绝对数
医学统计学
医学统计学要求:章节出题量医学统计方法概述10数值变量资料的统计描述10数值变量资料的统计推断13分类变量资料的统计描述与推断13统计表与统计图 4合计50卫生统计1随机抽样的要点或实质是:A 每隔一定距离抽取一个个体B 对随机抽中的群体中的机会相同C 总体中每一个体被抽中的机会相同D 先把调查对象分类,再在各类对象中随机抽样E 以上都不是2、以舒张压>90mmHg为高血压,现调查1000人,其中10人为高血压,990人为非高血压,此资料为:A 数值变量资料B 二项分类资料C多项分类资料D有序分类变量资料E以上都不是3、根据研究分析的需要:A 数值变量资料可转化为分类变量资料B 分类变量资料可转化为数值变量资料C 有序分类变量资料可转化为数值变量资料D 三者都对E 以上都不对4 、实验设计的三个基本要素是:A受试对象、实验效应、观察指标B 随机化、重复、设置对照C齐同对比、均衡性、随机化D处理因素、受试对象、实验效应E 以上都不是5、实验设计的三大原则是:A受试对象、实验效应、观察指标B 对照原则、随机化原则、重复原则C齐同对比、均衡性、随机化D处理因素、受试对象、实验效应E 以上都不是6、完成良好的实验设计,不但能减少人力、物力,提高实验效率,还能有助于减少:A.系统误差B.随机误差C.抽样误差D.责任事故E 以上都不是7、用两种不同成分的培养基(分别为701批与702批)分别培养鼠疫杆菌,重复试验单元数为5个,将48小时内各试验单元上生长的活菌数记录如下:701批:48 84 90 123 171 702批:90 116 124 225 84那么该资料的类型为:A.二项分类变量资料B.数值变量资料C.多项分类变量资料D.有序分类变量资料E 以上都不是8、某医院用某种新疗法治疗某病患者41人,治疗结果见表2-3。
表2-3 某种新疗法治疗某病患者的疗效治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 1 该资料的类型为:A. 二项分类变量资料B.数值变量资料C.多项分类变量资料D.有序分类变量资料E 以上都不是9、反映实验效应的指标应具备以下条件:A.关联性B.客观性C.灵敏性D.以上都是E 以上都不是10、随机误差的性质是:A.可以消除B.不可以消除C.不可以消除但可控制D以上都是E 以上都不是11、标准差常用于衡量:A 样本与总体的差异B 两总体间差异C 两样本间差异D 个体差异大小E、以上匀不是12、已知100名2岁儿童,身高X=80cm,S=4cm,现有一个两岁儿童身高86cm,依据范围判断该儿童为正常:A x±1.96SB x±2.58 S xC x±1.96 S xD x±1.64SE、以上均不是13、有8名传染病病人,其潜伏期分别为2,2,3,4,7,5,17,8天,则平均潜伏期为:A 5.5 天B 5 天C 4.5天D 6天E、以上均不是14、S大表示各变量值A 平均水平高B 抽样误差大C 变量间相差水平大D 各变量相接近E、以上均不是15、血清学滴度资料一般应计算:A. xB. MC. GD. P XE. 以上均不是16、中位数适用于下列资料:A 偏态分布的资料B 有极大或极小值的资料C 分布不明的资料D 以上都是E.以上均不是17、要比较两个单位不同资料的变异大小,可选用_____变异指标A 四分位数间距B 极差C标准差D变异系数E. 以上都不是18、几何均数可适用于:A 资料中有正有负的资料B 资料中有0的资料C 资料中全部为正或全部为负的资料D 任何资料E. 以上都不是19、变异系数的数值:A.一定大于1B.一定小于1C.一定比标准差小D.一定比标准差大E.以上全不对20、医学中确定参考值范围时应注意:A.正态分布资料不能用均数标准差法B.正态分布资料不能用百分位数法C.偏态分布资料不能用均数标准差法D.偏态分布资料不能用百分位数法E.随意选择21、来自同一总体的两个样本中小的那个样本均数估计总体均数更可靠:A SBxC S2D CVE.以上全不对22、可信区间说明:A 个体变量的分布范围B 总体均数所在的范围C 标准差的可信程度D 平均数的可信程度E.以上全不对23、在假设检验中,P值的含义是:A 因抽样误差造成数据间差异至少大于如此程度的概率B H0正确的概率C H1正确的概率D 两组数据存在差异的概率E. 以上全不对24、用t检验比较两均数的差异时,t 越大,P越小,愈说明:A 两均数差别大B 样本含量大C 有理由认为两总体均数不同D 有理由认为两样本均数不同E.以上全不对25、某医生治疗黑热病贫血病人17例,测量了每例治疗前后血红蛋白的含量,欲了解治疗前后有无差别应选用A 两样本的t检验B χ2检验C u检验D 配对t检验E.以上全不对26、在t检验中,若05=α,当t<t(0.05,v)时,可认为:< bdsfid="233" p=""></t(0.05,v)时,可认为:<>A 两样本均数不同B 两总体均数不同C 两样本均数相同D 两总体均数相同E.以上全不对27、两个t检验资料,一个t>t0.05一个t>t0.01,可认为A 后者两样本均数相差比前者大B 前者两样本均数相差比后者大C 后者更有理由认为两总体均数不同D 后者更有理由认为两总体均数相同E.以上全不对28、某医师给一批高血压病人服用某降压药,观察服药前后的降压效果,其假设检验的公式为:A sxxtμ-=Bxxstx2121--=Cs ddt=D 以上都是E.以上全不对29、用样本推断总体均数的95%可信区间时,其上下限为:A x±2.58s xB x±t(0.05,ν)s xC x±1.96sD x±t(0.05,ν)sE.以上全不对30、统计推断的内容:A 参数估计B 假设检验C t 检验D 以上都不是 E. A 和B 都是31、抽样误差存在的原因是: A 抽样B 总体中存在个体差异C 样本含量太小D .A 和B 都是 E. 以上都不是32、缩小抽样误差的方法有: A 扩大样本含量 B 保证同总体同质C 以上都是D 以上都不是 E. 减少样本含量 33、x 与s x 的关系为: A x 越大,s x 越小 B x 越大,s x 越大 Cs x 越大,x 代表性越大D s x越小,x 推断μ的可靠性越大E.以上都是34、四个样本作比较,201.02χχ>,则认为:A 各总体率不同或不全相同B 各总体率均不相同C 各样本率不同或不全相同D 各样本率均不相同 E.以上都是35、哪种情况的资料,必须采用四格表的直接计算概率法:A n >40 而且 1<t<5< bdsfid="302" p=""></t<5<>B . n >40 而且 T>5C . n<40 或 T<1 D. N>40 而且 T>1 E. 以上都不是36、四组人群每组均有A 、AB 、B 、O 型四种血型的人数各若干,要比较四组人群血型情况有无差别,则作: A . t 检验B.χ2检验C. u 检验 D .方差分析 E. 以上全对37、哪种情况,宜采用四格表的校正公式:A . n >40 而且 1<t40 而且 T>5</tC .n<40 或 T<1D .N>40 而且 T<1 E.以上全对38、计算麻疹疫苗接种后血清检查阳转率,分母为:A 麻疹易感人数 B 麻疹患儿人数 C 麻疹疫苗接种人数D 麻疹疫苗接种后的阳转人数 E.以上全不对39、已知男性的钩虫感染率高于女性,现欲比较甲乙两地的钩虫感染率,但甲乡的人口女多于男,乙乡的人口男多于女,适当的比较方法为:A 不具可比性,不能比较B 两个率比较的χ2检验 C 对性别标准化后再比较 D 以上都不对 E 以上都对40、四格表周边合计数不变时,实际频数如有改变,理论频数:A 增大B 减少C 不变D 不知道E 以上都对41、χ2检验中自由度的计算公式是: A 行数×列数 B n-1 C n-kD (行数-1)×(列数-1)E 以上都对42、四格表中,当a =30,b =60,c =40,d =50时,最小理论频数等于: A 18011070? B 1809090?C 1809070?D 18090110?E 以上都对43、配对四格表作2检验时的检验假设为: A B=C B A=C C B=D D A=B E 以上都对44、行×列表中,χ2检验其适用的条件为:A 允许1/5以下的格子理论频数小于5B 允许1/5以上格子的理论频数小于5C 允许1/5格子的理论频数大于1小于5D 以上都对E 以上都不对45、配对四格表χ2检验中应用校正公式的条件为:A b+c ≥40 B b+c<40 C n ≥40D n<40E 以上都对46、要了解某地区鲜血人员的血型分布情况,应选用______指标描述 A 率 B 相对比 C 构成比 D 中位数 E 以上都对47、比较甲、乙、丙、丁四个单位的发病率可选用:A 线图B 直方图C 圆图D 直条图E 以上都对48、比较工厂外伤患病率用,比较甲乙两地各年份的肝炎发病率用A 直方图B 构成条图C 线图D 直条图E 以上都对49、比较某地10年间结核与白喉两病死亡率的下降速度,宜绘制:A 直方图B 直条图C 普通线图D 半对数线图E 以上都对50、在统计图中,图号与标题的位置:A.应在上方B.应在下方C.可在任意位置D.应在左侧E 以上都对答案:1C 2B 3D 4D 5B 6C 7B 8D 9D 10C 11D 12A 13C 14C 15C 16D 17D 18E 19E 20C 21B 22B 23A 24C 25D 26D 27C 28C 29B 30E 31D 32C 33D 34A 35C 36B 37A 38C 39C 40C 41D 42C 43A 44C 45B 46C 47D 48D C 49D 50B。
医学统计方法—分类变量资料的统计分析
常用类型: ➢率(rate) ➢构成比(constituent ratio) ➢相对比(relative ratio),等
概念:又称频率指标或强度指标,是指某一现象在一定条件 下实际发生的例数与可能发生该现象的总例数之比,用以说 明某现象发生的频率或强度。
2
91 1 4.90
bc
9 1
(3)确定P值:
查
x
2界
值表,来自得x 2 0.05,1
3.84
x2 0.01,1
6.63。
现 x2 =4.90,x2> x20.05, 故 P<0.05 (4) 做出推断结论:
按α=0.05水准,拒绝H0 ,接受H1,差异有统计学 意义,可以认为两种培养方法的效果不同, A培养基 效果优于B培养基。
计算相对数时应有足够的样本含量; 资料分析时不能以构成比代替率; 资料的对比应注意其可比性; 样本率(或构成比)的比较应考虑抽样误差。
表 某年某医院两种疗法治疗某传染病各型的治愈率(%)
病型
新疗法
传统疗法
治疗例数 治愈例数 治愈率 治疗例数 治愈例数 治愈率
普通型 350
重型
150
217
药物 甲药 乙药 合计
表1 两药物疗效的比较
有效
无效
合计
65 (57.4) 17(24.6)
82
40 (47.6) 28 (20.4)
68
105
45
150
表内蓝体数字为实际頻数,括号里数字为 理论頻数,是假设两药物疗效无差别算得
若假设H0:π1=π2成立,四个格子的实际频数 A 与理论 频数 T 相差不应该很大,即统计量x2值不应该很大。如 果x2值很大,则反过来推断A 与T 相差太大,超出了抽样 误差允许的范围,从而怀疑H0的正确性,继而拒绝H0, 接受其对立假设 H1,即π1≠π2 。
医学统计学-总复习
2021/9/24
47
四格表资料卡方
根据以下三条件选择具体方法: • 若n>40,T>5时,直接计算2值;
• 若n > 40 ,此时有 1< T 5时,需计算
Yates连续性校正2值;
• T <1,或n≤40或P≈α时,应改用Fisher
确切概率法直接计算概率。
2021/9/24
48
配对四格表资料卡方
2021/9/24
51
第十二章 基于秩的非参数检验
2021etric test)
信区间要么包含了总体均数,要么不包 动范围。“正常人”指排除了影
义
含。但可以说:当=0.05 时,95%CI 估 响所研究指标的疾病和有关因
计正确的概率为 0.95,估计错误的概率小 素的同质人群。“大多数”是指
于或等于 0.05,即有 95%的可能性包含 90%,95%,99%等。
了总体均数。
总体均数的波动范围
• 正态分布概念:
是一种重要的连续型分布,若以计量值为横轴绘 制一条频数分布曲线,这条曲线呈现对称的、中间 高、两侧逐渐下降的形状,其位置与均数有关,形 状与标准差有关。
记作 X N(, 2) ,μ为 X 的总体均数, 2 为总体方差。
医学中常见的正态分布:
正态分布的参数
• 变量服从正态分布。记做 X ~ N (, 2 )
• 总体均数(位置参数) :描述正态分布的集中趋
势的位置
• 总体标准差(变异度参数) :描述正态分布离散 趋势, 越小,分布越集中,曲线形状越“瘦 高”;反之越“矮胖”。
• 正态曲线的形状由
两个参数决定
正态分布曲线的对称性质
• 设X服从 N(, 2) ,则正态曲线在X =处对称,正态曲线(-∞, )处的曲线下 面积为0.5,
统计学与研究方法试题答案
统计学与研究方法试题答案第一章绪论1单选题1、总体是指()A.全部研究对象B.全部研究对象中抽取的一份C.全部样本D.全部研究指标E.全部同质研究对象的某个变量的值2、统计学中所说的样本是指()A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分E.有目的的选择总体中的典型部分3、下列资料属等级资料的是()A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分类E.ABO血型分类4、为了估计某年华北地区家庭医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是997元,标准差是391元。
该研究中研究者感兴趣的总体是()A.华北地区1500户家庭B.华北地区的5个城市C.华北地区1500户家庭的年医疗费用D.华北地区所有家庭的年医疗费用E.全国所有家庭的年医疗费用5、欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度、高血压家族史、月人均收入、吸烟、饮酒、打鼾、脉压差、心率等指标信息。
则构成计数资料的指标有()A.文化程度、高血压家族史吸烟、饮酒、打鼾B.月人均收入、脉压差、心率C.文化程度、高血压家族史、、打鼾D.吸烟、饮酒E.高血压家族史、饮酒、打鼾第二章计量资料统计描述及计数资料统计描述1、描述一组偏态分布资料的变异度,以()指标较好。
A.全距B.标准差C.变异系数D.四分位数间距E.方差2、用均数和标准差可以全面描述()资料的特征。
A.正偏态分布B.负偏态分布C.正态分布D.对称分布E.对数正态分布3、各观察值均加(或减)同一数后()。
A.均数不变B.几何均数不变C.中位数不变D.标准差不变E.变异系数不变4、比较某地1~2岁和5~5.5岁儿童身高的变异程度。
宜用()。
A.极差B.四分位数间距C.方差D.变异系数E.标准差5、偏态分布宜用()描述其分布的集中趋势。
医学统计学分类变量资料的统计推断
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
分类变量的统计推断
比例
某一类别观察值数量与总数之比,用于描述各组在总体中的 比重。
百分比
比例乘以100,用于更直观地表示各组在总体中的比重。
列联表与卡方检验
列联表
将两个分类变量组合成一个表格,用 于展示两个变量之间的关系。
卡方检验
用于检验两个分类变量之间是否独立, 通过比较实际观测频数与期望频数来 评估变量之间的关联性。
适用场景
适用于描述不同群体之间的分布差异,如性别比例、城乡人口比 例等。
注意事项
比例估计需要保证样本的随机性和代表性,同时需要注意组间比 较的合理性和公平性。
风险比与优势比
估计方法
通过统计模型分析分类变量与结
果变量之间的关系,计算风险比
(relative
risk)和优势比
(odds ratio)。
分类变量的类型
1 2
品质型分类变量
表示事物的属性或特征,如性别、血型等。
顺序型分类变量
表示事物的有序类别,如评分等级、教育程度等。
3
分类型分类变量
介于品质型和顺序型之间,如星期几、月份等。
分类变量的应用场景
人口统计学
用于描述人口特征和分布,如性别、年龄、 民族等。
市场调查
用于了解消费者偏好和行为,如产品品牌、 购买渠道等。
02
随机森林具有较高的分类准确率和稳定性,能够处理高维特 征和大数据集。
03
它还提供了特征重要性和偏差估计等附加信息,有助于理解 和改进模型。
支持向量机
01
支持向量机(SVM)是一种有监督学习算法,旨在找到能够将 不同类别的数据点最大化分隔的决策边界。
02
SVM适用于线性可分和线性不可分的数据集,尤其在处理小样
医学统计学方法Medical statistics
例:某医师进行高血压子代患病率调查,结果 如下表。试问两组的高血压患病率是否一 样?
两组子代的高血压患病率
患病 人数 父或母患病组 父母均患病组 合计 101 112 213 未患病 人数 104 41 145 合计 205 153 358 患病率 (%) 49.27 73.20 59.50
• n1=153 P1=73.2% pc=59.5% qc=40.5%
P<0.005
三、配对资料的χ2检验
配对设计 资料陈述形式
乙 + a c b d
甲 + -
关联性检验(独立性检验):同四格表
差异性检验:
(b − c) b + c ≥ 40时,χ = b+c 2 (| b − c | −1) 2 b + c < 40时,χ 校正 = b+c
2 2
例1: 用甲乙两种方法检查已确诊的胰腺癌病人120例,结果 如下表。问两种方法检出结果是否有差异?
P<0.005
2
例2: 某医生比较两种不同手术治疗某病的疗效,共 收治病71例,结果见下表。试问这两种手术治疗该 病的疗效是否相同? 两种手术治愈率 分组 甲手术 乙手术 痊愈 25 37
(| a d − b c | −
未愈 7 2
治愈率(%) 78.13 94.87
n 2 ) n 2 χ 2 (校 正 ) = ( a + b )( c + d )( a + c )( b + d ) (| 2 5 × 2 − 7 3 × 7 | − 721 ) 2 7 1 = 1 8 .4 6 χ 2 (校 正 ) = (3 2 ) × (3 9 ) × (6 2 ) × (9 )
卫生统计学试题(含答案)
医学统计方法选择题一:医学统计方法概述l.统计中所说的总体是指:AA根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体2.概率P=0,则表示BA某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 DA分层抽样B系统抽样C整群抽样D单纯随机抽样E二级抽样4.测量身高、体重等指标的原始资料叫:BA计数资料B计量资料C等级资料D分类资料E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 1该资料的类型是:DA计数资料B计量资料C无序分类资料D有序分类资料E数值变量资料6.样本是总体的CA有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于¬¬统计工作哪个基本步骤:CA统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 CA收集资料、设计、整理资料、分析资料B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少:BA抽样误差B系统误差C随机误差D责任事故E以上都不对10.以下何者不是实验设计应遵循的原则DA对照的原则B随机原则C重复原则D交叉的原则E以上都不对第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 BA算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择CA XB GC MD SE CV13.各观察值均加(或减)同一数后:BA均数不变,标准差改变B均数改变,标准差不变C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、lO、2、24+(小时),问该食物中毒的平均潜伏期为多少小时?CA 5B 5.5C 6D lOE 1215.比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:DA全距B标准差C方差D变异系数E极差16.下列哪个公式可用于估计医学95%正常值范围 AA X±1.96SB X±1.96SXC μ±1.96SXD μ±t0.05,υSXE X±2.58S 17.标准差越大的意义,下列认识中错误的是BA观察个体之间变异越大B观察个体之间变异越小C样本的抽样误差可能越大D样本对总体的代表性可能越差E以上均不对18.正态分布是以 EA t值为中心的频数分布B 参数为中心的频数分布C 变量为中心的频数分布D 观察例数为中心的频数分布E均数为中心的频数分布19.确定正常人的某项指标的正常范围时,调查对象是BA从未患过病的人B排除影响研究指标的疾病和因素的人C只患过轻微疾病,但不影响被研究指标的人D排除了患过某病或接触过某因素的人E以上都不是20.均数与标准差之间的关系是EA标准差越大,均数代表性越大B标准差越小,均数代表性越小C均数越大,标准差越小D均数越大,标准差越大E标准差越小,均数代表性越大第九章数值变量资料的统计推断21.从一个总体中抽取样本,产生抽样误差的原因是AA总体中个体之间存在变异B抽样未遵循随机化原则C被抽取的个体不同质D组成样本的个体较少E分组不合理22.两样本均数比较的t检验中,结果为P<0.05,有统计意义。
医学统计学试题及其答案
医学统计学试题及其答案 The latest revision on November 22, 2020l.统计中所说的总体是指: A A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体2.概率P=0,则表示 B A某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 D A分层抽样B系统抽样C整群抽样D单纯随机抽样E二级抽样4.测量身高、体重等指标的原始资料叫: B A计数资料B计量资料C等级资料D分类资料E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗人数82363 1 该资料的类型是: D A计数资料 B计量资料 C无序分类资料 D有序分类资料 E数值变量资料6.样本是总体的 C A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于统计工作哪个基本步骤:C A统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 C A收集资料、设计、整理资料、分析资料 B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料 D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少: B A抽样误差B系统误差C随机误差D责任事故E以上都不对10.以下何者不是实验设计应遵循的原则 DA对照的原则B随机原则C重复原则D交叉的原则E以上都不对第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 B A算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 CA XB GC MD SE C V13.各观察值均加(或减)同一数后: B A均数不变,标准差改变B均数改变,标准差不变C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、lO、2、24+(小时),问该食物中毒的平均潜伏期为多少小时 CA5B5.5C6D10E1 2 15.比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:DA全距B标准差C方差D变异系数E极差16.下列哪个公式可用于估计医学95%正常值范围 AA X±B X±Cμ±Dμ±,υS X E X±17.标准差越大的意义,下列认识中错误的是 B A观察个体之间变异越大B观察个体之间变异越小C样本的抽样误差可能越大D样本对总体的代表性可能越差E以上均不对18.正态分布是以 E A t值为中心的频数分布B参数为中心的频数分布C变量为中心的频数分布D观察例数为中心的频数分布E均数为中心的频数分布19.确定正常人的某项指标的正常范围时,调查对象是 B A从未患过病的人B排除影响研究指标的疾病和因素的人C只患过轻微疾病,但不影响被研究指标的人D排除了患过某病或接触过某因素的人E以上都不是20.均数与标准差之间的关系是 E A标准差越大,均数代表性越大B标准差越小,均数代表性越小C均数越大,标准差越小 D均数越大,标准差越大E标准差越小,均数代表性越大第九章数值变量资料的统计推断21.从一个总体中抽取样本,产生抽样误差的原因是 AA总体中个体之间存在变异 B抽样未遵循随机化原则C被抽取的个体不同质 D组成样本的个体较少 E分组不合理22.两样本均数比较的t检验中,结果为P<,有统计意义。
人群健康研究的统计学方法(四)考试答案和讲义
人群健康研究的统计学方法(四)1、率表示()A、某现象发生的频率或强度B、事物内部各组成部分所占的比重或分布情况C、两个有联系指标之比D、某事物内部各组成部分出现的频率2、以下关于率的抽样误差代表意义描述错误的是()A、率的抽样误差越小,说明率的标准误越小B、率的抽样误差越小,用样本推论总体时,可信程度越低C、率的抽样误差越小,用样本推论总体时,可信程度越高D、率的抽样误差越大,说明率的标准误越大3、相对比=A/B,说明()A、A为B的若干倍或百分之几B、A、B两个指标只可以为绝对数C、性质肯定相同D、肯定是定性资料4、以下关于应用相对数时的描述正确的是()A、分析时可以以构成比代替率B、观察单位数不等的几个率的平均率,不能将这几个率直接相加求其均值C、所比较资料的内部构成不一定相同D、样本率或构成比的比较不必进行假设检验5、()在表的左侧,表明被研究事物的主要特征,相当于句子的主语A、备注B、标题C、纵标目D、横标目人群健康研究的统计学方法(四)北京大学公共卫生学院刘爱萍一、分类变量资料的统计分析(一)分类变量资料的统计描述1 .相对数常用的指标及其意义相对数主要涵盖:率、构成比和相对比。
率是表示某现象发生的频率或强度,常用百分率、千分率、万分率或十万分率等表示。
它的计算公式是:(实际发生某现象的观察单位数 / 可能发生该现象的观察单位总数)×比例基数。
构成比是说明事物内部各组成部分所占的比重或分布情况,用百分数表示。
构成比 = (事物内部某一组成部分的观察单位数 / 同一事物各组成部分的观察单位总数)× 100% 。
构成比的特点有 : 它的值在 0 和 1 之间变动。
当某一部分构成比发生变化时,其他部分的构成比也相应地发生变化。
相对比是指两个有联系指标之比( A/B ),常以百分数或者倍数表示。
它说明 A 是 B 的若干倍或百分之几,指标可以是绝对数,也可以是相对数,性质可以相同,也可以不同,可以是定性资料,也可以是定量资料。
医学统计学智慧树知到课后章节答案2023年下宁波大学精选全文
可编辑修改精选全文完整版医学统计学智慧树知到课后章节答案2023年下宁波大学宁波大学绪论单元测试1.约翰斯诺,在1854年统计了一些霍乱死者的生活情况,发现霍乱的发生与水源有明显关联。
( )答案:对2.南丁格尔根据南丁格尔玫瑰图发现士兵战死人数明显少于由于受伤而缺乏及时治疗而死亡的士兵人数。
( )答案:对3.统计学的应用无处不在。
( )答案:对4.统计学就是?以下说法正确的是()。
答案:是分析事物发展及规律的重要工具;用数据说话的科学5.当今,统计已成为()。
答案:政府决策的参谋部;百姓生活的智慧帮手;经济运行的千里眼;企业运营的百宝箱第一章测试1.统计中所说的总体是指()。
答案:根据研究目的确定的同质的研究对象的全体2.概率,则表示()。
答案:某事件必然不发生3.测量身高、体重等指标的原始资料叫()。
答案:定量资料4.若以舒张压大于等于12kPa 为高血压,调查某地1000 人,记录每人是否患有高血压。
最后清点结果,其中有10 名高血压患者,有990 名正常人()。
答案:定性资料5.以下属于定量变量的是()。
答案:住院天数;病人白细胞计数;心律;门诊人数6.样本是总体的()。
答案:有代表性的部分7.计量资料、计数资料和等级资料的关系是()。
答案:等级资料兼有计量资料和计数资料的一些性质8.统计工作的基本步骤是()。
答案:收集资料、整理资料、分析资料9.在统计学上的统计量是指()。
答案:描述样本特征的指标10.统计上小概率事件通常是指()。
答案:一次实验或观察中该事件发生的可以性很小第二章测试1.研究一组数据的分布规律时,画频数表的第一个步骤应该是()。
答案:找出这组数据的最大值和最小值2.制作频数表的主要目的是()。
答案:观察数据的分布规律3.描述一组正态分布资料的平均水平应选择用()。
答案:算术均数4.描述一组成等比关系的数据的平均水平应选择用()。
答案:几何均数5.一组数据的均数等于其中位数,描述这组数据的集中趋势应选择用()。
分类变量资料的统计推断(预防医学)
(2)任一格的T<1或n≤40时,用确切概率计算法。
基本公式 专用公式
2
A T 0.52
T
2
ad bc n 22 n
(a b)(c d)(a c)(b d)
23
二、配对四格表资料的2检验
用途:用于配对定性资料差异性的假设检验 。
H0 : 1=2
H1 : 1 2 , =0.05
2.计算统计量
T11= 50.49
T12=179.51
T21= 39.51
T22=140.49
18
2 (A T )2 6.36
T
=(2-1)(2-1)=1 3.确定P及结论
根据 =1查 2 界值表,得0.01<P < 0.025,按=0.05的检验水准,拒绝H0, 接受H1,可认为两组发病率差别有统计学 意义,服药组流感发病率低与对照组。
此时,样本率p也是以总体率为中心
呈正态分布或近似正态分布的 。
6
一、样本率与总体率比较的u检验
u值的计算公式为
u | p 0 | | p 0 |
p
0 (1 0 ) n
7
二、两样本率比较的u检验
适用条件为两样本的np和n(1-p)均大于5。 计算公式为
Байду номын сангаас
u p1 p2
p1 p2
样本含量n足够大, p和1-p均不太小,且
np与n(1-p)均≥5时 ,
p u S p
4
❖ ㈡ 查表法
❖ 当样本含量较小(如n≤50),np或n(1- p)<5时,样本率的分布呈二项分布,总体
率的可信区间可据二项分布的理论求得。
计算标准化率
15
三、率的标准化
(二) 标准化率的计算
把原率资料按影响因素的标准构成调整后算得的率, 称为标准化率(standerdized rate)亦称为调整率。
计算标准化率的步骤:
1.方法选择:直接法和间接法 2.标准选择:① 选取包含比较各组的大范围人口构成; ② 两组合并的人口构成; ③ 其中任一组的人口构成。
2.计算u值 u
0.3 0.26 1.713 0.3(1 0.3)
385
3.确定P值,判断结果
本例u=1.713<1.96,P>0.05,按=0.05的水准不拒绝
H0,差异无统计学意义。
39
四、两样本率比较的u检验
(二)两样本率的比较
条件:n1p1、n1(1-p1) 、n2p2、n2(1-p2)均大于5
5.41
4.39
44.14
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
查表法
(一)正态近似法
应用条件:
当样本含量n足够大,且样本率P和(1-p)均不太小, 如np或n(1-p)均≥5时,样本率的分布近似正态分布, 则总体率的可信区间可由下列公式估计: 总体率()95%的可信区间:p1.96sp 总体率()99%的可信区间:p2.58sp
举例
例 10-6中该地人群中结核菌素试验阳性率 95% 和99%的置信区间为:
u
0.0854 0.1486 13 .739 0.0046
第三步: 确定P值,作出统计推断
确定P值和判断结果
本题 u =13.739>2.58,P<0.01,按=0.05的水
准拒绝H0,接受H1,差异有统计学意义。
对照前一个例子, 区分不同的检验来自 法小结率的抽样误差(率的标准误) 总体率的区间估计
38.47%,试计算其标准误。
sp
0.3847 0.3847 0.0116 1.16% 1773
三、总体率的置信区间估计
总体率的估计: (estimation of confidence interval of rate) 点估计 区间估计: 根据样本含量n和样本率P的大
小不同,分别采用下列两种方法:
比较目的 推断样本率分别代表的未知总 体率π1和π2是否相同 。
举例
例10-8 为了解某地小学生蛔虫感染率的城乡差异,抽样
调查了该地小学生22792人,其中城镇小学生8207人,粪 检蛔虫卵阳性数为 701人,蛔虫感染率为 8.54%,乡村小
学生14585人,粪检蛔虫卵阳性数为2167人,蛔虫感染率
四、两个率比较的u检验
条 件:
1、样本含量 n 足够大
2、样本率 p 和 1-p 均不接近于零,此时
样本率的分布近似于正态分布
(一) 样本率与总体率的比较
公 式
u=
p
p
1
n
p
举例
例10-7 一般情况下,直肠癌围术期并发症发生率为
30%,现某医院手术治疗了385例直肠癌患者,围术期出
率的抽样误差。
率的抽样误差用率的标准误表示 。
计算公式:
p
n
p 为率的标准误, 为总体的阳性率,n 为样本含量。
若不知道总体阳性率,则用样本阳性率P来代替,则 公式变为:
sp
p p n
例 10-6
为了解某地人群结核菌素试验阳性率
情况,某医疗机构在该地人群中随机检测了 1773人,结核菌素试验阳性有 682人,阳性率为
95%的置信区间: 38.47%1.961.16%=36.20%~40.74% 99%的置信区间: 38.47%2.581.16%=35.48%~41.46%
(二)查表法
当n较小,如n 50,特别是p接近于 0或1时,按二 项分布原理估计总体率的可信区间。
因其计算比较复杂,统计学家已经编制了总体率可 信区间估计用表,可根据样本含量n和阳性数x查阅 统计学专著中的附表 。
为 14.86% ,试比较该地小学生蛔虫感染率城乡差异有无 统计学意义。
领悟题目含义,拟定分析方法。
第一步: 建立检验假设
H0: 1=2,H1: 12,=0.05
第二步: 选定检验方法,计算统计量
701 2167 Pc 0.1258 8207 14585
1 1 S P1 P2 0.1258 (1 0.1258 )( ) 0.0046 8207 14585
率的抽样分布图
率的抽样分布特征
1.为离散型分布; 2.当π =1-π时,呈对称分布; 3.当n增大时,逐渐逼近正态分布。 一般认为,当nπ和n(1-π)≥5时, 可近似看
作正态分布。
二、率的抽样误差和标准误
(sampling error and standard error of rate)
从同一个总体中随机抽出观察数相等 的多个样本,样本率与总体率、各样本 率之间往往会有差异,这种差异被称作
n! X n X P( X ) (1 ) X !(n X )!
X 0, 1, 2,, n
已知:①π =0.5,n =10;②π =0.3,n =5;③π =0.3,n =10; ④π =0.3,n =15。试根据式(10-6)求各阳性数事件的概率并 作概率分布图。
图10-1
第一步:
建立检验假设 Ho: π= π0 H1: π≠ π0 确定检验水准 第二步:
α=0.05
选定检验方法,计算统计量
u
p
p
0.3 0.26 0.3(1 0.3) 385
1.713
第三步:
确定P值,作出统计推断
本题u=1.713<1.96,故P>0.05,按α=0.05的水准不 拒绝Ho,差异没有统计学意义,故尚不能认为该院
率的u检验(大样本率的u检验)
第三节
基本思想
2 c 检验
四格表资料的卡方检验
配对设计分类变量资料的卡方检验
现并发症有100例,并发症发生率为26%,问该院直肠癌 患者围术期并发症发生率与一般情况比较有无统计学差异。
领悟题目含义, 拟定分析方法。
本例,样本率为26%,np和n(1-p)均大于5,可采 用u检验。
本例总体率π为0.30(30%),1- π=0.70, N=385。样本率P=100/385=0.26
主要内容
率的抽样分布 率的抽样误差(率的标准误)
总体率的区间估计
率比较的u检验
一、率的抽样分布
从某个二项分类总体中随机抽取含量一定的样本,其样本 率的分布概率是有规律的,这种规律为服从二项分布
(binomial distribution),即样本中阳性数或样本阳性
率的分布概率等于二项式展开后各项。若总体阳性率为 π、 样本含量为n,阳性数为X,则样本中出现X个阳性事件的概 率可由下式求得。
直肠癌患者围术期并发症发生率与一般情况不同。
(二)两个样本率的比较
公 式
u=
p1 p2 1 1 pc (1 pc )( ) n1 n 2
X1 X 2 pc n1 n2
(1)
(2)
公式中P1和P2为两个样本率;Pc为合并样本率;
X1和X2分别为两个样本的阳性例数
条件 两样本的np和n(1-p)均大于5