医学统计学复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ied医学统计学复习资料
一、名词解释题
1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:
1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。
10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。
11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。
12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。
13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。
14. 组间变异(variation between group):用各组均数与总均数的离均差平方和表示
ν组间=k-1
,k为实验分组数,组间均方为MS组间=SS组间/( k-1)
15. 组内变异(variation within group):用各组均数与总均数的离均差平方和表示
,各组自由度为ni-1,则组内自由度为ν组内=N-k,组内均方为MS组内=SS组内/( N-k)
16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。
17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n为奇数时,M=X(n+1)/2;当n为偶数时,M=[Xn/2+ Xn/2+1]/2。
18. 百分位数(percentile):是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。
19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。 , 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。
20. 统计表(statistical table):统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。
21. 频率(relative frequency):在n次随机试验中,事件A发生了m次,则比值
称为事件A在n次试验中出现的频率(relative frequency)。m称为出现的频数(frequency)。
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。
22. 概率(probability):在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。
描述随机事件发生的可能性大小的数值,常用P来表示。
23. 统计量(statistic):由样本所算出的统计指标或特征值。
24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r表示,取值范围均为[-1, 1]。
25. 回归系数(regression coefficient):直线回归方程 = a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。
26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:
不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。
27. 正偏态和负偏态分布:频数分布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布,是指观察值偏离中央的分布。当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,如人体中一些重金属元素的分布等。反之,尾部偏向数轴负侧(或左侧)时,则称为负偏态(或左偏态)分布。
28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。
29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差 称为标准误。
30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计(point estimation)和区间估计(interval estimation)。
31. 点估计(point estimation):直接用样本统计量作为对应的总体参数的估计值。
32. 区间估计(interval estimation):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI),又称置信区间。这种估计方法称为区间估计。
33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。
34.Ⅰ类错误(typeⅠerror):统计学上规定,拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。
35.Ⅱ类错误(typeⅡerror):统计学上规定,不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。
36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。
37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。
参数检验:假定比较数据服从某分布,通过参数的估计量( , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t、u检验、方差分析。
38. 非参数检验:适用于任意分布(distribution free)的统计方法,这种方法称为非参数统计。这种假设检验方法,比较的是分布而不是参数,故称为非参数检验。
非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的
分布进行统计检验的方法,称为非参数检验(nonparametric test).
39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为:
40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,其计算公式为:
41. 比(ratio):又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B。
二、问答题和简答题
1. 常见的三类误差是什么?应采取什么措施和方法加以控制?
答:常见的三类误差是:
(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。
(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。
2. 抽样中要求每一个样本应该具有哪三性?
答:从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。需要作“样本例数估计”。
3. 什么是两个样本之间的可比性?
答:可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要
求基本齐同,也称为齐同对比原则。
4. 标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)
不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
5. 标准差与标准误有何区别和联系?
区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。②标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同: n增大时,①s→σ(恒定)。②标准误减少并趋于0(不存在抽样误差)。
(3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:参数估计和假设检验。
联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
6. 应用相对数时的注意事项有哪些?
①要注意绝对数与相对数结合应用;②要注意观察单位样本数不宜过小;③要注意分子分母正确选用;④要注意率与比的正确应用;⑤要注意平均率的计算方法;⑥要注意资料的可比性;⑦率和构成比比较时作假设检验。
7. 简述直线回归与直线相关的区别。
(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。
(2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
8. 何谓抽样误差?分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。
答:总体中的个体间存在变异,在进行抽样研究时,样本的统计量不等于总体参数,这种误差称为抽样误差。均数的抽样误差:常用样本均数的标准差 (简称标准误)反映均数抽样误差的大小。 (理论值), (估计值)。率的抽样误差:常用率的标准误 反映率的抽样误差的大小。 (理论值), (估计值)。
9. 假设检验的理论依据是什么?请简述假设检验的基本步骤。
答:假设检验的理论依据是小概率事件原理,步骤为:
(1)根据研究目的建立假设,确定检验水准
(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量
(3)确定P值,做出推断结论
10. 方差分析的基本思想是什么?你所知道的其用途有哪些?
答:方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。
方差分析应用广泛,可用于:①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。
11. 完全随机设计的两样本率比较时,如何正确选择统计分析方法(写出相应的计算公式)。
(1)当总例数n≥40且所有格子的T≥5时,用?2检验的基本公式或四格表资料?2检验的专用公式;当P ≈α时,改用四格表资料的Fisher确切概率法。公式为:
,v=(行数-1)(列数-1)
(2)当n≥40但有1≤T<5时,用四格表资料?2检验的校正公式;或改用四格表资料的Fisher确切概率法的连续性校正法: ,
(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。
12. 什么是医学参考值范围?估计医学参考值范围如何正确选用统计方法?
答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。如95%的参考值范围包括了95%的观察值,而有5%的观察值不在这一范围内。
估计医学参考值范围确定方法:
(1)正态分布法:适用于正态或近似正态分布的资料
双侧界值 ;单侧上界 ;单侧下界
(2)对数正态分布法:适用于对数正态分布的资料
双侧界值 ;单侧上界 ;单侧下界
(3)百分位数法:用于偏态资料
双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P5
13. 什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因素有关?
答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准α。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有关。 1-β为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力;
14. ?2检验的基本思想是什么?其用途主要有哪些?
答:①?2检验的基本思想:其计算公式为 ,式中A代表实际频数;T代表理论频数;而?2值反映了实际频数与理论频数的吻合程
度,其中 反映了某个格子实际频数与理论频数的吻合程度。若检验假设H0成立,实际频数与理论频数的差值会小,则?2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,则?2值也会大。
②?2检验的用途:a、单样本的拟合优度检验;b、比较两个独立样本的频率分布是否不同;c、多个独立样本的频率分布是否不同;d、比较配对样本的频率分布;
15. 对两个随机变量进行关联性或相关性分析时,如何正确选择统计分析方法(写出相应的公式)?
答:①两变量为数值变量时:a、若两变量均为正态随机变量,且其散点图呈直线趋势,则用直线相关分析,计算样本相关系数:
然后对其进行假设检验:
H0:ρ=0
H1:ρ≠0
α=0.05
,v=n-2
b、若两变量为非正态分布,则用等级相关分析。将两变量各自按由小到大的顺序排秩,编上秩次,求各对数据的秩次之差,记为di。按下式计算Spearman等级相关系数:
然后对其进行假设检验:
H0:ρ=0
H1:ρ≠0
α=0.05
当n≤50时,查Spearman等级相关系数界值表;当n>50时,按下式计算检验统计量u:
,根据标准正态分布的概率函数确定P值,作出推断结论。
②两变量为分类变量时:
a、两变量均为无序多分类变量时:用行×列表的?2检验:
H0:两变量无关联
H1:两变量有关联
α=0.05
,
若拒绝H0,接受H1,可计算Pearson关联系数:
b、两变量均为有序多分类变量时,可用Spearman等级相关分析,方法同前。
16. 简述t检验的具体步骤,如何进行检验结果判断?
步骤:(1)建立假设和确定检验水准α;(2)计算统计量;(3)确定P值;(4)判断结果。结果的判断:P >α,接受H0,差异无显著性,可认为差异是由抽样误差所致。P ≤α,拒绝H0,差异有显著性,可认为样本间存在差异。
17. 统计表和统计图的用途是什么?
统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,便于分析和比较。
18. 抽样研究中如何才能控制或减小抽样误差?
答:合理的抽样设计,增大样本含量。
19. 何谓抽样误差?为什么说抽样误差在抽样研究中是不可避免的?
答:由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间的差异
因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分的结果与总体的结果存在差异彩是不可避免的
20. 能否说假设检验的p值越小,比较的两个总体指标间差异越大?为什么?
答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差
异大小有关,更与抽样误差大小有关,同样的总体差异,抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作中主要反映在样本量大小上。
21.在秩和检验中,为什么在不同组间出现相同数据要给予“平均秩次”,而在同一组的相同数据不必计算平均秩次?
答:这样编秩不影响两组秩和的计算,或对两组秩和的计算不产生偏性。
22. 某医生用某药治疗10例小儿支气管哮喘,治愈8例,结论为“该药对小儿支气管哮喘的治愈率为80%,值得推广”。
答:一是没有对照组,二是样本例数太少,抽样误差大,可信区间宽。
23. 某地1岁婴儿平均血红蛋白95%可信区间为116.2~130.1(g/L),表示什么意义?该地1岁正常婴儿血红蛋白95%的参考值范围为111.2~135.1(g/L),又说明了什么含义?
答:表示该地1岁婴儿血红蛋白总体平均数在116.2~130.1(g/L),估计正确的概率为95%
表示该地有95%1岁正常婴儿的血红蛋白值在111.2~135.1(g/L)
24. 对同一组资料,如果相关分析算出的r越大,则回归分析算出的b也越大。为什么?
答:没有这个规律。相关分析r值大小仅说明变量间联系紧密,而回归分析b的大小说明两者数量关系。
25. 某医生用某药治疗10例小儿支气管哮喘,治愈8例,结论为“该药对小儿支气管哮喘的治愈率为80%,值得推广”。
答:一是没有对照组,二是样本例数太少,抽样误差大,可信区间宽。
25. 描述集中趋势的指标有哪些?其适用范围有何异同?(5分)
①均数:适用于正态或近似正态分布
②几何均数:适用于等比数列或对数正态分布资料
③中位数:适用于资料是偏态分布的;分布不规则;一端或两端有不确定数据(开口资料)时。
26. 何谓假设检验?可以举例说明。(5分)
首先建立检验假设,然后在该假设下进行随机抽样,计算得到该统计量及其极端情形的概率,如果概率较小,则拒绝该假设,如果概率不是小概率,则接受该假设,这个过程称为假设检验。
27. 请你谈谈对假设检验结论的认识。(5分)
由于假设检验的结论是依据小概率事件一次试验实际不可能发生的原理进行的,因此当拒绝检验假设时可能犯I型错误,当接受检验假设时可能犯II型错误。
28. 请你谈谈标准差和标准误的异同点。(5分)
区别点 标准差 标准误
意义 个体差异大小 抽样误差大小
计算公式 总体标准差:
样本标准差: 或
与n的关系 n↑ ,则S→σ n↑,则 →0
用途 与均数结合可制定参考值范围 与均数结合可计算总体均数的可信区间
31. 简述怎样描述一组计量资料的集中趋势和离散趋势
描述集中位置的指标:①均数:适用于正
态或近似正态分布;②几何均数:适用于等比数列或对数正态分布资料;③中位数:适用于资料是偏态分布的;分布不规则;一端或两端有不确定数据(开口资料)时。
描述离散趋势的指标:①极差(Range):记为R,又称全距,指一组数据中最大值和最小值之差。极差大,说明资料的离散程度大。②四分位数(quartile):记为Q,即P25和P75。对P25来说,有25%(1/4)的观察值小于P25,称为下四分位数,记为QL;对P75来说,有25%(1/4)的观察值大于P75,称为上四分位数,记为QU。所谓四分位数间距(inter-quartile range):就是上四分位数与下四分位数之差,即 。其间包含了全部观察值的一半。四分位数间距大,说明变异度大;反之,说明变异度小。③方差:离均差的平方和除以N得总体方差。离均差:数据集中各个观察值与均数之差。④标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。全面反映了一组观察值的变异程度。⑤变异系数:标准差与均数之比,用百分数表示。
32. 试述假设检验中 I 型错误与 II 型错误的意义及关系。
答:拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误(typeⅠerror)或第一类错误;不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误(typeⅡerror)或第二类错误。Ⅰ型错误的概率用α表示,是根据研究者的要求在计算检验统计量之前设定的。Ⅱ型错误的概率用β表示,一般地,β的大小和样本例数、α值、两总体的实际差距有关,它只有与特定的H1结合起来才有意义,而通常的检验假设其总是非特定的,所以β值的大小很难确切估计。仅知道样本例数确定时,α越小,β越大,反之,α越大,β越小。所以α和β是相互制约的,可以根据研究要求适当控制。要同时减少α及β,唯一的方法是增加样本例数,当样本例数确定后,可以通过选定α来控制β。若重点减少α,一般取较小的α;若重点减少β,一般取α=0.05,α=0.1或更高,因为虽属未知,但估计比取α=0.01时小些。
33. 试比较完全随机设计和随机区组设计资料的方差分析基本思想。
(1)完全随机设计资料的方差分析
完全随机设计(completely random design):亦称成组设计。该设计仅涉及一个研究因素,k个不同的水平(k个分组)。用单因素方差分析(one-way ANOVA)。三种变异:SS总=SS组间+SS组内
(2)随机区组设计资料的方差分析
随机区组设计(random block design):又称配伍设计,是配对设计的扩展。
四种变异:SS总= SS处理+ SS区组+ SS误差,ν总=kb-1
34. 试比较标准差和标准误的关系与意义。
答:标准差是描述个体值变异程度的指标,为方差的算术平
方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。
35. 简述非参数检验的应用条件和优缺点。
答:应用条件:①有序分类资料、②偏态分布资料、③变异较大或方差不齐的资料、④分布型不明的资料及⑤有特大、特小值或数据的一端或两端有不确定数值的资料。
主要优点是不受总体分布的限制,适用范围广。主要缺点是符合参数检验的资料(两样本均数比较的t检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。
36. 常见非线性回归有哪几种?
答:常见的非线性回归:①Quadratic 二次模型Y=b0+b1X+b2X2,②Compound复合模型Y=b0b1X,③Growth生长模型Y=e b0+b1X,④Logarithmic对数模型Y=b0+b1ln X,⑤Cubic三次模型Y=b0+b1X+b2X2+b3X3,⑥S模型Y=e b0+b1/X,⑦Exponential指数模型Y= b0e b1X,⑧Inverse逆模型Y=b0+b1/X,⑨Power幂模型Y=b0Xb1,⑩Logistic模型 。
37. 复相关系数与确定系数的定义与意义
答:复相关系数: 称为复相关系数。R的意义:①Y与多个自变量间的线性相关程度;②Y与估计值 间的相关程度。
确定系数:相关系数的平方称为确定系数,它反映回归贡献的程度。相当于在总离均差平方和中回归能解释的百分比。即说明回归贡献占Y的总变异中的比例。
38. 什么是可信区间,可信区间有哪两个要素?
答:可信区间:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI),又称置信区间。
可信区间的两个要素:①准确性:又称可靠性,反映为可信度1-α的大小,显然可信度愈接近1愈好。②精确性:常用可信区间的长度CL-CU来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-α取值有关。
39. 常用非参数假设检验方法有哪些?
答:常用的非参数检验方法有符号检验、秩和检验、等级相关检验及Radit分析等。
40. 简述正态分布的应用。
答:(1)估计频数分布,(2)制定参考值范围,(3)质量控制:为了控制实验中的检测误差,常以±2 s作为上、下警戒值,以±3 s作为上、下控制值。(4)统计分析方法的基础。
41. 简述医学参考值范围含义并写出95%双侧医学参考值范围的两种计算方法及公式。
答:医学参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。
95%双侧医学参考值范围的两种计算方法及公式
(1)正态分布法:1-α参考值范围公式,双侧: ;单
侧:> 或< 。
(2)百分位数法:1-α参考值范围公式,双侧: ;单侧:> 或< 。
42. 简述秩相关的适用范围。
答:秩相关的适用范围:(1)不服从双变量正态分布而不宜作积差相关分析;(2)总体分布类型未知;(3)原始数据用等级表示。
43. 简述假设检验的注意事项。
答:假设检验的注意事项:①假设检验时可能犯两类错误;②选择检验方法要注意符合其应用条件;③正确理解假设检验的结论;④当差别无显著性时,有两种可能;⑤统计学的显著性与否和日常生活中的显著性概念不同;⑥单侧检验与双侧检验。
44. 简述正态分布的特征。
答:(1)单峰分布;当X=μ时,f(X)取最大值;总体中位数亦为μ。
(2)以均数μ为中心,左右完全对称。
(3)正态分布取决于两个参数,即均数μ和标准差σ。
(4)有些指标不服从正态分布,但通过适当的变换(transformation)后服从正态分布
(5)正态分布曲线下的面积分布是有规律的。
45. 简述频数表的主要用途。
答:(1)通过频数表了解数据的分布特征。①X值分布情况:偏态或正态分布;②取值情况:变量值取值范围;③集中趋势:变量值集中位置。
(2)便于发现资料中的可疑值。
(3)组段的频率作为概率的估计。
46. 简述t分布的特征。
答:(1)一簇单峰分布曲线;(2)以0为中心,左右对称;(3)与自由度有关,①自由度越小,t分布的峰越低,而两侧尾部翘得越高;②自由度逐渐增大时,t分布逐渐逼近标准正态分布;③当自由度为无穷大时,t分布就是标准正态分布。
47. 简述秩和检验的应用范围。
答:秩和检验的适用范围广,特别适用于组间比较:
(1)数据分布为偏态分布或不满足参数检验方法(组间方差不齐)的计量资料。
(2)有的数据为无确切值,只是>某值或<值的计量资料。
(3)当比较的数据只能用严重程度、优劣等级的半定量(等级)资料组间的比较。
秩和检验用于定量资料
计量资料中,变量值(x):①极度偏态资料,或个别数值偏离过大;②各组离散度相差悬殊;③资料中含有不确定值, 大于5年 、 <0.1;④兼有等级和定量性质的资料。
48. 什么是百分位数?写出计算公式。
答:百分位数(percentile):是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。
计算定义:将一组变量值由小到大依次排列,为第x百分位数的秩次,其对应的变量值(x)为第x百分位数,记为Px。
百分位数计算公式:
(1)直接法
将样本值由小到大排队,用nX%确定Px的位次和Px。
当nX%为带有小数位时用公式:
当nX%为带有小数位时用公式:
函数trunc(a):表示对数字取
其整数。
(2)频数表法(例数较多)
用公式:
LX :第X%位数所在组段的下限值
iX :第X%位数所在组段的组距
fX :第X%位数所在组段的频数
∑fL :第X%位数所在组段上个组段的累计频数
49. 绘制统计表、统计图的原则和基本要点是什么?
答:编制统计表的原则:①重点突出,一张表只表达一个中心内容。②主语在左,宾语在右,从左至右构成一句完整而通顺的话。③简单明了,文字、数字与线条尽量简洁。
编制统计表的要求:①标题:概括说明表的内容,必要时注明时间和地点,字数一般不超过20个。
常见缺点:过于简单;过于繁琐;题意不确切、具体。②标目:简明确切,有单位的要注明单位。常见缺点:标目层次过多;含意不确切;有单位的标目没有注明单位。③线条:④数字:一律用阿拉伯字表示;准确;整齐:同一指标的小数位数应一致;位次对齐。表内不留空格:暂缺或未记录,用…表示;不应出现数字,用 “—”表示;数字为零,用“0”表示。⑤备注:非表中必要的元素,一般不列入表内,必要时可用“*”标出,写在表的下面。
绘制统计图的原则:①标题:放在图的下方。②标目:横标目—说明横轴的内容,通常为分组因素;纵标目—说明纵轴的指标和单位,通常为被描述事物的指标。③刻度:坐标轴的刻度单位。④图例:对统计图中的线条、颜色进行说明,位于右上角或下方中间位置。
绘制统计图的要求:①按资料的性质和分析目的选用适合的图形:间断性资料 — 条图、圆图、百分条图;连续性资料 — 线图、直方图。②要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。③条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5:7为宜。④比较不同事物时,用不同的线条或颜色表示,要附图例说明。
三、教材课后简答题
1.对于一组近似正态分布的资料,除样本含量n外,还可计算 ,S和 ,问各说明什么?
答:三个指标分别说明:
(1) 为算术平均数,说明正态分布或近似正态分布资料的集中趋势;
(2)S为标准差,说明正态分布或近似正态分布资料的离散趋势;
(3) 可估计正态指标的95%医学参考值范围,即此范围在理论上应包含总体的95%个体值。
2.试述正态分布、标准正态分布及对数正态分布的联系和区别。
答:正态分布、标准正态分布及对数正态分布的联系和区别:
正态分布 标准正态分布 对数正态分布
原始值X 无需转换 作u=(X-μ)/σ转换 作Y=log X转换
分布类型 对称 对称 正偏态
集中趋势指标 μ μ=0 G
均数与中位数的关系 μ=M μ=M μ>M
3.说明频数分布表的用
途。
答:频数分布表的用途是:(1)描述频数分布的类型;(2)描述频数分布的特征;(3)便于发现一些特大或特小的可疑值;(4)便于进一步做统计分析和处理。
4.变异系数的用途是什么?
答:变异系数的用途:常用于①观察指标单位不同时,如身高与体重的变异程度的比较;②均数相差较大时,如儿童身高与成人身高变异程度的比较。
5.试述正态分布的面积分布规律。
答:正态分布的面积分布规律是:(1)X轴与正态曲线所夹面积等于1或100%;(2)区间 的面积为68.27%,区间 的面积为95.00%,区间 的面积为99.00%。
6.试举例说明均数的标准差与标准误的区别与联系。
答:例如某医生从某地2000年的正常成年男性中,随机抽取25人,算得其血红蛋白的均数 为138.5g/L,标准差S为5.20g/L,标准误 为1.04g/L。在本例中标准差就是描述25名正常成年男性血红蛋白变异程度的指标,它反映了这25个数据对其均数的离散情况。因此,标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。本例均数的标准误 ,此式将标准差与标准误从数学上有机地联系起来了,同时看出通过增加样本含量方法可以减少标准误。
7. 标准正态分布(u分布)与t分布有何不同?
答:t分布为抽样分布,标准正态分布(u分布)为理论分布。t分布比标准正态分布的峰值低,且尾部翘得要高。随着自由度的增大,t分布逐渐趋近于标准正态分布。即当自由度v→∞时,t分布→标准正态分布。
8.均数的可信区间与参考值范围有何不同?
答:均数的可信区间与参考值范围的区别主要体现在含义、计算公式和用途三方面的不同,具体如下表所示:
区别点 均数的可信区间 参考值范围
含义 按预先给定的概率,确定的未知参数的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:该可信区间有多大(如当α=0.05时为95%)的可能性包含了总体均数。 “正常人”的解剖、生理、生化某项指标的波动范围。
计算公式 ①σ未知:
②σ已知:
③σ未知但n>50:
①正态分布:
②偏态分布:
用途 估计总体均数 判断观察对象的某项指标正常与否
* 也可用 (对应于单尾概率时);** 也可用 (对应于单尾概率时)。
9. 假设检验时,一般当P<0.05时,则拒绝H0,理论根据是什么?
答:P值是指从H0规定的总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量
值(如t值或u值)的概率。当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05。因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现有样本信息不支持H0,所以怀疑原假设H0不成立,故拒绝H0。在下“有差别”的结论的同时,我们能够知道可能犯Ⅰ型错误的概率不会大于0.05(即通常的检验水准),这在概率上有了保证。
10. 假设检验中?和P的区别何在?
答:?和P均为概率,其中?是指拒绝了实际上成立的H0所犯错误的概率,是进行统计推断时预先设定的一个小概率事件标准。P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将P与?对比来得到结论,若P≤?,则拒绝H0,接受H1,有统计学意义,可以认为……不同或不等;若P>?,则不拒绝H0,无统计学意义,还不能认为……不同或不等。
11.怎样正确选用单侧检验和双侧检验?
答:单双侧检验首先应根据专业知识来确定,同时也应考虑所要解决的问题的目的。若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若研究者对低于或高于两种结果都关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。
12. t检验的应用条件是什么?
答:对单样本t检验要求资料服从正态分布;对配对t检验要求差值服从正态分布;对两样本t检验则要求两组数据均服从正态分布,且两样本对应的两总体方差相等,对两小样本尤其要求方差齐性。
13.I型错误与II型错误有何区别与联系?了解这两类错误有何实际意义?
答:I型错误指拒绝了实际上成立的H0所犯的“弃真”错误,其概率大小用α表示。则是指“接受”了实际上不成立的H0所犯的“取伪”错误,其概率大小用β表示。当样本含量n确定时,α愈小,β愈大;反之,α愈大,β愈小。了解这两类错误的实际意义在于,若在应用中要重点减少α(如一般的假设检验),则取α=0.05;若在应用中重点减少β(如方差齐性检验、正态性检验或想用一种方法代替另一种方法的检验等),则取α=0.10或0.20甚至更高。
14. 假设检验和区间估计有何联系?
答:假设检验用于推断质的不同即判断两个(或多个)总体参数是否不同,而可信区间用于说明量的大小即推断总体参数的范围。两者既相互联系,又有区别。假设检验与区间估
计的联系在于可信区间亦可回答假设检验的问题,若算得的可信区间包含了H0,则按α水准,不拒绝H0;若不包含H0,则按α水准,拒绝H0,接受H1。也就是说在判断两个(或多个)总体参数是否不等时,假设检验和可信区间是完全等价的。
15. 为什么假设检验的结论不能绝对化?
答:因为通过假设检验推断作出的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。拒绝H0时,可能犯Ⅰ型错误;“接受” H0时可能犯Ⅱ型错误。无论哪类错误,假设检验都不可能将其风险降为0,因此在结论中使用绝对化的字词如“肯定”、“一定”、“必定”就不恰当。
16.方差分析的基本思想和应用条件是什么?
答:方差分析的基本思想就是根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异SS组间可由处理因素的作用加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论各种研究因素对试验结果有无影响。
方差分析的应用条件为:①各样本是相互独立的随机样本,均服从正态分布;②相互比较的各样本的总体方差相等,即具有方差齐性。
17.在完全随机设计方差分析中SS组间、SS组内各表示什么含义?
答:SS组间表示组间变异,指各处理组样本均数大小不等,是由处理因素作用(如果有)和随机误差造成的;SS组内表示组内变异,指各处理组内变量值大小不等,是由随机误差造成的。
18.随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同?
答:随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上的不同之处,具体如下表所示:
区别点 完全随机设计 随机区组设计
设计 采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理 随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。
变异分解 三种变异:SS总=SS组间+SS组内 四种变异:SS总=SS处理+SS区组+SS误差
19.如何确定应用于试验的拉丁方?
答:首先根据水平数g来选定拉丁方大小;然后对选定的基本拉丁方做行列变换获得随机排列的拉丁方。
20. 为什么在方差分析的结果为拒绝H0、接受H1之后,对多个样本均数的两两比较要用多重比较的方法?
答:方差分析的备择假设H1是g个总体均数不全相等,拒绝H0,接受H1,只说明g个总体均数总的来说有差别,并不说明两两总体均数
都有差别。若想进一步了解哪两两总体均数不等,则需进行多个样本均数间的多重比较。
21.常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点。
答:有强度相对数(率)、结构相对数(构成比)、相对比三种。
率的含义:某现象实际发生的例数与可能发生的总例数之比,说明某现象发生的频率或强度。其特点为:说明某现象发生的强度。
计算公式:
构成比的含义:事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,通常以100为比例基数,又称百分比。其特点为:①一组构成比的总和应等于100%,即各个分子的总和等于分母;②各构成部分之间是相互影响的,某一部分比重的变化受到两方面因素的影响,其一是这个部分自身数值的变化,其二是受其它部分数值变化的影响。
计算公式:
相对比的含义:是两个有关指标之比,说明两指标间的比例关系。其特点为:两个指标可以是性质相同,也可以是性质不同;两个指标可以是绝对数、相对数或平均数。
计算公式:
22.以实例说明为什么不能以构成比代替率?
答:例如某医生研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。总失败人数为126人,人工流产后失败人数为78,月经后失败人数为39,哺乳期失败人数为9.由此计算得到人工流产后失败人数的百分数为61.9%,月经后为31.0%,哺乳期为7.1%,三者比较得出人工流产后最容易发生避孕失败,这个结论是不对的。因为作者只考虑了失败人数,计算得到的指标是构成比,只能说明放置避孕环失败者各占的比例。若要了解失败率,一定要用失败人数除以放环人数。如人工流产后放环255例失败78例,失败率是30.6%;月经后放环87例失败39例,失败率是44.8%;哺乳期内放环17例失败9例,失败率是52.9%,正确结论应该是哺乳期内放环最容易发生避孕失败。
23.何为标准化法?简述直接标准化法与间接标准化法的区别。
答:采用某影响因素(如年龄、性别、工龄、病情轻重、病程长短等)的统一标准构成,然后计算标准化率的方法称为标准化法,其目的是消除原样本内部某影响因素构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。直接标准化法和间接标准化法的主要区别是:如对死亡率的年龄构成标准化,若已知年龄别死亡率,可采用直接法,选择一个标准年龄人口构成直接计算标准化率;若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率时,宜采用间接法,选择一个标准年龄别死亡率,先计算标准化死亡比(SMR),再用SMR乘以标准总死亡
率得标准化死亡率。
24.应用标准化率进行比较时要注意什么问题?
答:(1)标准化法只适用于因两组内部构成不同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的可比性问题,标准化法不能解决。
(2)由于选择的标准人口不同,算出的标准化率也不同。因此,当比较几个标准化率时,应采用同一标准人口。
(3)标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。
(4)两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,还应作假设检验。
25.相对数的动态指标有哪几种?各有何用处?
答:相对数的动态指标即其动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
绝对增长量是说明某相对数在一定时期增长的绝对值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度是各环比发展速度的几何均数,说明其相对数在一个较长时期中逐期(如逐年)平均发展变化的程度。
26.简述二项分布的应用条件。
答:二项分布的应用条件:①每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和恒等于1;②每次试验产生某种结果(如“阳性”)的概率固定不变;③重复试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。
27.简述Poisson分布的性质特征。
答:Possion分布的性质特征:①总体均数λ与总体方差σ2相等;②当n很大,而π很小,且nπ=λ为常数时,Possion分布可看作是二项分布的极限分布;③当λ增大时,Possion分布渐近正态分布。一般而言,λ≥20时,Possion分布资料可作为正态分布处理;④Possion分布具备可加性。即对于服从Possion分布的m个互相独立的随机变量X1,X2,…,Xm,它们之和也服从Possion分布,且其均数为这m个随机变量的均数之和。
28.简述二项分布与Poisson分布的区别。
答:所谓随机变量X服从二项分布,是指在n重Bernoulli试验中,发生某种结果(如“阳性”)的次数X=0,1,2,…,n的一种概率分布,其恰好发生X个阳性的概率为 ,其中 ,且总有 。式中X=0, 1, 2,…, n,“!”为阶乘符号,n!=1×2×3×4×…×n,并约定0!=1。
而所谓随机变量X服从Possion分布,是指X满足:①取值范围为0, 1, 2,…, n;②相应的概率为 ,且总有 。在总体率π很小,而样本含量(试验次数)n趋向于无穷大时,二项分布近似于Possion分布。因此,Possion分布可看作是二项分布的一种极限情况,可用来描述小概率事件发生的规律性。
29.简述二项分布与负二项分布的区别。
答:所
谓随机变量X服从二项分布,是指在n重Bernoulli试验中,发生某种结果(如“阳性”)的次数X=0,1,2,…,n的一种概率分布,其恰好发生X个阳性的概率为 ,其中 ,且总有 (式中X=0, 1, 2,…, n,“!”为阶乘符号,n!=1×2×3×4×…×n,并约定0!=1)。在二项分布中,独立重复试验的次数n是固定的。当n不固定,记n=X+k,这里X取值是0,1,2,…,而k为大于零的常数时,则在X+k次试验中,出现‘’阳性”的次数恰好为X次的概率分布即是负二项分布,且其概率就是负二项式 的展开式中的一项。在医学上,二项分布可用于描述非传染性疾病的分布,而负二项分布就常用于描述生物的群聚性,如描述传染性疾病的分布等。
30.简述二项分布、Poisson分布和正态分布间的联系。
答:二项分布、Possion分布和正态分布间的联系为:①在n很大,而π很小,且nπ=λ为常数时,二项分布的极限分布为Possion分布;②在n较大,π不接近0也不接近1时,二项分布B(n, π)近似正态分布N(nπ, ),而相应的样本率p的分布也近似正态分布N(π, σp);③当λ增大时,Possion分布渐近正态分布。一般二言,λ≥20时,Possion分布资料可作为正态分布处理。
31. 说明?2检验的用途。
答:?2检验的用途较广。通常多用于①推断两个总体率或构成比之间有无差别;②推断多个总体率或构成比之间有无差别;③多个样本率的?2分割;④两个分类变量之间有无关联性;⑤频数分布拟合优度的?2检验。
32. 两样本率比较的u检验与?2检验有何异同?
答:两样本率比较时,若对同一资料同时进行u检验与?2检验,在不校正的情况下,?2=u2;但u检验通常用于大样本,而?2检验可用于大样本或小样本。
33. 对于四格表资料,如何正确选用检验方法?
答:(1)首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。
(2)对于两样本率比较的四格表资料,应根据各格的理论值T和总例数n的大小选择不同的?2计算公式:①当n≥40且所有的T≥5时,用?2检验的基本公式 或四格表资料?2检验的专用公式 ,②n≥40,且任一理论频数T有1≤T<5,用四格表资料?2检验的校正公式 或 或用四格表资料的Fisher确切概率法;③当n<40,或T<1时,用四格表资料的Fisher确切概率法。
若资料满足两样本率u检验的条件,也可用u检验。
(3)对于配对设计的四格表资料,若检验两种方法的检测结果有无差别时:①(b+c) ≥40, ;②(b+c) <40, 。
34. 说明行 列表资料?2检验应注意的事项。
答:(1)行×列表中的理论频数不应小于1,或1≤T<5的格子数不宜超过格子总数的1/5。
(2)多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各
总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两个总体率之间有差别,需进一步做多个样本率的?2分割或多重比较。
(3)对于有序的R×C表资料不宜用?2检验。对于R×C表的资料要根据其分类类型和研究目的选用恰当的检验方法。
35. 说明R×C表的分类及其检验方法的选择。
答:(1)分类:R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。
(2)检验方法的选择:①双向无序R×C表:若研究目的为多个样本率(或构成比)的比较,可用行×列表资料的?2检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行×列表资料的?2检验以及Pearson列联系数进行分析。②单向有序R×C表:若R×C表中的分组变量是有序的,而指标变量是无序的,此种单向有序R×C表资料可进行行×列表资料的?2检验分析其构成情况;若R×C表中的分组变量为无序的,而指标变量是有序的,此种单向有序R×C表资料宜用秩和检验分析。③双向有序属性相同的R×C表:宜用一致性检验分析两种检测方法的一致性。④双向有序属性不同的R×C表:若研究目的如为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R×C表资料,选用秩和检验;若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。
36.什么叫做非参数检验?它和参数检验有什么区别?
答:非参数检验对总体分布不作严格假定,不受总体分布的限制,又称任意分布检验,它直接对总体分布(或分布位置)作假设检验。如果总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。
37.什么叫做秩转换的非参数检验?它适用于哪些情况?
答:秩转换的非参数检验是先将数值变量从小到大或等级从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。它适用于:不满足正态或(和)方差齐性的小样本计量资料;分布不知是否正态的小样本资料;一端或两端是不确切数值的资料;等级资料。
38.两组或多组等级资料的比较,为什么不能用?2检验,而用秩转换的非参数检验?
答:若选行×列表资料的?2检验,只能推断两个或多个总体的等级构成比差别,这一般不是推断目的;而选秩转换的非参数检验,可推断两个或多个总体的等级强度差别,这是推断目的。
39.总体有n个秩:1,2,…, n。若n个秩中有相同秩(如1,2,4,4,4,6,7,…n),其均数和方差是否会改变?变大还是变小?
答:均数不改变,方差改变,方差变小。
40.两
独立样本比较的Wilcoxon秩和检验,当n1>10或n2-n1>10时用u检验,这时检验是属于参数检验还是非参数检验,为什么?
答:属于非参数检验。因为这时的u检验是比较例数较小组秩和(T)与其总体均数(n1(N+1)/2)的差别,而秩和(T)不是参数。
41.随机区组设计多个样本比较的Friedman M检验,备择假设H1如何写?为什么?
答:H1写为多个总体分布位置不全相同。H1不能写为多个总体分布不全相同。因为Friedman M检验对于多个总体分布的形状差别不敏感,只对其位置差别敏感。
42.试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?
答:用tb、tr作t检验;用F对b和R2作方差分析;直接查τ界值表。
43.现有根据10对数据算出的直线回归方程: =2.1+0.8X,只有X和Y的均数、标准差,而原始数据丢失时如何判定回归方程是否成立?
答:例如可以利用r=b×SX/SY,求得相关系数,然后查相关系数界值表对回归方程作假设检验。
44.请计算直线回归中残差和自变量之间的积差相关系数。
答:可以证明,残差 与自变量X之间的相关系数为0。
证:只需证明二者的离均差积和
因为 的均数为 ,所以 ,故有:
45.直线回归分析中应注意哪些问题?
答:(1)两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析,其中哪一个作为应变量主要是根据专业上的要求而定,同时直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量。
(2)进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现异常点并进行进一步处理。
(3)对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越 “显著”。直线回归用于预测时应尽量避免不合理的外延。结果中的决定系数可表示两变量关系的实际效果。
46.简述直线回归与直线相关的区别与联系。
答:两者的联系:①对于既可以作相关又可作回归分析的同一组数据,计算出的b与r正负号一致。②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr。③同一组数据的相关系数和回归系数可以相互换算:r=bY?X×SX/SY。④用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则r2越接近1,说明相关的效果越好。
两者的区别:①资料要求上:相关要求X、Y服从双变量正态分布,这种资料进