1,
多个比较不全相同
7、假设检验时,一般当p<0.05时则拒绝H。理论依据是?
P值是指从H。规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量的概率,当P<0.05时,说明在H。成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05.因小概率事件在一次试验中几乎不可能发生,现的确发生了说明现有样本信息不支持H。所以怀疑原假设H。不成立故拒绝H。在下有差别的结论的同时,我们能够知道可能犯1型错误的概率不会大于0.05,这在概率上有了保证。
7、假设检验与区间估计的差别
答:都属于统计推断。假设检验用以推断总体参数之间是否有区别,并可获得检验统计量,得到相对精确的概率值。而可信区间用于推断总体参数的大小,不仅能回答差别有无统计学意义,还能提示差别的数值大小有无实际意义。但后者不能完全代替前者,因为假设检验能得到P值,比较精确的说明结论正确的概率。而可信区间只能在预先规定的可信度下计算一个范围,不能提供精确的概率,需要将两者有机结合。
8、在样本均数与某个已知总体均数比较的假设检验中,在什么情况下用t检验,在什么情况下用u 检验?
1)t检验的应用条件:
①当总体标准差未知且样本含量n较小时,如n<60
②总体正态或近似正态分布
③两个样本成组设计要求方差齐性
2)u检验的应用条件
①n较大(n>100)
②n虽小而总体标准差已知
9、假设检验中的Ⅰ型错误和Ⅱ型错误,如何控制两类错误的概率大小,两类误
差的实际意义,两种类型错误的联系。
1)第一类错误,拒绝了实际上成立的H0,这类“弃真”的错误为I型错误(假阳性),用α表示,大小等于检验水准。第二类错误“接受了”实际上不成立的H0,这类“取伪”的错误为II型错误(假阴性),用β表示,一般大小未知。2)控制:样本含量一定的话可以设置较小的检验水平控制1类错误,适当放大检验水准可以控制2类错误,如果要同时减小两类错误必须增大样本含量。3)实际意义:可用于样本含量的估计。可用来计算可信度(1-a),表明统计推断可靠性大小。可用来计算把握度(1-B),评价检验方法的效能。有助于选择适当的检验水准,用于说明统计结论的概率性。
实际意义:用于样本量的估计;用于计算可信度(1-α);用来计算把握度(1-β);有助于选择适当的检验水准;用于说明统计结论的概率性。
联系:当样本含量一定时,α增大β减小;n一定时可通过a来控制β的大小,要同时减小两者就要增大样本含量。
10、正态分布(含义未写)、标准正态分布(u分布)和t分布有什么联系和区别?
联系:都是对称的连续型分布,正态分布经过线性x-u/6转换,变换成均数为0,方差为1的正态分布,称为标准正态分布;t分布在自由度较大时趋向于标准正态分布。区别:1)曲线图形不同2)功能不同:正态分布和标准正态分布可用于u检验参考值范围制定,质量控制等,而t分布主要用于t检验或总体均数的可信区间。U和t分布的区别:t分布为抽样分布,u分布为理论分布。随着自由度的增大,t分布逐渐趋近于标准正态分布。
11、制定医学参考值范围的基本原则:①抽取样本含量足够大的正常人;
②对抽取的正常人进行准确统一的测定,控制测量误差;③判断是否需要分组指定参考值范围;④决定参考值范围的单侧或双侧界值;⑤选择适当的百分界值。
第四章
1、t检验和方差分析的用途及其条件分别是什么
t检验用途:1.样本均数x与已知某总体均数u比较的t检验,推断一个未知总体均数u与已知总体均数u0是否有差别,用单样本设计2.两个样本均数x1与x2比较的t检验,推断两个未知总体均数u1与u2是否有差别,用成组设计3.配对设计资料均数比较的t检验,推断两个未知总体均数u1与u2是否有差别,用配对设计。
应用条件:正态性、方差齐性、样本例数小(n<50)
方差分析用途按实验设计的类型,将全部观察值间变异分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的差异是否具有统计学意义,从而推断不同样本所代表的总体均数是否相同。
应用条件:①各样本是相互独立的随机样本,均服从正态分布;②相互比较的各样本的总体方差相等,即具有方差齐性。
3、随机区组设计与完全随机设计资料在设计和分析方面有何不同?
答:在设计上,前者在设计阶段按照一定条件将受试对象配成区组,平衡了某些因素效应对处理因素效应的影响,更好地控制了其他因素对处理因素效应的影响,设计效率较高。在分析上,随机区组设计资料的方差分析将总变异分解为若干部分,将由区组因素导致的变异分离出来,使得误差更接近“随机误差”,假设检验的结果更敏感。
4、试述单样本、两样本、三个以上样本均数假设检验的方法及试用条件
1、单样本均数假设检验方法:单样本t检验,即已知样本均数X与已知总体均数u的比较。总体标准差未知且样本含量n较小时,样本随机地取自正态分布的总体。
2、两个样本均数假设检验方法:两样本t检验适用于完全随机设计两样本均数的比较,两总体均数是否不等,当两样本含量较小且均来自正态总体时,要根据两总体方差是否相等而用不同检验方法:总体方差相等用t检验;总体方差不等,用近似t检验。
3、三个以上均数假设检验方法:多个样本均数比较的方差分析,条件:各样本是相互独立的随机样本;均来自正态分布总体;具有方差齐性。
5、SS组间和SS组内分别代表什么?
SS组间:组间变异指各处理组样本均数大小不等,是由处理因素作用和随机误差造成的。SS组内:指各处理组内变量值大小不等,是由随机误差造成的。
第五章
2、定性资料的描述一般采用哪些统计指标(常用的相对数指标)?各自意义是什么?使用时注意事项?
答:统计指标:比、构成比、率。强度相对数(率):指有两个有联系的指标之比,说明某现象发生的频率或强度。构成比:说明一事物内部各组成部分所占的比重或分布。比(相对比):是两个有关指标之比。
注意事项:计算相对数的分母不宜过小;分析时不能以构成比代率;不能直接相加求其平均率;资料的对比应注意可比性
3、举例说明统计资料的类型和不同类型资料间的相互转化.
1)①计量资料(measurement data),为观测每个观察单位某项指标的大小而或得的资料,表现为数值大小,如身高;②计数资料(quantitative data),为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到资料,如试验结果阳性、阴性、家族史的有无;③等级资料(ranked data),为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料,如观察某人群某血清反应,以人为单位观察,根据反应强度,结果分为-、+-、+、++、+++、++++六级。
2)在资料分析过程中,根据需要在有关转化理论指导下,各类资料可相互转化。例:以人为观察单位,观察某人群脉搏数(次/分),属计量资料;若根据医学专业理论,定义脉搏数在60~100次/分为正常,<60次/分或>100次/分为异常,按“正常”与“异常”两种属性分别清点人数,汇总后则转化为计数资料;若进一步定义脉搏数<60次/分为缓脉,>100次/分为速脉,按“缓脉”、“正常”、“速脉”三个等级分别清点人数,汇总后可转化为等级资料。
计量资料\计数资料\等级资料优缺点:.定性指标:按照某一性质计数所得的指标,通常以频率表示集中趋势。信息含量少,只能进行定性分析 2.定量指标:可用度量衡测量的指标,可用均数表示集中趋势。信息含量大,可进行剂量反应
关系的分析
5、率的标准化法:
标准化法:当比较两组资料的总率时,如果其内部不同小组率有明显差别,而且各小组构成也明显不同,需要采用统一的共同标准对总率进行标准化。这种用统一的内部构成计算标准化率的方法为标准化法。原因:采用统一的标准,对内部构成不同的各组频率进行调整和对比,消除资料内部构成不同的影响,使资料在统一标准下具有可比性,避免错误结论。基本思想是:采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使标准化后的合计率有可比性。步骤:1、根据对比资料所具备的条件选择直接法、间接法。2、选定标准构成。3采用不同的方法公式计算标准化率。如对死亡率的年龄构成标准化,若已知年龄别死亡率,可采用直接法;若只有总死亡数和年龄别人口数而缺乏年龄别死亡率时,或各年龄组人口数较小,年龄别死亡率不稳定时,宜用间接法。区别:直接法:已知被观察人群中各年龄组的患病率等资料,适用于两组资料中某事物发生率的互相对比。间接法:适用于仅已知各年龄组的观察单位数和总患病率的资料。
6、为什么不能以构成比代替率?
构成比:说明一事物内部各组成部分所占的比重或分布。率:又称频率指标,他说明某现象发生的频率或强度。
构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度,在实际工作中经常会出现将构成比指标按率的概念去解释的错误,例如研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。放环失败的人数占失败总人数的百分比构成并不能说明在该种状况下放环失败的发生频率。临床工作中受各种因素共同干预产生的疾病、病因构成比容易产生错误的结论。
7、频数分布表的用途:1描述频数分布的类型2特征3便于发现一些特大或特小的离群值4便于进一步做统计分析和处理
第六章
1、二项分布:在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,概率保持不变时,出现“阳性”次数X=0,1,2,…,n的一种概率分布。适用条件:①每次只会发生两种对立的结果。②每次产生某种结果的概率不变。③重复试验相互独立。应用:①总体率的区间估计②样本率与总体率的比较
③两样本率的比较④研究非遗传性疾病的家族共聚性。⑤群检验、混合样品分析。
2、Poisson分布:二项分布的一种极限情况,是描述小概率时间发生规律的一种重要分布。使用条件:①普通性在充分小的观测单位上X的取值最多为1。②平稳性:各次实验具有独立性③平稳性:X的区直至于观测单位的大小有关,与观测单位的位置无关。
3、二项分布、poisson分布和正态分布三者的联系:
正态分布是所有分布趋于极限大样本的分布,属于连续分布。二项分布与泊松分布,则都是离散分布,二项分布的极限分布是泊松分布、泊松分布的极限分布是正态分布。1)在n很大,而π很小且nπ=λ为常数时,二项分布的极限为Poisson 分布。2)在n较大,π不接近0也不接近1时,二项分布近似正态分布,而相应的样本率的分布也近似正态分布。3)当λ增大时,Poisson分布逐渐趋近于正态分布,一般当λ≥20,Poisson分布资料可做正态分布处理。
即np=λ,当n很大时,可以近似相等。当n很大时(还没达到连续的程度),
可以用Poisson分布近似代替二项分布;当n再变大,几乎可以看成连续时,二项分布和Poisson分布都可以用正态分布来代替。
第七章
1、χ2检验的基本思想和用途?
卡方检验的基本思想就是观察并检验统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。用途:多用于推断两个总体率或构成比之间有无差别;推断多个总体率或构成比之间有无差别;多个样本率比较的χ2分割;两个分类变量之间有无关联性;频数分布拟合优度。
2、四格表χ2检验对数据有什么要求?四格表资料卡方检验公式选择条件?
要求:①随机样本数据②卡方检验的理论频数不能太小. 选择条件:①所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验. ②如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验. ③如果有理论数T<1或n <40,则用Fisher’s检验。
3、行x列表资料做χ2检验的目的是推断连个或多个总体率或构成比是否相同
4、RxC表卡方检验中,对于理论频数太小的情况应如何处理?
1)增加样本含量,以达到增大理论频数的目的首选
2)删去理论频数太小的格子所对应的行或列会损失样本信息
3)合并理论频数太小的格子所对应的行或列注意合并是否合理
5、如何对两个变量进行关联性分析?
1、对服从正态分布的两随机变量,可绘制散点图,发现直线性趋势之后,进而计算Pearson相关系数,以此描述两变量的线性相关性。
2、对不满足正态分布的两随机变量,仍可绘制散点图,发现有递增或递减趋势之后,可采用Spearman 秩相关系数来描述两变量的线性相关性;
3、对两个反应属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立的χ2检验和列联系数来描述关联性。
第八章
1、对于同一资料,出于同一分析目的,分别采用参数检验与非参数检验所得结果不一致时,宜何着为准?
①对于计量资料 1.若满足正态和方差齐性条件,这时小样本资料选t检验或F 检验,否则选秩转换的非参数检验 2.对于分布不知是否正态的小样本资料,为保险起见,宜选秩转换的非参数检验3.对于一端或是两端是不确定数值的资料,不管是否正态分布,只能选秩转换的非参数检验②对于等级资料,若选行乘列表资料的卡方检验,只能推断构成比差别,而选秩转换的非参数转换可以推断等级强度差别。如果已知剂量资料满足t检验或F检验条件,当然选t检验或F检验,因为此时若选秩转换的非参数检验,会降低检验效能。
2参数检验与非参数检验的区别
①参数检验是检验总体参数是否有差别,而非参数检验是检验总体分布的位置是否相同。②参数检验的优点是能充分利用样本资料所提供的信息,因此检验效率较高。其缺点是有较严格的使用条件,如要求总体的分布呈正态分布,各总体方
差要相等,有些资料不满足使用条件,就不能用参数检验。非参数检验的优点是适用范围广。它不要求资料分布的形式,另外可用于等级资料或不能确切定量的资料。缺点是不能充分利用样本所提供的信息,因此检验效率较低,产生第二类错误较大。
3、非参数检验的概念及优缺点;使用条件
不依赖与总体分布类型,不考虑总体参数,而对总体分布或分布位置进行假设检验的方法。优点:适用范围广,计算简便易掌握,收集资料方便。缺点,不能充分利用样本提供的信息,检验效能低,犯II类错误概率大。使用条件:1总体分布偏态或分布形式未知的计量资料。2等级资料3个别数据偏大或者数据的某一端未确定的树值。4各组数据离散程度相差悬殊,,即总体方差不齐。
4、非参数检验特点:①对样本所来自的总体的分布形式不作要求,分布未知都能适用。②收集资料方便,可用“等级”或“符号”来评定观察结果。③多数非参数方法比较简便,易于理解和掌握。④缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。适用范围:①等级资料。②偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。③各组离散程度相差悬殊,即方差明显不齐,且通过变换亦不能达到齐性。④个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。⑤分布类型不明。⑥资料初步分析。
5、Wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。在理论上检验假设H0应为两个总体分布相同,由于秩和检验对两个总体分
不能为两个总体分布不同,而只能布的形状差别不敏感,故对立的备择假设H
1
为两个总体分布位置不同(对单侧检验可写作某个总体分布位置比另一个总体分布位置要右或要左一些)。考虑到对方差不等、即总体分布不同的两个正态分布,可用秩和检验来推断两个总体分布位置是否有差别,故在实际应用中检验假设可写作两个总体分布位置相同。总之,不管两个总体分布的形状有无差别,秩H
和检验的目的是推断两个总体分布的位置是否有差别,两个总体分布位置不同,实际情况一般是两个总体分布形状相同或类似,这时可简化为两个总体中位数不等。
第九章
1、直线回归与相关有何区别和联系
区别:①资料要求上不同,回归要求因变量y服从正态分布,x是可以精确测量或严格控制的,此类回归一般称I型回归。相关要求x,y均服从正态分布,此类资料进行回归分析称II型回归。②在应用上不同,回归反应变两量间依存变化的数量关系,相关反应两变量间的密切程度和方向。
联系:①符号:同一组资料,r 与b符号(正负好)一致(注意:两者大小有一定关系,但不绝对)②假设检验:同一组资料,r 与b的假设检验是等价的,即tb = tr ③换算关系:r与b可相互转换④可用回归解释相关:相关系数r的平方称为决定系数,其意义为回归变异占总变异的比值。r2越接近于1说明相关分析的意义越大,即贡献越大
2、线性回归与线性相关分析
数据要求:线性回归(又叫直线回归)要求自变量可精确测量和严格控制误差。线性相关(直线相关)要求两个变量服从双变量正态分布。
适用条件:①散点图有线性趋势②专业上要求分析两变量间关系密切程度和变化方向,通过一个变量预测另一个变量③两变量均符合正态分布或X是可以精确测量的,Y服从正态分布。
3、为什么要对样本回归系数及样本相关系数作统计检验?
样本统计量都存在抽样误差,样本回归系数及样本相关系数都是用数学公式计算的,但是如果他们的对应总体参数本身为0的话,那么总体就没有线性或没有线性回归关系,所以必须对他们的总体参数作假设检验,如果假设检验结果总体参数不为0,样本回归系数及样本相关系数就有统计学意义,可以证明他们的回归或相关关系;如果总体系数为0,那么样本回归系数及样本相关系数就没有统计学意义。
4、直线回归与相关有何区别联系
答:区别:1)资料要求上,回归要求Y服从正态分布,X是可以精确测量和严格控制的变量为Ⅰ型回归,要求两个变量服从双变量正态分布若进行回归则为Ⅱ型回归;而相关要求x、y是都符合正态分布的随机变量;
2)应用上,说明两变量间依存变化的数量关系用回归;研究变量间相关的密切程度和方向的有相关;
联系:1)相关与回归系数r、b的正负一致2)相关与回归系数的假设检验是一致3)可用回归解释相关。
5、常用统计图及适用条件。
①直条图;用于相互独立的资料表示其指标大小
②圆图、百分条图:适合描述分类变量资料的各类别所占的构成比。
③线图:适合于描述某统计量随另一连续性数值变化而变化的趋势,常为统计量随时间变化而变化的趋势,其中半对数线图特别适宜做不同指标变化速度的比较。
④直方图:适合表示连续型数值变量资料的频数分布
⑤统计地图:描述研究指标的地理分布
⑥散点图:用于双变量资料,表示两种现象之间的相互关系
⑦箱状图:用于数值变量的的描述比较
11. 统计表有哪些构成要素?制表的注意事项?
1)标题、标目、线条、数字、备注
2)A、简明扼要,重点突出,如果需要说明多个中心,可分成多张统计表。
B、合理安排主语和谓语的位置,对于表中任意一行,从左至右,通过简短的连接词,可连成一句通顺的句子。
C、表中数据要认真核对,保证准确可靠
第十五章
1、多元线性回归分析时,筛选自变量的方法有那些
1 根据研究等专业知识和经验来选择。2全局择优法:是对自变量各种不同组合建立的回归方程进行比较,进而从全部组合中挑出一个最优的回归方程。(1)矫正决定系数Rc*2选择法。(2)Cp选择法3逐步选择法:自变量数目较大时(1)前进法:回归方程中的自变量是从无到有由少到多,逐个加入回归方程。(2)后退法:与前进法相反,它是先将全部自变量选入方程然后逐个剔除,无统计学意义的自变量。(3)逐步回归法:是一种双向筛选方法,对每引入一个
自变量进入方程后要对方程中的每一个变量进行检验。看是否需要剔除一些退化为“不显著”的自变量以确保每次引入折变量了前方程中只受有显著作用的自变量。
2、什么是偏回归系数,它与简单线性回归的回归系数有什么不同
多元线性回归模型中,回归系数βi(i=1,2,,,,k)表示的是当控制其它解释变量不变的条件下,第i个解释变量的单位变动对被解释变量平均值的影响,这样的回归系数称为偏回归系数。
简单线性回归模型只有一个解释变量,回归系数表示解释变量的单位变动对被解释变量平均值的影响。多元线性回归模型中的回归系数是偏回归系数,是当控制其它解释变量不变的条件下,某个解释变量的单位变动对被解释变量平均值的影响,从而可以实现保持某些控制变量不变的情况下,分析所关注的变量对被解释变量的真实影响。
3、多元线性回归分析时,偏回归系数与标准偏回归系数有何异同?
偏回归系数是多元回归问题出现的一个特殊性质。表示当其他的各自变数都保持一定时,指定的某一自变数每变动一个单位,依变数y增加或减少的数值。本质就是自变量对因变量影响程度。但是,这种没有经过任何处理的回归系数因为有时自变量的变异程度和均数有时差别很大,直接用偏回归系数无法比较各个自变量影响程度。
所以,必须进行处理,即进行标准化,标准化后即可以直接比较。标准化偏回归系数b i′消除了原偏回归系数b i的单位,表示当其他标准化自变量取值固定时,X i′变化1个单位(即X i 变化1个标准差),则Y′平均变化b i′个单位(即Y平均变化b i′个标准差),是反映′随X i′数量变化的方向和大小(或快慢)的指标。标准化偏回归系数的绝对值一般小于1。标准化偏回归系数b i′用以比较各自变量X i对应变量Y的作用大小,|b i′|值越大,X i对Y的作用越大。但严格比较,要作两个标准化偏回归系数b i′和b j′的差别的显著性检验,在差别有显著性的前提下才能比较。
补充题:
1、血铅浓度升高可能与肾功能不全有关。54名血清尿素升高的病人及按年龄、性别配对的54名对照者的血铅均数、中位数和众数如下:
(1)这两组集中趋势指标告诉我们这两个分布呈什么形状?
血清尿素升高的对象是正偏态分布,对照组是正态分布。
(2)如何比较两组间平均血铅的差异?用什么方法?
符号秩检验:检验配对数据的差值是否来自具有相同分布的总体。