统计学重点(8)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名词解释:
1.参数(p a r a me t e r):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。是固定的常数统计量(s t a t i s t i c):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为X、S。是参数附近波动的随机变量。
2.系统误差(s y s t e m e r r o r):实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或能掌握的。(受确定因素影响,大小变化有方向性)
随机误差(r a n d o m e r r o r):一类不固定的、随机变化的误差,由多种尚无法控制的因素引起。(影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析)
医学参考值(r e f e r e n c e v a l u e):是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
可信区间(c o n f i d e n c e b o u n d/c o n f i d e n c e i n t e r v a l,C I):按预先给定的概率(1-a)所确定的包含未知总体参数的可能范围。
3.I型错误(弃真):拒绝实际上成立的H0,这类“弃真”的错误称为I型错误。(1-a)即可信度:重复抽样时,样本区间包含总体参数(m)的百分数。
I I型错误(纳伪):接受了实际上不成立的H0,这类“取伪”的错误称为I I型错误,记为β。(1-β)即把握度(或检验效能):两总体确有差别,被检出有差别的能力。
4.P值:H0成立的前提下,用样本数据所获得的检验统计量,及比样本数据绝对值更为极端的某曲线下的面积。二项分布(b i n o mi a l d i s t r i b u t i o n):是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数x=0,1,2…n的一种概率分布。
7.决定系数(c o e f f i c i e n t o f d e t e r mi n a t i o n):回归平方和与总平方和之比。0≤R2≤1,说明自变量X能够解释Y 变化的百分比,其值越接近1,说明模型对数据的拟合程度越好。
相关系数(c o e f f i c i e n t o f c o r r e l a t i o n):又称P e a r s o n积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。用r表示样本相关系数,用ρ表示其总体相关系数。
复相关系数(mu l t i p l e c o r r e l a t i o n c o e f f i c i e n t):可用来度量应变量Y与多个自变量间的线性相关程度,亦即观察值Y与估计值Y h a t之间的相关程度。
偏相关系数(p a r t i a l c o r r e l a t i o n c o e f f i c i e n t):表示在一组变量中,任意两个变量在其他变量固定不变时,它们之间相关的密切程度和方向。
6.偏回归系数(p a r t i a l r e g r e s s i o n c o e f f i c i e n t):在多元回归分析中,随机应变量对各个自变量的回归系数,表示各自变量对随机变量的影响程度。
标准化回归系数:将回归方程进行标准化,其回归系数即为标准化回归系数,可以用来比较各个自变量X i对Y 的影响程度,通常在有统计学意义的前提下,标准化回归系数的绝对值越大,说明相应自变量对Y的作用越大。
8.哑变量(D u mmy V a r i a b l e s):用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。
5.多重共线性(Mu l t i c o l l i n e a r i t y):线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
交互作用(i n t e r a c t i o n e f f e c t):当某一自变量对Y的作用大小与另一个自变量的取值有关时,则表示两个自变量有交互作用。
中位生存时间(me d i a n s u r v i v a l t i me):又称为生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。它是生存分析中最常用的概括性统计量。
9、R O C(受试者工作特征r e c e i v e r o p e r a t o r c h a r a c t e r i s t i c):以不同截断点的(1-特异度)为横轴,灵敏度为纵轴,作真阳性率与假阳性率曲线。
10.R C T实验(随机对照试验r a n d o mi z e d c o n t r o l l e d t r i a l):将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。在研究对象数量足够的情况下,这种方法可以确保已知和未知的混杂因素对各组的影响相同。特征为:随机分组、设置对照、施加干预、具有前瞻性、论证强度为最强。
简答
1.标准差与标准误的区别及联系。
区别:(1)含义不用①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数打代表性就越强②标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小
(2)与n的关系不同:n增大时,①s→σ(恒定)②标准误减少并趋于0(不存在抽样误差)
(3)用途不同①s:表示x的变异度大小,计算c v,估计正常值范围,计算标准误等②x:参数估计和假设检验联系:二者均为变异度指标,样本均数的标准差及为标准误,标准差与标准误成正比
2数据的分类及如何用统计学处理。
①定量数据:又称计量数据或区间数据或数值数据,由观测每个观测单位某项指标的大小而获得。允许计算均数、标准差等(可采用t、F检验等,可当做有序或定性数据处理)
②定性数据:又称(二项与多项)分类数据或计数数据,将观察单位按某种属性或类别分组计数,分组汇总各组观察单位后而获得。编码是任意的,不能对编码执行均数标准差等计算,但可计算率或比(可采用卡方检验等)③等级数据:又称有序数据或半定量数据,将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而获得。允许基于顺序的计算,如计算中位数、百分位数(可当做定性数据处理)
数据分类:计数资料(定性资料)、计量资料(定量资料)、等级资料。
统计描述:计数资料——相对数(率),结构相对数(构成比)、百分比相对比(O R、R R);计量资料——均数±标准差;等级资料:中位数、四分位数间距等。
统计推断:计数资料——卡方检验;计量资料——t检验、方差分析;等级资料——非参数检验。
3样本含量与哪些因素有关?是如何影响的?
样本含量的估计取决于:
①假设检验的Ⅰ型错误概率α大小:Ⅰ型错误概率α越小,所需样本含量越多。对于相同α,双侧检验比单侧检验所需样本含量多;
②假设检验的Ⅱ型错误概率β或检验效能(1-β)的大小:Ⅱ型错误概率β愈小或检验效能(1-β)愈大,所需样本含量愈多;
③容许误差δ的大小:容许误差δ愈大,所需样本含量愈小;
④总体的相关信息:总体标准差σ愈大,所需样本含量愈多;总体率π越接近0.05,所需样本含量越多;总体相关系数ρ愈小,所需样本含量愈多;变异指标C V愈大,所需样本含量愈多。
4多重回归、l o g i s t i c、c o x回归的区别与联系
相同:①自变量可以为连续变量、有序分类变量、无序分类变量,为了将无序分类变量代入回归方程,需要进行哑变量化,哑变量在回归模型中是一个整体,必须同时引入模型或同时从模型中剔除;②当自变量之间存在较强相关关系时可能会导致共线性现象;③自变量之间很可能会存在交互作用,通常采用两个或两个以上的自变量乘积作为交互作用项;④均可采用逐步回归筛选变量;⑤均可进行影响因素的分析、混杂因素的校正、预测分析等。