2007级硕士研究生卫生统计学试卷(答案)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2007级硕士研究生卫生统计学试卷(答案及评分标准)学号班级姓名考试成绩
一、名词解释(每小题2分,共12分)
1. 复相关系数
用R表示,R=2R,度量应变量Y与多个自变量间的线性相关程度的指标,即观察值Y与回归估计值yˆ之间的相关程度。

2. 统计描述
指由统计指标、统计表、图等方法,对资料的数量特征及分布规律进行测定和描述,不涉及由样本推论总体的问题。

3.主效应
在析因设计资料的方差分析种,指某一因素各水平间的平均差别。

4. 非参数检验
不依赖于总体分布的类型,对总体分布不做严格规定,对两个或多个总体分布的位置进行假设检验的方法。

5. 假设检验
是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。

然后在H0成立的条件下计算检验统计量,最后获得P值来判断。

这一过程称为假设检验。

6. 平均发展速度
是各环比发展速度的几何均数,说明某事物在一个较长时期中逐期平均发展的程度。

二、填空(每空0.5分,共10分)
1. 调查144名30-40岁男子的血清胆固醇值近似服从正态分布,其均数为90 .3mg/dl,标准差为3
2.7mg/dl,则可推出该地30-40岁男子中约有__0.5 _%胆固醇在174.7mg/dl以上,共有多少人0.72(或1) 。

2. 拒绝H0,只可能犯第一类错误,“接受”H0只可能犯第二类错误。

3. 甲、乙、丙三地某两种传染病的发病率时,宜绘制_复式直条条__图.
4. 男、女两组儿童,人数分别为300及时250人,蛔虫
感染率分别为35%及24%,其总感染率为 30% ,总感染率的95%的置信区间为⎪⎪⎭⎫ ⎝⎛⨯+⨯-5507.03.096.13.0,5507.03.096.13.0。

5.多个样本均数比较的方差分析其应用条件 各独立样本正态分布 和 方差齐性 。

6. 等级相关适用的条件是 双变量非正态分布 , 总体分布型未知 , 等级资料 。

7. 两因素析因设计实验方差分析将处理组间变异分解为 A 因素的主效因、 B 因素的主效因 和 AB 的交互效应 。

8. R ⨯C 表的2χ检验,若表格中有一个方向按多个等级分类
时,则称之为单向有序行列表,当等级数大于3时,如检验各处理组各等级下的构成比有无差别时采用 2χ检验 ,如检验各处理组各等级下的程度上有无差别时采用 秩和检验 。

9. 多元线性回归分析中自变量的选择方法有 全局择优法 和 逐步选择法 。

10. r是直线相关系数(或称Pearson积差相关系数),表示具有直线关系的两变量间相关的密切程度与相关方向。

三、最佳选择题(每小题1分,共20分)
1. 要表示某地区2003年SARS患者的职业分布,可以绘制(C )
A直条图 B 散点图 C 圆图 D 直方图 E 线图
2.关于频数表的说法正确的是(C )
A 都分为10个组段
B 每一个组段必须组距相等
C 从频数表中可以初步看出资料的频数分布类型
D 不是连续型的资料没有办法编制频数表
E 频数表中的每一个组段不一定是半开半闭的区间,可以任意指定
3. 下列关于正态分布曲线的两个参数μ和σ说法正确的是(C )
A μ和σ越接近于0时,曲线越扁平
B 曲线形状只与μ有关,μ值越大,曲线越扁平
C 曲线形状只与σ有关,σ值越大,曲线越扁平
D 曲线形状与两者均无关,绘图者可以随意画
E 以上说法均不正确
4. 关于R ×C 行列表叙述错误的是( E )
A 可用于多个样本率的比较
B 可用于构成比的比较
C 可用于双向无序分类资料的关联性分析
D ν=(r -
1)(c -1) E 2
2
1R C A n n n χ⎛⎫=- ⎪⎝⎭∑,此公式同样适用于四格表资料 5. 成组设计多组资料的秩和检验,哪种情况下H 分布近似
服从于21k χ-分布( B )
A 5,3≥>或者例数组数
B 3,6>≥组数或者例数
C 5,5≥≥或者例数组数
D 例数无限制组数,3≥
E 以上均不对
6.样本含量分别为1n 和()122n n n >的两组数值变量资料比较,
用秩和检验时有( C )
A 秩次范围为1,2,…,1n
B 秩次范围为1,
2, (2)
C 秩次范围为1,2,…,21n n +
D 秩次范围为1,
2,…,12n n -
E 无限个秩次1,2,…
7.已知r =1,则一定有。

( C )
A b=1
B S y =0
C S yx =0
D a = 0
E S yx =S y
8. 用最小二乘法确定直线回归方程的原则是( B )
A 各观测点距直线的纵向距离相等
B 各观测点距直线的纵向距离平方和最小
C 各观测点距直线的垂直距离相等
D 各观测点距直线的垂直距离平方和最小
E 各观测点距直线的纵向距离最小
9. 直线回归分析中,有直线回归方程Y
ˆ=0.004+0.0488X ,代入两点描出回归线。

下面选项中
哪项正确(B )
A所有实测点都应在回归线上 B 所绘回归直线必过点(X,Y)
C 原点是回归直线与Y轴的交点
D 回归直线X的取值范围为(-1,1)
E 实测值与估计值差的平方和必小于零
10. 研究胃癌患者术后发生院内感染的影响因素,某医生记录了50名胃癌患者术后院内感染情况(结果为有=1或无=0),并调查了下列可能的影响因素:①年龄(岁)、②手术创伤程度(分5等级)、③营养状态(分
3等级)、④术前预防性抗菌(有=1,无=0)、⑤白细胞数(109/L)、⑥肿瘤病理分级(1~9级)。

欲筛选哪些因素是影响胃癌患者术后发生院内感染的主要因素,应选择何种(B )统计分析方法。

A 多元线性回归
B logistic回归
C 生存分析
D 析因设计的方差分析
E 相关分析
11.多重线性回归中,能直接反映自变量解释因变量变异数量的指标为( C )
A 复相关系数
B 简单相关系数
C 决定系数
D 偏回归系数
E 标准化回归系数
12.对两地的结核病死亡率比较时作的标准化,其目的是 ( D )
A 为了能更好地反映人群实际死亡水平
B 消除两地总人数不同的影响
C 消除各年龄组死亡率不同的影响
D 消除两地人口年龄构成不同的影响
E 消除两地性别不同的影响
13.完全随机设计方差分析中,必然有( C )。

A 组内组间νν> B
组内组间MS MS < C F 值不可能是负

D 组内组间SS SS >
E t
F = 14.计算某地某年麻疹的发病率,其分母应该为( E )
A 该地体检人数
B 该地年平均就诊人数
C 该地年平均人口数
D 该地平均患者人数
E 该地易感人群
15. 一种新的疗法可以延长生命,但不能治愈其病,则发生下列情况(D )
A 与患病率和发病率均无关
B 该病的发病率将减少
C 该病的患病率将减少
D 该病的患病率将增加
E 该病的发病率将增加
16. 已知甲乙两厂建厂的年代不同,要比较甲乙两厂某工种工人某种职业病患病率的高低,适当的比较方法是( C )
A 两个率比较的χ2检验
B 不及有可比性,不能比较
C 对工龄进行标准化后在比较
D 对年龄进行标准化后在比较
E 用秩和检验的方法
17. 方差齐性检验,按α=0.10水准,认为总体方差相等,
此时若推断有错,其错误的概率(A )
A 等于β,而β未知
B 等于1-β,而β未知
C 大于等于0.10
D 等于0.10
E 小于等于0.10
18.关于二项分布,错误的是(E )
A 服从二项分布的随机变量为离散型随机变量
B 当n很大,π接近0.5时,二项分布接近正态分布
C 当π接近0.5时,二项分布接近对称分布
D 服从二项分布随机变量,取值的概率之和为1
E 当nπ>5时,二项分布接近正态分布
19.用计数器测得某种放射性物质半小时内发出的脉冲为390个,该放射性物质每10分钟内平均发出脉冲数的95%可信区间为( C )
A()390
96
.1
390± B ()3/390
96
.1
390±
C()3/390
96
.1
130± D ()390
96
.1
130± E
()3/
390
96
.1
130±
20.欲比较两地20年来高血压和糖尿病患病率的变化趋势,
最好选用( A )
A 普通线图
B 半对数线图
C 圆图
D 复式直条图
E 箱式图
四、X 型题 (每题 1分,共5分)
1.关于回归系数的描述,下列说法正确的是( BCDE ) A 0b >,表示回归直线与y 轴交点在原点上方
B 0b =,回归直线与x 轴平行
C b 越大,则回归直线越陡
D b 一般有单位
E 0b <表示回归直线从左上方走向右下方
2. 下列关于标准正态分布的说法中正确的是( ABDE )
A 标准正态分布曲线下总面积为1
B 标准正态分布是μ=0并且σ=1的正态分布
C 任何一种资料只要通过
σμ-=X u 变换均能变成标准正态
分布
D 标准正态分布的曲线是唯一的
E 因为标准正态分布是对称分布,所以u≥-1.96与u≤1.96所对应的曲线下面积相等
3. 下列叙述种,错误的是( BDE )
A 二项分布中两个可能结果出现的概率之和为1
B Poisson 分布的均数与标准差相等
C Poisson 分布由均数λ惟一确定
D 标准正态分布的标准差为0
E 服从Poisson 分布的随机变量,其取值为0到n 的概率之和为1
4. 各组数据方差不齐时,可以作( ABC )
A 近似检验
B 秩和检验
C 数据变换
D 方差分析
E t 检验
5. 重复测量资料的方差分析中,有( BD ) A 误差区祖处理总νννν++= B 组内组间总ννν+= C
B A AB ννν+=
D 受试对象内受试对象间总ννν+=
E E ννννν+++=AB B A 总
五、是非题:(判断对错并说明理由,每题1分,共10分)
1. 回归直线的延长线与纵轴相交,交点至原点的距离称为截距,记作a(X )
回归直线的延长线与纵轴相交,交点的纵坐标,称为截距a。

2. 相同秩次较多时,r s计算需进行校正,校正后,。

(X )从校正前后的公式可以发现,两者之间无确定关系
3. 统计中的三种资料各有其特点和处理方法,因此不能互相转换。

(X )
统计资料间是可以互相转换的,以满足不同统计分析方法的要求。

4. 三行四例表的卡方检验容许1个格子1<T<5 。

( )
5.在多元回归分析中对于同一组资料,不同自变量的t值可以相互比较,t值越大,说明该自变量对Y的回归所起的作用越大。

(X )
t值得绝对值越大,说明该自变量对Y的回归所起的作用越大。

6.拉丁方设计是随机区组设计的基础上发展的,它可多安排一个处理因素。

(X )
它可多安排一个非处理因素,即行区组和列区组。

7. 假设检验结果为P<0.01,则可以认为两总体均数之间确实存在很大的差别(X )
P<0.01, 是更有理由推断两总体均数之间差别有统计学意义,而两总体均数之间差别的大小是指两总体均数的差值。

8.方差分析中F统计量的判断,采用单侧检验的上侧临界值。

(√)
9. 服从二项分布的随机变量,其取值为0到n 的概率之和为1 (√)
10. 某地某年交通事故死亡200人,其中摩托车造成死亡50人,汽车造成死亡150人,因此,可以认为摩托车比汽
车更安全。

(X )
应该分别计算摩托车和汽车交通事故的死亡率,来说明严重程度,而不应该用构成比来说明这一问题。

六、简答题:(每小题3分,共12分)
1、相关系数与回归系数的联系与区别?
•区别
–r 没有单位,b有单位;所以,相关系数与单位
无关,回归系数与单位有关;
–相关表示相互关系,没有依存关系;而回归有依
存关系;
–对资料的要求不同:
•当X和Y都是随机的,可以进行相关和回
归分析;
•当Y是随机的(X是控制的),理论上只能作
回归而不能作相关分析
联系:
1.方向一致: r与b的正负号一致。

2.假设检验等价: t r =t b
3. YY XX l l b r =
4.用回归解释相关

定系数(coefficient of determination) 总
回SS SS l l l l l l r YY XX XY YY XX XY ===222 2、2χ检验用于解决哪些问题?2χ检验的应用条件有哪些?
2χ检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。

此外,也用于频数分布的拟合优度检验。

对不同的设计类型的资料,2
χ检验的应用条件不同: (1) 完全随机设计两样本率的比较
1) 当n >40,且T ≥5时,用非连续性校正2
χ值; ∑-=T T A 2
2)(χ 或 ))()()(()(22
d b c a d c b a n bc ad ++++-=χ 若所得P ≈α,则改用四格表的确切概率法。

2) 当n ≥40,且有1≤T<5时,用连续性校正2
χ值。

∑--=T T A c 22)
5.0(χ 或 ()()()()()d b c a d c b a n n bc ad ++++--=2
22/χ
3) n<40,或有T<1时,不能用2χ检验,应当用四格表的确切概率法。

(2) 配对设计四格表
1) 当b+c ≥40,c b c b +-=22
)(χ 2) 当b+c<40,需作连续性校正,
c b +--=22)1(χ
(3) 行列表资料
专用公式:⎪⎪⎭⎫ ⎝⎛-=∑12
2C R n n A n χ 1) 不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1;
2) 单向有序行列表,在比较各处理组的效应有无差别时,应该用秩和检验或Ridit 检验;
3) 多个样本率(或构成比)比较的2
χ检验时,结论为拒绝无效假设时,只能认为各总体率(或总体构成比)之间
总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。

若想进一步了解哪两者的差别有统计学意义,可用2 分割法。

3、重复测量设计、随机区组设计、两因素析因设计试验三者之间的联系与区别?
联系:在数据处理时,三者都采用两因素分差分析。

(1分)区别:试验设计和处理的分配方式不同。

重复测量设计在区组间随机分配处理,随机区组设计在区组内随机分配处理,两因素析因设计试验有两个干预因素,每个试验单位只接受一种处理(2分)。

4、二项分布、Poisson分布和正态分布的图形特征,三者间的关系。

正态分布:属连续型随机变量的分布,以均数为中心呈对称分布,由参数μσ决定,μ为位置参数,σ为形状参数,曲线下面积有一定的分布规律。

(1分)
二项分布:属离散型随机变量的分布,由参数n和π决定图形的形状,当π=0.5时,二项分布是对称的,当π≠0.5,
图形是偏态的。

随n 的增大,图形趋于对称。

当n很大,而π很小,且nπ=λ为常数时,二项分布的极限分布为Poisson分布;在n较大,π不接近0或1时,二项分布近似正态分布。

(1分)
Poisson分布:属离散型随机变量的分布由参数λ的大小决定图形分布,总体均数λ与总体方差σ2相等。

当λ越小,分布越偏态。

当λ增大时(λ>=20),Poisson分布渐进正态分布。

(1分)
七、应用分析题(共31分)
1、为比较两种方法对乳腺癌诊断的差异。

将每个患者用两种诊断方法进行诊断,得如下结果:
临床诊断X线诊
断人数
癌癌
24
癌非癌
70
非癌癌
30
非癌非癌
46
问:1)该研究属何种设计方案?(2分)
2)将上述资料列成假设检验的四格表?(2分)
3)若要比较两种诊断方法的差异,应选用什么统计学方法(请写出该方法的名称和计算步骤和公式,不必计算)(3分)
0H :两种方法的诊断结果相同,或B=C
1H :两种方法的诊断结果相同,或B ≠C
05.0=α
计算检验统计量2χ值
()()30
703070222+-=+-=c b c b χ
确定P 值并作出推断结论。

若,两种诊断结果相同
则若,两种诊断结果不相同
则50.0P ,84.350.0P ,84.322><<>χχ
2. 《脑脊液磷酸己糖异构酶检测用于脑膜炎诊断的探讨》 一文为比较三组患儿CST 中PHI 值是否不同,数据及分析结果见表3 。

表3 三组患儿CST 中PHI 值的比较
为什么?(3分)
(2)如果统计分析方法不正确,应该采用何种正确的统计分析方法(写出确切的检验方法并建立检验假设)?(5分)(1)该资料采用的是两个独立样本比较(两样本均数比较)的t检验,此种统计分析方法不正确,因为两组
以上均数的比较,可以考虑方差分析和多个样本比较
的秩和检验,计量资料的比较可首先考虑方差分析,
若不满足参数检验的条件,则要选择非参数检验。

(2)该资料应采用多个(独立)样本比较的秩和检验。

方差分析应满足正态性、方差齐性和独立性,而该资料
的三组指标明显方差不齐,不满足方差齐性,因此要
采用非参数检验方法,即多个独立样本的秩和检验。

建立假设,确定检验水准
H:三个总体的分布位置相同
H:三个总体的分布位置不全相同
1
α
=
.0
05
编秩:将各组数据混合,从小到大排序并编秩,求平均秩次。

求秩和
计算检验统计量H值
确定P值并作出推断结论。

3. 在一项《NO供硝普钠损伤心肌细胞DNA的实验研究》中,外源性的NO供体硝普钠(SNP)对培养心肌细胞DNA 具有损伤作用,原作者研究超氧化物岐化酶(SOD)和过氧化氢酶(CAT)对心肌细胞的保护作用。

新生Wistar大鼠培养的心肌细胞,随机分成4组,其中加入SNP、SOD和CAT的终浓度分别为40mmol/L、50U/ml和50U/ml,每组5个培养皿,经5小时避光培养-分离-电泳-染色,置01ympus荧光显微镜像观察DNA迁移度。

结果见表。

统计分析采用单因素方差分析,P<0.05或P<0.01表示相差显著或相差非常显著。

表2 SOD、CAT加入后DNA迁移度的改变(50个细胞,
x )
s
组别DNA迁移度(μm)单纯SNP组48.49±21.28
SNP+SOD组34.24±9.86*
SNP+CAT组41.14±11.22*△△SNP+SOD+CAT组29.45±8.69*△☆
与单纯SNP组相比,*:P<0.01;与SNP+SOD组相比,
△:P<0.05, △△:P<0.01;与SNP+CAT组相比,☆:P<0.01
问题:
1)此项实验为何种设计?(2分)作者的统计分析方法是否合理,为什么?(2分)
2)写出确切的检验方法并建立检验假设,不需计算结果。

(4分)
答:1)为析因设计,作者的统计分析方法不合理,采用完全随机不能全面分析两因素的主效应和交互作用。

2)应采用两因素两水平析因设计资料的方差分析方法。

建立检验假设:A(SOD)的主效应=0,B(CAT)的主效应=0,AB(SOD与CAT)的交互作用=0
总变异分解:SS总=SS A+SS B+SS AB+SS误差
4. 某研究者于某年在某市随机调查了200例正常成人血铅含量(ug/100g),将资料整理成频数表形式,试估计该市正常成人血铅含量的参考值范围及正常成年人平均血铅含量的可信区间。

由于血铅值高于某上限才被看作异常,故
作者将该数据带入公式S X 64.1+ 计算得到该市正常成人血铅含量的95%参考值范围的上界;并用公式X S X 64.1+ 计
算得到正常成年人平均血铅含量的95%可信区间的上界。

试问这样做是否合适?(2分)为什么?(2分)应当怎样做(写出正确的计算公式)?(4分)
表5 200名正常成人血铅含量频数表
组段((ug/100g ) 频数 4~ 25 8~ 32 12~ 36 16~ 30 20~ 25 24~ 22 28~ 11 32~ 8 36~ 4 40~ 4 44~ 1 48~ 1 52~56 1 合计 200
答:1)参考值范围的估计不合适,因为原始资料称正偏态分布,用正态分布法估计正常成人血铅值的95%参考值范围不合适。

总体均数95%可信区间的估计方法是正确的,因为在非正态总体中抽样,当样本含量足够大时,样本均数
的分布近似于正态分布。

2)参考值范围的正确计算公式:单测上限())g 100/g (37189%952004
436)f %95n (f i L P L 95959595μ=-⨯+=-⨯+=∑)。

相关文档
最新文档