数值变量资料的统计分析
数值变量资料的统计分析.
1、大样本(如n>100)数据总体均数的可信区间
移项后: 总体均数的95%可信区间:
缩写为: 或:
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95%的 可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
(一)极差(range)
极差又称全距,即一组观察值中最大值与最小值 之差,用R表示。
适用范围:可用于所有资料的离散趋势描述,但 较粗略。
(二)四分位数间距(quartile interval)
四分位数间距是上四分位数 (即 )与下四分 位数 (即 )之差,其间包括了全部观察值中间 的一半,用 表示。
适用范围:可用于所有资料的离散趋势描述,但主 要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
(三)方差和标准差
方差(variance)是每一观察值的离均差平方和 的平均值。总体方差用 表示,样本方差用 表 示。
标准差(standard deviation)即方差的平方 根。总体标准差用 表示,样本标准差用 表 示。
第三节 参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察,用样本的 水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异,或各 样 本 指 标 之 间 的 差 异 , 就 称 为 抽 样 误 差 ( sampling error)。
抽样研究时,抽样误差是不可避免的,只能估计其 大小。
(2)均数对应的位置曲线最高,且以均数为中心左右对
称;
(3)正态分布曲线的位置和形状取决于两个参数
数值变量资料的统计分析
第十五章 数值变量资料的统计分析A 型选择题1、总体均数的95%可信区间用( )表示。
A. 1.96μσ±B. 1.96x μσ±C.0.05()v x t s ±D.x ±1.96sE.x s x 96.1±2、均数标准误反映了( )A.个体变异程度B.集中趋势的位置C.指标的分布特征D.样本均数与总体均数的差异E.频数分布规律3、用于描述均数的抽样误差大小的指标是( )A.SB.S/nC.CVD.RE.S 24、抽样误差产生的原因是( )A.观察对象不纯B.非正态分布资料C.个体差异D.非分类变量资料E.随机抽样方法错误5、在同一正态总体中随机抽取含量为n 的样本,理论上有99%的样本均数在( )范围内。
A. 2.58x s ±B.. 1.96x x s ±C. 1.96x μσ±D. 2.58x μσ±E.以上均不对6、σ表示( )。
A. 总体均数的标准误B 、总体均数的离散度C 、变量值X 的可靠程度D 、样本均数的标准差E 、变量值X 的标准差7、在均数为μ标准差为σ的正态总体中随机抽样,理论上x μ-≥()的可能性为5%。
A.1.96σB 、1.96x σC 、0.05t sD 、0.05x t σE 、1.96S8、( )小,表示用该样本均数估计总体均数的可靠性大。
A.变异系数B.标准差C.标准误D.极差E 、方差9、当样本含量增大时,以下说法正确的是( )。
A.标准差会变小B.均数标准误会变小C.均数标准误会变大标准差会变大E.以上答案都不对10、区间X ±2 .58S X 的含义是( )。
A.99%的总数均数在此范围内B.样本均数的99%可信区间C、99%的样本均数在此范围内D.总体均数的99%可信区间E、以上答案都不对11、减小均数的抽样误差的可行的方法之一是()A、严格执行随机抽样B、增大样大含量C、设立对照D、选一些处于中间状态的个体E、以上均对12、增大样本含量,理论上可使()更小A.均数的抽样误差B、样本中位数C、样本极差D、样本标准差E、样本均数13、在同一总体随机抽样,其他条件不变,样本含量越大,则()A.样本标准差S越大B、样本标准差S越小C、总体均数的95%可信区间越窄D、总体均数的95%可信区间越宽E、95%参考值范围越宽14、在随机抽样中,其他条件不变,“大样本含量能使()”是错误的μ变小A.αs变小B、xC、可信区间变窄σ变小D、xα减小15、来自同一总体的两个样本,()小的那个样本均数(用点估计方法)估计总体均数的可靠性好(平均来说,点估计值的误差小)A.自由度B、σC 、极差D 、CVE 、标准差16、由两个独立样本计算得两个总体均数的可信区间( )A.如果两个可信区间有重叠,可认为两样本均数无差别无统计意义B 、如果两个可信区间有重叠,可认为两样本均数差别有统计意义C 、如果两样本均数差别无统计意义,两个总体均数之差的可信区间包括0D 、如果两样本均数差别无统计意义,两个总体均数之差的可信区间不包括0E 、以上答案均不对17、均数95%置信区间主要用于( )A 、估计“正常人群”某指标95%观察值所在范围B 、反映总体均数有95%的可能在某范围内C 、反映某指标的可能取值范围D 、反映某指标的观察值波动范围E 、反映95%的样本均数在此范围内18、以下关于参数估计的说法正确的是( )A 、区间估计优于点估计B 、样本含量越大,置信区间范围越大C 、样本含量越小,参数估计越精确D 、对于一个参数可以获得几个估计值E 、标准差大小与置信区间范围无关19、在已知正态总体N (μ,σ)中随机抽样,有99%的样本均数在下述范围内:A 、x s x 58.2± B.x s x 96.1± C.x σμ96.1± D.x σμ58.2±E.σμ58.2±20、从同一总体中随机抽取例数为N 1和N 2的样本,要判断相应的总体均数是否相等,( )A 、因为样本均数有抽样误差,所以有必要作12x x 与差别的统计检验B 、没必要作12x x 与差别的统计检验C 、如果12x x ≠,就无必要作12x x 与差别的统计检验D 、如果12x x ≠,就有必要作12x x 与差别的统计检验E 、以上均不对21、抽样研究男女性的下列指标差别,若-( ),应作双侧假设检验A 已知女性的平均肺活量比男性小B 已知女性的平均白细胸数与男性相同C 不知男女性血小板平均数是否相同D 已知女性的血红蛋白量不比男性高E 、已知成年女性身高不比男性高22、( )时,应作单侧检验。
数值变量资料的统计描述知识介绍
包括均值、中位数、众数、标准差、变异系数等统计量,用于描述数值变量的 集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况,包括 频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位 数、上四分位数和最大值,以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中,众数用于描述数据的分布特征,特别是当数据 中出现多个众数时,说明数据存在多个峰值,此时数据的分布可能是多峰的。众数在市场调研、人口 统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的 重要指标,它表示各个数值与平 均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因 变量之间的数学模型,来描述变 量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回 归等。
预测、解释和调控因变量的变化 趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均 值是否存在显著差异,同时考虑 变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布, 其特征是钟形曲线,对称轴为均值所在 直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布 ,如人的身高、考试分数等。其概率密度 函数曲线呈钟形,对称轴为均值所在直线 ,即曲线关于均值所在直线对称。在正态 分布中,约68%的数据落在均值的1个标 准差范围内,约95%的数据落在均值的2 个标准差范围内。
数值变量资料的统计描述
第一章数值变量资料的统计描述统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。
统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。
因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。
对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、频数分布1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。
频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础.2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。
3.频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。
又可分为正态分布(normal distribution)和非正态分布(non-normal distribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。
数值变量资料的统计描述
fX2
(5)= (2)×(3) 2
20.10 37.07 114.70 198.98 346.74 521.67 401.03 313.27 227.53 148.21 106.92 57.67
2493.89
N=∑f .
红细胞数
40
30
20
Frequency
10
Std. Dev = .45
可用于反映一组经对数转换后 呈对称分布或正态分布的变量值在 数量上的平均水平。
.
几何均数(geometric mean)
G n X1X2 Xn
lgG
1 n
(lg
X1
lg
X2
lg Xn)
lg X n
Glg1 lg X
n lg 表示以10为底的对数;
几何均数:变量对 数值的算术均数的 反对数。
lg1表示以10为底的反对数 X 0,为正值
(3) 列出组段:第一组段的下限略小于最小值,最后一个组段 上限必须包含最大值。
(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组 段的频数。
.
138名成年女子的红细胞数(×1012/L)频数分布
组段
(1) 3.07~ 3.27~ 3.47~ 3.67~ 3.87~ 4.07~ 4.27~ 4.47~ 4.67~ 4.87~ 5.07~ 5.27~5.47
.
算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中 位置的特征值。
.
1、计算方法
(1)直接计算法
公式 : XX1X2 Xn X
n
n
举例:试计算4,4,4,6,6,8,8,8,10的均数?
数值变量资料的统计分析(2).
标准正态分布
原因是σ是一个固定值,而S是随样本而变动 16
t 分布的由来
• 英国统计学家W.S.Gosset于1908年以“Student”笔名发 表论文,证明在正态总体中抽样,( X ) ( s n ) 服 从 自由度 = n 1的t分布,即 ~ t 分布, = n 1 • • 又称Student t分布(Student’s t-distribution)。t分布是 总体均数的区间估计和假设检验的理论基础。
合计
100
100.0
(直方图)
8
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为,样本均数的标准差为 / n 。
抽样分布
9
抽样分布示意图
样本均数的抽样分布具有以下特点
各样本均数未必等于总体均数;
u ( X ) / X
1.96 X / X 1.96
1.96 X X 1.96 X
故总体均数μ的95%可信区间为
X 1.96
x
) ( X 1.96 x ) ( X 2.58 x
三、总体平均值的可信区间估计
总体平均值可信区间(confidence interval,CI)
样本平均值 X 为统计量,总体平均值μ 为参数; 参数估计——用样本统计量 估计总体参数。 参数估计的方法: 1.点(值)估计(point estimation) :如用样本平均值估计 总体平均值。方法简单,但未考虑抽样误差。 2.用区间估计(interval estimation):按一定的可信度 估计未知总体平均值所在的范围。统计学上习惯用95%(99 %)可信区间表示总体平均值μ 有95% (99%)的可能性在某 一范围内。
2计量资料统计分析
(
xxi2
( x)2
xi )2 n
x2 (
x)2 n
n 1
n 1n 1
n 1
式中n-1称为自由度
(四)标准差
1、直接法:
S (x x)2
n 1
x2
( x)2
n
n 1
例:三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
5
3.85
125
96.15
156~
3
2.31
128
98.46
160~164
2
1.54
130
100.00
合计
130 100.00
—
—
二、集中趋势指标
包括:算术均数、几何均数、中位数 意义:
1. 反映一组同质变量值的平均 水平或分布的集中位置。
2. 作为一组资料的代表值,便 于组间的分析比较。
(一)算术均数
G
lg
1
lg
10
lg
100
lg
1000 5
lg
10000
lg
100000
lg 13 1000
5个人的平均血清抗体效价为1:1000
2、加权法
G
lg
1
f lg f
x
lg 1
f1
lg
x1
f2 f1
lg x2 f2 fk
fk
lg
xk
3、几何均数的应用
数值变量资料名词解释
数值变量资料名词解释数值变量资料名词解释数值变量资料是指用于描述数据集中数值变量的变量类型和数值范围的数据。
这些数据可以是数字、分数、百分数、小数、数字和分数的组合等等。
数值变量资料通常用于统计学、数据分析和科学计算等领域。
数值变量资料的名词解释和分类如下:1. 数值变量类型:数值变量资料可以分为定量变量和定性变量。
定量变量表示数值的大小或数量,例如身高、体重、收入等。
定性变量表示变量的情感或态度,例如乐观、悲观、善良、邪恶等。
2. 数值变量范围:数值变量资料可以分为离散型和连续型。
离散型数值变量资料的变量值是离散的,例如整数、小数点、分数、百分数等。
连续型数值变量资料的变量值是连续的,例如身高、年龄、时间等。
3. 数值变量单位:数值变量资料的变量单位可以是基本单位,例如米、千克、磅等,也可以是特定单位,例如人民币、美元、日元等。
4. 数值变量分析:数值变量资料的分析包括描述性统计分析和推断统计分析。
描述性统计分析用于对数值变量资料进行总体描述,例如平均数、中位数、众数等。
推断统计分析用于推断变量之间的关系,例如回归分析、聚类分析等。
除了以上名词解释,数值变量资料还可以包括其他相关概念,例如数据集、样本、观测值等。
在具体应用中,这些概念和名词解释可能会有所不同。
拓展:数值变量资料的分析通常涉及到以下几个方面:1. 总体描述:使用描述性统计方法对数值变量资料进行总体描述,例如平均数、中位数、众数等。
2. 变量之间的关系:使用推断统计方法对数值变量资料进行分析,以探究变量之间的关系。
例如,使用回归分析或聚类分析等方法,研究不同变量之间的关系。
3. 数据清洗和准备:在进行数据分析之前,需要对数值变量资料进行清洗和准备。
例如,去除缺失值、异常值和重复值等。
4. 模型选择和评估:在使用统计方法进行数据分析时,需要选择适当的模型,并对模型进行评估。
例如,使用回归分析等方法,研究不同变量之间的关系,并评估模型的准确性和可靠性。
数值变量资料的统计描述(精)
(五)变异系数(Coefficient of Variation )
S CV 100% X
主要用于对均数相差较大或单位不同的几组观
察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为 77.5mmHg,
标准差为 10.7mmHg ;收缩压均数为 122.9mmHg, 标准
差为 17.1mmHg 。试比较舒张压和收缩压的变异程度。
主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实
际中最好结合正常人和病人的数据分布特点,权衡假阳性
和假阴性的比例,选择一个适当的百分范围,最常用的百 分界限是95%。 6.参考值范围估计的方法有多种,其中最基本的有百 分位数法和正态分布法。正态法的优点是结果较稳定,但 对资料要求严格;百分位数法适合于任何分布类型的资料, 但要求大样本。
R甲 186 142 44(mmHg)
R乙 166 159 7 (mmHg)
该法简单明了、容易使用,如用于说明传染病、食
物中毒等的最短、最长潜伏期等;缺点是结果不稳
定。
(二)四分位数间距 (Quartile)
Q P75 P25
如由上一章例2.4 算出,50岁~60岁正常女性血清
参见书中计算实例……
第三节
医学参考值范围
(Reference Value Range) 一、基本概念
通常指正常人的解剖、生理、生化、免疫及组 织代谢产物的含量等各种数据的波动范围。主要目 的:用于临床疾病诊断。最常用的是95%参考值范围。
确定95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择一定数量的参照样本
f (X )
1 e 2
06数值变量资料的统计分析-《现代医学统计方法与STATA应用》
运算结果给出了几个基本统计量,有观察数(Obs) ,均数(Mean),标准差(Std.Dev),最小值 (Min),最大值(Max);检验的内容(Test),即假设检验 H0 ;t 值(t-statistics);自由度(d.f.)及检验 概率(Prob > |t|)。本例 t=-2.77,P =0.0218<0.05。故按α=0.05 水准,拒绝 H0 ,可认为矽肺患 者的血红蛋白含量低于正常值 14.02(g/dl) 。 如已知该资料样本含量#obs=10,均数#mean=12.59,标准差#sd=1.632629,欲将其与总体均 数#val=14.02 比较,可用下列命令 ttesti: . ttesti 10 12.59 1.632619 14.02
将数据存入 d:\mydata\ex6-2.dta:
. save ex6-2 . ttest x0=x1 Variable | Obs Mean Std. Dev. ---------+--------------------------------- x0 | 10 12.59 1.632619 x1 | 10 13.27 1.080175 ---------+---------------------------------
1. 11.3 2. 15.0 …… 10. 12.3 11. end
将数据存入 d:\mydata\ex5-1.dta: . save ex5-1 进行 t 检验: . ttest x=14.02
Variable | Obs Mean Std. Dev. Min Max ---------+--------------------------------------------------- x | 10 12.59 1.632619 10 15 Test: mean of x = 14.02 t-statistic = -2.77 with 9 d.f. Prob > |t| = 0.0218
数值变量资料的统计分析
数值变量资料的统计分析数值变量的统计分析是一种重要的数据分析方法,通过对数值变量的各种统计指标和分布进行分析,可以帮助我们了解和揭示数据的内在规律和特征。
数值变量的统计分析在各个领域和学科中都有着广泛的应用,如经济学、社会学、医学等。
本文将从描述统计、推断统计和回归分析三个方面介绍数值变量资料的统计分析方法。
描述统计是对数值变量资料进行整体描述的统计方法。
常用的描述统计指标包括中心趋势和离散程度两方面。
中心趋势指标包括平均数、中位数和众数。
平均数是最常用的中心趋势指标,它代表了样本数据的集中位置。
中位数是将数据按从小到大的顺序排列后,处于中间位置的数值,它对极端值不敏感,更能反映总体的典型水平。
众数是出现频率最高的数值,可以用来了解数据的分布特点。
离散程度指标包括范围、方差和标准差等。
范围是最大值和最小值的差值,表示了数据集的广度。
方差和标准差是衡量数据分散程度的指标,方差是每个数值与平均数的差的平方的平均值,标准差是方差的平方根,反映了数据的离散程度。
推断统计是利用样本数据对总体进行推断的统计方法。
常用的推断统计方法包括参数估计和假设检验。
参数估计是通过样本数据估计总体的未知参数,如均值、方差等。
常用的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的一个估计值。
常用的点估计方法有最大似然估计和矩估计。
区间估计则是对参数进行估计的同时还给出了一个可信的范围,可以用于报告不确定性。
假设检验是利用样本数据对总体参数进行假设检验的统计方法,用于判断总体参数是否符合一些假设。
假设检验包括单样本检验、双样本检验和方差分析等。
回归分析是一种用于研究变量之间关系的统计方法。
回归分析可以用于建立数值变量之间的函数关系,并用于预测和解释变量之间的关系。
常用的回归分析方法包括线性回归、多元回归和非线性回归等。
线性回归是建立线性关系模型的一种方法,通过最小二乘估计法来估计回归系数。
多元回归是在线性关系模型的基础上引入多个自变量进行分析。
【源版】数值变量资料的统计分析变异程度的描述
五、变异系数(Coefficient of Variation )
CV S 100% X
主要用于对均数相差较大或单位不同的几组观察 值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,
标准差的意义
标准差是表示一组观察者离散程度或变 异程度的统计指标;
描述一个变量的所有观察值与均数的 平均离散程度的指标。
一、全距(range)
全距表示一群变量值的最大值与最小值 之差,反映个体差异的范围,用R表示。全 距大,说明变异度大;反之,说明变异度 小。
甲组 26 28 30 32 34
乙组 24 27 30 33 36
将方差取平方根,还原成与原始观察值单位相 同的变异量度即为标准差:
S ( X X )2 X 2 ( X )2 n
n1
n1
例如对于例3.1经计算有
甲患者: X 813
X 2 133713 n 5
133713 8132 / 5
S
19.49(mmHg)
平均偏差 X X
n
甲班: 平均偏差 162 162 .6 145 162 .6 186 162 .6 15.52(cm ) 80
乙班:平均偏差 164 162 .4 160 162 .4 166 162 .4 2.32(cm) 90
特点:直观 , 易理解;但由于用了绝对值,不便于数 学处理,实际中很少使用。
n 1
自由度=n-限制条件的个数,用ν表示。
x (n-1):当 选定时,n个变量值 中能自由变动的变量值的个数。
方差(variance)
优点
(1) 方差越大,资料的离散程度越 大(全面考虑了每个观察值);
人卫第八版《卫生学》数值变量资料的统计分析-文档资料
集中趋势的描述
(一)算术均数(arithmetic mean)
简称均数(mean),可用于反映一组呈对称 分布的变量值在数量上的平均水平。其计算方 法有直接法和加权法 (二)几何均数(geometric mean)
用 G 表示,可用于反映一组经对数转换后 呈对称分布或数据之间呈倍数关系或近似倍数 关系资料的平均水平。其计算方法有直接法和 加权法。
正态分布的特征和曲线下面积分布规律
正态分布有以下四个方面特征: ①正态曲线在横轴上方,呈钟形曲线,两端与横 轴永不相交; ②正态分布以均数为中心,均数所在处最高,左 右对称; ③正态分布有两个参数,即均数与标准差; ④正态分布曲线下的面积分布有一定的规律性。
正态分布的应用
(一)估计变量值的频数分布
n
当标准差一定时,标准误与样本含量的平 方根成反比。当样本例数一定时,标准误 与标准差成正比。
t 分布
分布是一簇对称于0的单峰分布曲线。自 由度(实际上是样本含量n)越小,曲线 越扁平,随着自由度的增大,t 分布曲线 逐渐逼近标准正态曲线。当自由度为无穷 大时,则t 分布曲线与标准正态曲线完全 吻合。
频数
2 7 13 14 15 19 18 16 14 13 6 3 140
累计频数
2 9 22 36 51 70 88 104 118 131 137 140 —
频率(%)
1.43 5.00 9.29 10.00 10.71 13.57 12.86 11.43 10.00 9.29 4.28 2.14 100.00
均数的抽样误差与标准误
均数标准误(理论值)的计算公式是:
x
n
n 为样本例数, 式中 表示总体标准差, 为均数标准误的理论值 x
数值变量资料统计分析--集中趋势
累计频率(%)
4.3 31.1 57.6 M 72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
百分位数的应用
1.中位数是百分位数的特例。其特点是不易受异 常值的影响,适用于描述明显偏态分布、或两端 无确定数值数据的平均水平。 2.描述数据序列在某百分位置的水平。多个百分
(其 衡直单数方位值图。大)小所得的资料,一般有度量 2. 选用适当的统计指标
集中趋势指标、变异程度指标
第一节 频数分布
(Frequency Distribution)
由实验或临床观察等各种方式得到的原始数据, 如果是计量资料并且观察的例数较多,为了能够显 示数据的分布规律,可以对数据进行分组,然后制 作频数表或绘制直方图。
观察值水平
二、计数资料的统计描述
数值变量资料的统计描述
(Measures of Central Tendency)
要求:
掌握:计量资料的频数分布;算术
均数、几何均数、中位数适用的资料类 型及计算方法。
熟悉:百分位数。
计量资料的统计描述
方法有两类:
1.计统量计资图料表(measurement data):对每个 观察主对要象是的频观数察分指布标表用、定频量数方分法布测图定
如,2、3、5、 、9、11、12 7
直接法
n为奇数
有7个人的血压(收缩压)测定值(mmHg)为:
120、123、125、127、128、130、132, 求
中位数。
n为偶数
M=127(mmHg)
某病患者8人的潜伏期(天)分别为5,6,8,9,
11,11,13,>16。求中位数。
8人的平均潜伏期为10天,即M=10(天)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十五章 数值变量资料的统计分析A 型选择题1、总体均数的95%可信区间用( )表示。
A. 1.96μσ±B. 1.96x μσ±C.0.05()v x t s ±D.x ±1.96sE.x s x 96.1±2、均数标准误反映了( )A.个体变异程度B.集中趋势的位置C.指标的分布特征D.样本均数与总体均数的差异E.频数分布规律3、用于描述均数的抽样误差大小的指标是( )A.SB.S/nC.CVD.RE.S 24、抽样误差产生的原因是( )A.观察对象不纯B.非正态分布资料C.个体差异D.非分类变量资料E.随机抽样方法错误5、在同一正态总体中随机抽取含量为n 的样本,理论上有99%的样本均数在( )范围内。
A. 2.58x s ±B.. 1.96x x s ±C. 1.96x μσ±D. 2.58x μσ±E.以上均不对6、σ表示( )。
A. 总体均数的标准误B 、总体均数的离散度C 、变量值X 的可靠程度D 、样本均数的标准差E 、变量值X 的标准差7、在均数为μ标准差为σ的正态总体中随机抽样,理论上x μ-≥()的可能性为5%。
A.1.96σB 、1.96x σC 、0.05t sD 、0.05x t σE 、1.96S8、( )小,表示用该样本均数估计总体均数的可靠性大。
A.变异系数B.标准差C.标准误D.极差E 、方差9、当样本含量增大时,以下说法正确的是( )。
A.标准差会变小B.均数标准误会变小C.均数标准误会变大标准差会变大E.以上答案都不对10、区间X ±2 .58S X 的含义是( )。
A.99%的总数均数在此范围内B.样本均数的99%可信区间C、99%的样本均数在此范围内D.总体均数的99%可信区间E、以上答案都不对11、减小均数的抽样误差的可行的方法之一是()A、严格执行随机抽样B、增大样大含量C、设立对照D、选一些处于中间状态的个体E、以上均对12、增大样本含量,理论上可使()更小A.均数的抽样误差B、样本中位数C、样本极差D、样本标准差E、样本均数13、在同一总体随机抽样,其他条件不变,样本含量越大,则()A.样本标准差S越大B、样本标准差S越小C、总体均数的95%可信区间越窄D、总体均数的95%可信区间越宽E、95%参考值范围越宽14、在随机抽样中,其他条件不变,“大样本含量能使()”是错误的μ变小A.αs变小B、xC、可信区间变窄σ变小D、xα减小15、来自同一总体的两个样本,()小的那个样本均数(用点估计方法)估计总体均数的可靠性好(平均来说,点估计值的误差小)A.自由度B、σC 、极差D 、CVE 、标准差16、由两个独立样本计算得两个总体均数的可信区间( )A.如果两个可信区间有重叠,可认为两样本均数无差别无统计意义B 、如果两个可信区间有重叠,可认为两样本均数差别有统计意义C 、如果两样本均数差别无统计意义,两个总体均数之差的可信区间包括0D 、如果两样本均数差别无统计意义,两个总体均数之差的可信区间不包括0E 、以上答案均不对17、均数95%置信区间主要用于( )A 、估计“正常人群”某指标95%观察值所在范围B 、反映总体均数有95%的可能在某范围内C 、反映某指标的可能取值范围D 、反映某指标的观察值波动范围E 、反映95%的样本均数在此范围内18、以下关于参数估计的说法正确的是( )A 、区间估计优于点估计B 、样本含量越大,置信区间范围越大C 、样本含量越小,参数估计越精确D 、对于一个参数可以获得几个估计值E 、标准差大小与置信区间范围无关19、在已知正态总体N (μ,σ)中随机抽样,有99%的样本均数在下述范围内:A 、x s x 58.2± B.x s x 96.1± C.x σμ96.1± D.x σμ58.2±E.σμ58.2±20、从同一总体中随机抽取例数为N 1和N 2的样本,要判断相应的总体均数是否相等,( )A 、因为样本均数有抽样误差,所以有必要作12x x 与差别的统计检验B 、没必要作12x x 与差别的统计检验C 、如果12x x ≠,就无必要作12x x 与差别的统计检验D 、如果12x x ≠,就有必要作12x x 与差别的统计检验E 、以上均不对21、抽样研究男女性的下列指标差别,若-( ),应作双侧假设检验A 已知女性的平均肺活量比男性小B 已知女性的平均白细胸数与男性相同C 不知男女性血小板平均数是否相同D 已知女性的血红蛋白量不比男性高E 、已知成年女性身高不比男性高22、( )时,应作单侧检验。
A 、已知A 药不会优于B 药B 、已知A 药优于B 药C 、不知A 药好还是B 药好D 、不知A 药好还是B 药好E 、AB 均对23、关于假设检验,下列说法中正确的是( )A 、单侧检验优于双侧检验B 、检验结果若P 值大于0.05,则接受H 0犯错误的可能性很小C 、用Z 检验进行两总体均数比较时,要求方差齐性D 、由于配对t 检验的检验效率高于成组t 检验,因此最好都用配对t 检验E 、采用配对t 检验还是成组t 检验由实验设计方法决定24、在假设检验时,本应单侧检验而误用双侧检验,当拒绝H 0时可导致A .增加第一类误差的概率B .增加第二类误差的概率C .把握度增加D .可信度减小E .检验效能提高25、.对两样本均数的差别作统计检验后,0.05()v t t >,统计学上可认为()。
A.两样本均数不相等B 、两总体均数不相等C 、两总体均数相同D 、两样本均数相同E 、样本均数与总体均数相同26、同样性质的两项研究工作,都作两样本均数差别的t检验,P值越小,则()。
A、两样本均数差别越大B、两总体均数差别越大C、越有理由说两样本均数不相等D、越有理由说两总体均数不相等E、以上答案均不对27、两组数据中的每一个数据同减一个常数后,作两样本均数差别的统计(t)检验,()。
A.统计结论不变B.统计结论可能不同C、t值变小D、t值变大E、P值变大28、两样本均数的差别作t检验,要求数据分布近似正态分布及()。
A、两样本方差相等B、两总体方差相等C、两样本含量相等D、样本含量不太小E、总体标准差已知29、( )时,在其他条件符合的前提下也可以直接作t检验。
A.两样本含量不相等B.两总体方差不相等C、两组数据单位不相等D、两组数据都偏离正态分布E、以上答案均不对30、.t检验结果t=1.58,检验水准α=0.05则A.两样本均数有差别B.两样本均数无差别C.两总体均数有差别D.两总体均数无差别E.尚不能肯定31、进行配对t 检验时,有两种计算差值的方法:用药前数据减用药后数据或用药后数据减用药前数据。
用这有两种差值所作的两次t检验之间的关系是()A .t 值符号相反,统计结论相反B .t 值符号相同,统计结论相同C .t 值符号相反,但统计结论相同D .t 值符号相同,但大小不同,统计结论相反E .t 值和统计结论都可能不同32、为检验两总体均数是否相等,如果其他条件都不变,用配对设计作配对t检验与非配对设计作成组t 检验相比,平均起来前者( )。
A 、α更大B 、α更小C 、更容易检出实际存在的差别D 、不容易检出实际存在的差别E 、β更大33、当两总体方差不齐时,以下哪种方法不适用于两样本总体均数比较( )A 、t 检验B.t ,检验C .u 检验(假设是大样本时)D 、方差齐性F 检验E 、A 、C 都对34、甲、乙两人分别从随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得1X ,S 21,2X ,S 22,理论上( )。
A 、1X =2X ,S 21= S 22B.作两样本均数t 检验,必然得出无差别的结论C 、作两方差齐性的F 检验,必然方差齐D.分别由甲、乙两样本求出的总体均数的95%可信区间,很可能有重叠E 、以上均对35、实际工作中,两均数作差别的统计检验,要求数据近似正态分布( )A 两样本均数相差不太大B 两组例数不能相差太多C 、两样本方差相近D 、两组数据标准误相近E 、以上均不对36、下列有关配对设计的差值的样本均数与总体均数0比较的t检验(简称配对t检验)与成组设计的两样本均数比较的t检验(简称成组t检验)的描述中,哪一项是错误的()A、对于配对设计的资料,如果作成组t检验,不但不合理,而且平均起来统计效率降低B、成组设计的资料用配对t检验平均起来可能提高统计效率C、成组设计的资料,无法用配对t检验D、作配对或成组t检验,应根据原始资料的统计设计类型而定E、配对t检验的检验效能高于成组t检验37、作两样本均数差别的t 检验中,P值与α值()A、α值是研究者指定的B、P值是研究者指定的C、两者意义相同,数值不同D、两者意义相同,数值相同E、以上均不对38、在研究两种药物治疗高血压的效果的配对t检验中,要求()A、两组的样本方差相等B、数据呈双变量正态分布C、差数d服从正态分布D、差数d的方差=0E、数据服从正态分布39、当求得t=t n)(05.0'时结论为()A、P>0.05,拒绝HB、P<0.05,接受HC、P=0.05,接受H差异无显著性D、P=0.05,拒绝H,差异有显著性E、P=0.05,正好在临界水平上,重复实验,接受H的可能性还较大40、测得1000名正常男子脉搏均数为70次/分,标准差为5.5次/分,以此为总体,另测到10名铅中毒患者的脉搏求平均数为65次/分,标准差为6.2次/分,以下何种检验公式正确?()A、5.56570-=tC 、()()102.610005.5706522+-=tB 、2.67065-=tD 、10/2.67065-=tE 、10/5.57065-=t41、两个样本合并方差为( )A 、1/)(1/)(222222112121-∑-∑+-∑-∑n n X X n n X XB 、2//122222212121-+∑-∑+∑-∑n n n X X n X XC 、2/)(/)(122222212121-+∑-∑+∑-∑n n n X X n X XD 、2/)(/)(122222212121-+∑-∑+∑-∑n n n X X n X XE 、()()()()2/2121221221-+++-+∑∑n n n n x x x x42、α=0.05, t>t 0.05,ν,统计上可认为___。
A. 两总体均数差别无显著意义 B .两样本均数差别无显著意义C. 两总体均数差别有显著意义D. 两样本均数差别有显著意义E 、以上都不对 43、两样本均数(X 1,X 2)作t 检验时的无效假设为()A 、X 1,X 2分别来自两个不同的总体B 、X 1,X 2分别来自μ1+μ2的总体C 、X 1,X 2分别来自μ1-μ2≠0的总体D、X1,X2分别来自μ1=μ2的总体E、A、B、C、D都不对44、样本均数(X)与总体均数作显著性检验时的无效假设为()A、样本均数X来自不等于μ的总体B、样本均数X来自于μ0=0的总体B、样本均数X来自于μ0=0的总体C、样本均数X来自于已知总体均数μ0D、样本均数与总体均数之差X-μ0=0E、样本均数与总体均数之差X-μ0≠045、.两样本比较的t检验,差别有统计学意义时,P值越小说明()A.两样本均数差别越小B.两样本均数差别越大C.越有理由认为两总体均数有差别D.越有理由认为两总体均数差别很大E.越有理由认为两总体均数无差别,其意义是()46、经.t检验得到检验统计量t>t0.05(v)A.差别来自抽样误差的概率大于5%B.差别来自抽样误差的概率小于5%C.两样本均数有本质差异D.两样本均数无本质差别E.两总体均数来自同一总体47、t检验的作用是()A.检验抽样误差为0的概率大小B.检验实际差异为0的概率大小C.检验抽样误差是否存在D.检验差异由抽样误差引起的概率大小E.检验差异由实际差异引起的概率大小48、两样本均数的比较,可用()。