医学统计学 第一课绪论及基本概念(已整理完毕)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《医学统计学》颜虹主编
Fundamentals of Biostatistics(Bernasrd Rosner)孙尚拱译(2004第五版)
SPSS统计分析张文彬主编
一、绪论
【统计学】应用数学的原理和方法,研究数据的搜集、整理与分析的科学,对不确定性数据做出科学的推断。
产生过程:随机现象→随机事件→样本空间→随机变量
现象:确定现象
随机现象:与确定现象相对的不确定现象,在一定的条件下,其有多种可能的结果,而究竟出现哪一种结果事先不可预言的现象。≥2种结果。
特征:随机性、规律性
两种阶段认识随机现象:1.通过观察或实验取得观测资料;
2.通过分析所得资料来认识现象。
注:无论数据分析多么先进,都要以能够代表真实情况的数据为基础。
在偶然的背后发现必然
【随机事件】随机现象的一个结果叫随机事件。
【样本空间】为了便于研究随机试验,我们将随机试验E的所有基本事件所组成的集合叫做样本空间,记为Ω。每一个基本事件为样本点,基本事件也就是集合Ω的元素。
可以把样本空间中的基本事件映射成某个变量的取值,这样就引进了随机变量的概念。
【随机变量】在样本空间中,对不同事件指定有相应概率的数值函数,此函数成为一个随机变量。P (X=x k)=p k,X泛指随机变量
如抛掷硬币:
正反
10→随机事件的选项
X
k
P
0.50.5→对应概率,所有加起来=1
k
特征:与普通函数相比有两点不同:
1.随机变量随着实验结果不同取不同的值,因此在实验之前只能知道取值的范围,而不能预先知
道取什么值。由于随机试验的各个结果出现有一定的概率,所以随机变量的出现也有一定的概率。
2.普通函数定义在实数轴上,而随机变量是定义在样本空间上,样本空间的元素不一定是实数
二、统计学中的基本概念
1.总体(Population)、样本(Sample)
【总体】根据研究目的确定的、全体同质个体的某个(或某些)变量值。比如:糖尿病的血红蛋白水平、高血压患者的血压
分类:无限总体→新生儿体重
有限总体→一所学校今年新生的身高
【样本】:总体中的一部分,为了保证样本的代表性,在取样时我们要求X1、X2……Xn互相独立,并且与总体X有相同的概率分布。(同分布)如总体为正态分布,则样本应该也几近于正态分布。为母体分布的缩影。
为了保证样本的可靠性与代表性,需要采用随机的方法抽取样本(在总体中每个个体具有非0的
机会被抽到)
2.参数(Parameter)、统计量(Statistic)
【参数】根据总体个体值统计出现的描述总体的特征量,成为总体参数。一般用希腊字母表示,如总体均数µ,总体标准差σ等
【统计量】跟总体参数相对应,根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示,如样本均数x(上横线),样本标准差S等。统计量为随机变量的函数
【统计量的数学定义】样本中的观察值含有总体信息,但较为分散,一般不宜直接用于统计推断,常常把样本信息进行加工处理,用样本的函数形式集中起来,例如:
称定义在样本空间上,而且不依赖于未知参数的函数f(X1,X2……X n)为统计量。显然,统计量都是随机变量。
→用统计量(样本)推算参数(总体)的过程
总体与样本的关系
母体→样本:抽样
随机样本:指总体中的每个成员有非零的概率被抽取到
简单随机样本:指总体中的每个成员有相同的概率被抽取到。
随着样本量n的增加,统计量逐渐接近参数,故实际操作中一定要保证抽样次数
样本→母体:统计推断:参数估计/假设检验。
3.误差(Error)
【误差】是指实际观察值与观察真值之差。由于医学领域所研究的变量通常是随机变量,不能保证获得绝对正确的数据,但所获得数据的准确度和可靠度却是必须考虑的。
分为:
1.随机误差:X与u相比的差值既不定向(正或负)也不定量(靠统计方法和统计建模来决定),影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析→统计没有绝对的随机,只能尽量随机减少误差。
取值范围:正负无穷;产生原因:个体差异
2.系统误差:由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。既定向也定量(不在统计范畴,在最初实验设计时需尽量避免)
3.非系统误差(过失误差):研究者偶然失误造成的
后两种加起来为偏倚
测量结果=真值+系统误差+生物变异+随机测量误差+其他误差
【抽样误差】个体变异产生的、随机抽样引起的统计量与总体系统参数间的差异成为抽样误差
均数抽样误差的计算公式:
统计量的分布成为抽样分布,抽样误差是抽样研究中不可避免的,但具有一定的规律性
抽样误差也是随机变量
4.资料类型
1)计量资料:对每个观察单位某个变量用测量或其他定量方法获得的定量观察结果,一般有计量单位(鉴别),每个数值有准确的数值含义,量化。抗体滴度?
2)计数资料:将观察单位按某种属性分组计数的定性观察结果。数出来的,与计量资料相反,无量的差别,只有质的不同。比如血型
3)等级资料:将观察单位按某种属性的不同程度分组计数观察资料,特点是具有半定量性质。
为非参数检验。如按照不同的治疗预后计数,为半定量,每组有计量,但组与组之间无定量关系。
(不是等级越多越好)。
客观性:主、客观指标选择
客观指标是借助测量仪器和检验等手段来反映的观察结果,具有较好的真实性和可靠性。
主观指标是受试对象的主观感觉、记忆、陈述或实验者的主观判断结果,具有随意性和偶然性。
5.频率与概率
【频率】某随机事件A在n次重复试验中出现了m次,则比值m/n称为事件A出现的频率,记
【概率】在同一条件下,重复进行n次试验,随机事件A出现了m次,若试验次数n充分大以后,频率m/n稳定地在某一确定值p的附近摆动,则称为p为事件A的概率。即经过大量试验后,可用A的频率作为所求概率的近似值
P(A)=p≈m/n
上述表示式也称概率的频率解释,或称统计解释。
频率的稳定性便是概率,样本抽样次数越多,越接近于概率。
频率与概率间的关系:
1.样本频率总是围绕概率上下波动。
2.样本含量n越大,波动幅度越小,频率越接近概率。
三、医学统计工作的基本步骤
描述未知现象的理想模型
未知现象是众多因素作用的结果,这些因素可以分成两类:
1.确定因素:能够事先确定的因素
2.随机因素:不能事先确定,但具有频率稳定性的因素
【统计推断】推断统计学研究的问题之一是如何准确有效地利用已有样本资料提供的信息,以一定的精确度对给定假设作出判断。由于这种推断是基于样本数据,而样本数据并不能包含究对象的全部信