中医药统计学 复习重点
中医药统计学深刻复习重要
某市12岁男童110人的身高(cm )如下:身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164(1∑∑=f fx x =140.9cm 1/)(1)(222--=--=∑∑∑∑∑∑f ffx fxf x x f s =5.99cm(2)该市男童身高95%的参考值范围:百分位数法:(5..2P ,5.97P )=(128,156)cm 正态分布法:(s x96.1-,s x 96.1+)=(140.9-1.96×5.99,140.9+1.96×5.99)=(129.2,152.6)cm某市12岁男童110人的身高(cm )如下: 身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164 频数(f ) 1 2 9 20 35 24 13 3 2 11、对该资料作正态性检验;2、求这110名男童身高的均数、标准差、变异系数;3、写出该市男童身高95%的参考值范围; 1、 用SAS/INSIGHT 建立如下形式的数据集: A B 124 1128 2 ………… 156 2 160 12、 SAS 处理主要步骤:鼠标点击Edit →Variables →Other →将变量A 移到Y 框下,选a+b*Y 后在a:出键入2,点击OK ,形成组中值变量A-A 。
鼠标点击Analyze →Distribution(Y),将变量A-A 移到Y 框下,将B 移到Freq 框下→点击Output,选Tests for Normality →OK. 3、 SAS 输出结果: 正态性检验:p=0.0007,均数Mean :140.8727cm ,标准差Std. Deviation :5.99405cm该市男童身高95%的参考值范围(p2.5,p97.5)=(128.5455,154.8000)cm某市12岁男童110人的身高(cm )如下:身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164 频数(f ) 1 2 9 20 35 24 13 3 2 1)99.596.187.144,99.596.187.144()96.1,96.1(⨯+⨯-=+-s x s xcm )61.156,13.133(=或用百分位数法(5.2p ,5.97p )=(131.50,156.50)cm三、按随机设计,对功能性子宫出血的实热型患者12例与虚寒型患者10例的血液皮质醇含量进行测定,数据如下: 实热组1x :25.5 24.5 26.5 26.0 25.0 23.5 24.5 24.0 23.0 25.5 27.0 26.5虚寒组2x :12.5 10.5 14.5 15.0 13.5 13.0 12.5 11.5 12.0 13.5 试比较两种类型患者的血液皮质醇含量有无差别?(假定资料满足正态性)(1) 基本计算如下:=1n 12 =1x 25.125 =1s 1.2636=2n 10 =2x 12.85 =2s 1.355(2) 方差齐性检验假设210:σσ=H 211:σσ≠H 05.0=α15.12636.1355.1222122===s s F 查F 界值表得)11,9(05.0F =3.59因为 F>)11,9(05.0F 所以05.0>p按05.0=α水准,不拒绝0H ,两总体方差相等。
【参考借鉴】中医药统计学与软件应用笔记重点.docx
中医药统计学与软件应用笔记重点绪论统计学家 C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。
一、统计学的概念、发展简史及主要内容1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。
2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。
3.统计学的发展趋势:①依赖数学。
②与计算机技术结合。
③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。
④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。
4.统计学的主要内容⑴研究设计:专业设计、统计学设计⑵统计学的基本概念、原理和思维方法⑶统计描述:统计指标、统计图表⑷统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:①常规保存的记录;②现场调查记录;③实验/试验记录;④医学文献/网络信息。
(3)整理资料:①检查;②审核;③计算机检查;④分组。
(4)分析资料2.统计学认识现象的特点(1)数量性:(2)群体性:(3)具体性:(4)概率性:三、统计学中常用的概念1.总体(population):是根据研究目的确定的同质观察单位的集合。
例①河北省18岁男性的身高和体重分布②某性红地20RR年健康成年男细胞数③河北省18岁身高在170-175cm男性的体重分布⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。
⑵无限总体:指没有空间和时间范围限制的总体。
2.样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。
样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。
样本的代表性:即样本能够充分反映总体的真实情况。
医学统计学复习重点和难点
一、医学统计的基本内容
• 1. 统计学:统计学是一门科学和艺术,专 门处理数据中的变异性。
如何处理:通过数据收集、整理、分析。 目的:得到可靠的结果。
• 2. 医学统计学:统计学应用于医药卫生领 域即称为医学统计学。
2020/12/9
• 3. 几个基本概念: • ⑴ 总体、样本、个体、随机抽样、
-1.96~1.96 -2.58~2.58
μ μ+σμ+1.96σ μ+2.58σ
0
1 1.96 2.58
正态分布 面积或概率
μ±σ
68.27%
μ±1.96σ 95.00%
μ±2.58σ 99.00%
5.参考值范围的制定及适用条件:(正态 、对数正态、百分位数法)
单侧下限---过低异常 单侧上限---过高异常 双侧---过高、过低均异常
2020/12/9
总变 组 异 内 组 变间 异 S总 S S组 S 间 S组 S内
总 组 间 组内
2020/12/9
方差分析的目的:是比较各组的总体 均数是否相同。 掌握完全随机设计及随机区组设计方 差分析变异及自由度的分解。 掌握完全随机设计方差分析的计算步 骤(方差分析表)。
2020/12/9
否
统计 描述 Md,Q
分类资料
统计 描述 率,比, 构成比
总体 均数 置信 区间
2020/12/9
t方 检差 验分
析
秩和 检验
总体 率的 置信 区间
2 检 验
五、直线相关与回归
1.直线相关与回归分析的意义和用途。 2.相关系数r、回归系数b、回归方程。 3.直线相关与回归的区别与联系及应用注 意事项。 4.等级相关的适用条件。
中医统计学
1.统计学:处理数据中变异性和复杂性的科学和艺术。
2.统计工作:搜集、整理、分析和研究统计数据的工作过程,是统计数据和统计理论的基础和源泉。
3.中医统计学:处理中医理论和时间中的同质性和变异性的科学和艺术。
4.假设检验:利用样本信息,根据一定的概率水准,推断指标间的差别有无意义的统计分析方法。
5.总体:根据研究目的确定的同质性的观测单位的集合。
6.样本:从统计单位中随机抽取的具有代表性的部分观测单位的集合.7.同质:构成总体的各个观测单位在某一方面或某几个方面的性质相同。
8.概率:某种现象发生的次数9.误差:实际观测值与真值之差或样本指标与总体指标之差。
10.系统误差:仪器、方法、试剂、条件、顺序、人为的差异,感官,理论和实验方法的差异。
11.研究设计:以尽可能少的人力、物力、财力完成预期的研究目的。
12.搜集资料:是指根据研究目的和射击要求,采用特定的方法和手段从交流传播的大量信息中分析,鉴别,选择和获取对中医药科研有利用价值信息的过程。
13.计量资料:是由数值变量产生的资料,即对每个观察单位用计量方法测得某项标志数值大小所获得的资料。
14.名义资料:又称无序资料。
按不同的类别加以分类的资料,其取值通常具有某种属性或特征的个数,特点是可在非数字中取值,各类之间具有性质上的差异。
15.等级资料:又称有序资料,或半定量资料,按不同的类别加以分类的资料。
特点是其各等级间有程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。
16.频数分布:指观测值按大小分组,各个组段内观测值个数的分布,它是了解数据分布形态特征与规律的基础。
17.泊松分布:常见的离散型分布,用来描述单位面积体积时间人群内等有或罕见时间发生数的分布规律18.相对比:描述两个有关指标的比例关系19.极差R:最大值与最小值之差20.中位数M:将一组观测值按大小顺序排列,位次剧中的数值为中位数21.变异系数CV:是一组观测值的标准差与均数的百分比22.集中趋势:指一组变量值的集中倾向或中心位置23.区间估计:即结合样本统计量和标准误确定一个具有较大可信度的包含总体参数的区间。
医学统计学考试重点资料
一、名解:1、定量资料:以定量值表达每个观察单位的某项观察指标2、定性资料:以定性方式表达每个观察单位的某项观察指标3、等级资料:以等级方式表达每个观察单位的某项观察指标4、总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
5、样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
6、参数:描述某总体特征的指标称为总体参数。
7、统计量:描述某样本特征的指标称为样本统计量。
8、小概率事件:当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件9、小概率原理:其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
小概率原理是进行统计推断的依据。
(8&9常写在一起)10∙变异,是以具有同质性的观察单位为载体,某项观察指标在其单位之间显示的差别。
11标准化率:用统一的标准对内部构成不同的各组频率进行调整和对比,对比后的率为标准化率。
12参考值范围:又称正常值范围,大多数人正常人某观察指标所在的范围。
由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值。
13、抽样误差:由抽样引起的样本统计量与总体参数间的差别。
14、中心极限定理:①从均数为U,标准差为。
的总体中独立随机抽样,当样本含量?增加时,样本均数的分布将趋于正态分布,均数为标准差为。
X②从非正态分布的总体中随机抽样,只要样本含量足够大,样本均数趋于正态分布。
15、统计推断:就是根据样本所提供的信息,以一定的概率推断总体的性质。
16、区间估计/参数估计/可信区间:包括点估计和区间估计,由样本信息估计总体参数。
按一定的概率或可信度(La)用一个区间估计总体参数所在范围。
这个范围称作可信度为l-α的可信区间(ConfidenCeinterval,Cl),又称置信区间。
医学统计学重点重点知识总结
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
医学统计学复习重点
医学统计学复习重点统计设计:调查设计、实验设计第一章绪论1.基本概念:总体——根据研究目的确定,所有同质观察单位某种观察值的全体。
样本——总体中抽取的一部分具有代表性的个体组成的集合。
参数-—刻画总体特征的统计指标。
一般用希腊字母表示μ、σ、π统计量—-刻画样本特征的统计指标.抽取的样本不同,统计量会变化;一般用拉丁字母或英文字母表示、S、p抽样误差:个体变异所致,抽样研究中样本信息与总体特征间的差异。
抽样误差是不可避免的。
属于随机误差,无方向性,重复抽样可以呈现一定的规律性。
小概率事件P≤0。
052.*统计工作的四个步骤:设计、收集资料、整理资料、分析资料。
(用工作实例解释)第二章调查研究设计第三章实验研究设计1.调查研究(观察性研究):特点:无人为施加处理因素调查研究的分类:按调查涉及的对象划分:全面调查(普查)、抽样调查、典型调查注意:收集的资料要有可比性*随机抽样方法(做统计推断有意义):单纯随机抽样、系统抽样、分层抽样、整群抽样非随机抽样方法(不能做统计推断,可能有偏差):偶遇抽样、判断抽样、滚雪球抽样等2.实验研究特点:与调查研究最本质的区别:根据研究目的主动施加干预措施实验设计的三个基本要素:受试对象、处理因素、实验效应实验设计的基本原则:对照原则、随机化原则、重复原则第四章定量资料的统计描述第五章定性资料的统计描述1.定量资料(1)定量资料——*频数分布表、直方图、箱式图—-判断分布类型——(2)描述离散趋势的统计指标:✓极差R=最大值—最小值、✓四分位数间距Q:常用于描述*偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料✓方差(总体、样本S2)&标准差(、S):*正态或近似正态分布✓变异系数(3)(4)正态分布及其应用:**制定医学参考值范围步骤:判断分布类型-—正态分布-—*双侧95%参考值范围:±1.96S、单侧95%参考值范围:下限为—1。
64S、上限为+1。
医学统计学重点
医学统计学重点医学统计学是医学领域中不可或缺的一门学科,它借助数理统计方法研究医学数据和临床试验的结果,为医学决策提供可靠的依据。
以下是医学统计学的几个重点内容。
一、描述统计学描述统计学是医学统计学的基础,主要研究如何分类、整理和描述医学数据。
其主要方法包括测量尺度、频率分布表、中心趋势测量和变异程度测量。
1. 测量尺度在医学统计学中,常见的测量尺度包括名目尺度、有序尺度和数值尺度。
名目尺度适用于无序分类的变量,有序尺度适用于有序分类的变量,而数值尺度适用于具有度量意义的变量。
2. 频率分布表频率分布表用来展示变量的分布情况,主要包括类别、频数和频率等内容。
通过频率分布表,可以直观地了解变量的分布状况。
3. 中心趋势测量中心趋势测量主要包括平均数、中位数和众数。
平均数是所有观测值的总和除以观测值的个数,中位数是将观测值按大小排列后的中间值,众数是出现次数最多的观测值。
4. 变异程度测量变异程度测量用来描述数据的分散程度,主要包括极差、方差和标准差。
极差是最大观测值与最小观测值之间的差异,方差是观测值与均值之间的差异的平方的平均数,标准差是方差的平方根。
二、推断统计学推断统计学是医学统计学的核心内容,主要研究如何通过样本数据推断总体参数,并对假设进行检验。
其中包括参数估计、假设检验和置信区间等方法。
1. 参数估计参数估计是利用样本数据估计总体参数,常用的方法有点估计和区间估计。
点估计是通过样本数据得到一个单一的数值作为总体参数的估计值,区间估计是通过样本数据得到一个范围作为总体参数的估计区间。
2. 假设检验假设检验是用来检验某个陈述是否与观察数据相符的方法。
在医学研究中,研究者常常根据实验数据对研究假设进行检验,以确定是否有统计显著性。
3. 置信区间置信区间是对总体参数的一个范围估计。
置信区间的计算方法与区间估计相似,通过对样本数据进行分析计算得到。
三、生存分析生存分析是医学统计学中的一个重要分支,主要研究疾病患者的生存时间和生存率等问题。
医学统计学重点整理汇总
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
中医统计学 复习
1.中医统计学:处理中医理论与实践中的同质性和变异性的科学与艺术.以概率论和数理统计原理为基础,以中医理论与实践为主体,通过对数据的搜集、整理、分析和推断,从而达到探讨中医理论与方法内在规律的目的.2.总体:根据研究目的确定的同质观测单位的集合. (无限总体和有限总体)3.样本:从统计总体中随机抽取的、具有代表性的部分观测单位的集合.4.同质:构成总体的各个观测单位在某一方面或某几方面的性质相同或基本相同.5.变异:在同质基础上各观察单位(或个体)之间的差异.6.事件:泛指事物发生的某种情况或在调查、观察和实验中获得的某种结果.(确定性事件和随机事件)8.频率:某种现象在重复随机试验中发生的比例.9.概率:某随机事件A发生的可能性大小,记为P(A).10.频数:指研究对象安某属性进行分组后,各组中观测值的个数.11.众数:一群数据中出现次数(频数)最多的值.12.随机:在抽样、分组、实验/试验顺序安排过程中,每个观测单位都不受研究者主观意愿驱使,具有同等的机会被抽中、分配或安排,目的是保证样本具有代表性.13.随机变量:随机事件各种不同的结果.(离散型变量和连续型变量)14.量值:随机事件各种具体的观测值.15.误差:实际观测值与真值之差个差或样本指标与总体指标之差.(非随机误差(粗差、系统误差)和随机误差(测量误差、抽样误差))16.分布:随机变量取值的变化及相应的频率变化的规律性.17.频数分布:指观测值按大小分组,各个组段内观测值个数(频数)的分布,是了解数据分布形态特征和规律的基础.18.正态分布:(高斯分布)一种常见的、最重要的连续型对称分布标准正态分布:期望值μ=0,标准差σ=1的正态分布19.医学参考值范围:为了减小变异的影响,提高参考值作为为判断正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围.20.构成比:事物内部各组成部分所占整体的比重或分布,常用百分数表示.构成比=(某现象内部某一部分的个体数/某现象内部个体数之和)×100%21.相对比:描述两个有关指标的比例关系(通常以倍数或百分数表示).率:表示某现象发生的频率或强度,是频率指标.22.抽样误差:由个体差异和随机抽样造成的样本和总体、样本与样本相应统计指标之间的差异.23.区间估计:结合样本统计量和标准误确定一个具有较大可信度的包含总体参数的区间,该区间称为总体参数的1-α可信区间(CI)24.无效假设:记为 H0,表示差别由抽样误差引起,无统计学意义.备择假设: 记为 H1,表示差别为处理因素所致,有统计学意义.分为单侧和双侧两种形式25.检验水准:(显着性水准)符号为α,事先规定的对假设成立与否作出判断的依据,常取0.05或0.0126.P值:在检验假设所规定的总体中作随机抽样,获得等于及大于/小于现有样本统计量的概率,即各样本统计量的差异来自抽样误差的概率,是判断H0成立与否的依据.确定P值的方法有查表法和计算法27.I型错误:统计推断结果拒绝了实际上成立的H0,犯了”弃真”的错误.指组间差异实际上不存在,统计推断结果却错误地认为存在组间差异,故称为以假为真的错误为阳性错误,其概率用α表示II性错误:统计推断结果不拒绝实际上是不成立的H0,犯了”存伪”的错误. 指组间确实存在差异,统计推断结果却未检查出该差异,故称为以真为假的错误为阴性错误,其概率用β表示28.检验效能:(把握度)符号为1−β,当组间确实存在差异时,按所规定的α水平能发现组间差异的能力,或当H0不成立时拒绝H0的概率29.秩次:全部观测值按顺序排列的位序. 秩和:同组秩次之和秩和检验:用于总体为非正态或不易确定的分布资料、不能或未加精确测量资料等效率较高的非参数检验方法30.相关:指一个变量增大,另一个变量也随之增大或减少的共变现象相关关系:两个变量有共变现象直线相关:判断两个变量之间有无直线相关关系并回答相关的方向和相关程度如何的统计分析方法相关系数:符号为r,说明具有相关关系的两个变量间相关关系的密切程度与相关方向的指标. 31.直线回归:用直线回归方程或数学模型描述两个变量间线性依存关系的一种统计分析方法回归系数:回归方程中表示自变量x对因变量y影响大小的参数,在直线回归方程中ŷ=a+bx中x 每改变一个单位,y变动b个单位.32.无序资料:(名义资料)取值通常是具有某种特征或属性的个数,特点是可在非数字中取值,各类之间具有性质上的差异;有序资料:(等级资料或半定量资料),特点是各等级间有程度或量的差异,即可按数量的相对大小或程度的高低排出顺序.1.统计学的主要内容:研究设计(专业设计和统计学设计)、统计描述、统计推断(参数估计和假设检验)2.假设检验的步骤:1)建立检验假设、确定检验水准2)选择检验方法、计算统计量3)确定P值、做出推论3.专业设计的基本要素:受试对象、处理因素和试验效应4.统计设计的基本原则:对照(空白、实验、安慰剂、标准、历史、自身、相互和复合处理对照)、随机(单纯、系统、整群和分层随机抽样)、均衡、重复5.受试对象的选择需满足:对处理因素有较强的敏感性和特异性、对处理因素有较稳定的反应性、可行性6.数值变量的统计描述:1)集中趋势描述:描述一组观测值集中趋势的指标,是对同质基础上的样本或总体一般特征的指标.主要作用是①作为一组观测值的代表,表明该组观测值集中趋势的特征②便与同类研究对象进行对比分析.常用的平均数有算数平均数(总体均数μ、样本均数)、几何平均数G和中位数M;2)离散趋势描述:及变异性指标,描述一组同质观测值变异程度大小(即数据的均匀性)的综合指标.常用的变异性指标有极差R、四分位数间距Q、标准差s、变异R 系数CV、标准误SE.7.中医统计资料类型:1)计量资料:由数值变量产生的资料,即对每个观察单位用计量方法测得某项标志数值大小所获得的资料.特点是变量值大多有单位,其具体取值通常是正实数(零、正实数和小数); 2)计数资料:由分类变量产生的资料,即对每个观察单位按某种属性分组计数而得的资料.特点是变量值表现为互不相容的属性或类别,无度量衡单位.分为二分类资料(按互不相容的属性分类)和多分类资料(按不同类别分类(无序资料和有序资料))8.直线相关的注意事项:1)线性相关表示两个变量间的关系是双向的,当散点图出现直线趋势时再做分析2)相关系数的计算只适用于两个变量都服从正态分布的资料3)样本相关系数r是总体相关系数ρ的一个估计值,r与ρ间存在抽样误差,必须作假设检验4)相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系9.应用相对数的注意事项:1)计算时分母不宜太小,若观察单位数较小,宜直接用绝对数表示;2)观察单位数不等的几个率不能直接相加求其合计率;3)资料对比时应注意可比性;4)资料分析时不能已构成比代替10.直线回归注意的问题:1)作回归分析要有实际意义,不能把毫无关联的两种现象做回归分析.2)在进行直线回归分析前应先绘制散点图,观察点的分布有直线趋势时才适宜作直线回归分析,若呈曲线趋势宜直线化后再分析3)适用范围一般以自变量的取值范围为限,在此范围内求出的估计值称为内插,超过此范围的值称为外延,应避免外延.11.应用检验假设注意事项:1)事先进行严密的统计学设计:除对比的主要因素外,其他可能影响结果的因素在对比的组间应相同或相近2)单侧检验和双侧检验的选择:双侧检验的检验思路比单侧宽且无限制条件,较为常用,适用于对预试验结果分析,双侧的接受域位于某一特定分布的中部,拒绝域分布在两侧,而单侧检验的接受域和拒绝域各占某一特定分布的一侧,同一检验水准下单侧比双侧界值小、拒绝域大、更易得出拒绝H03)灵活确定α水准:根据实际工作中对不同分析目的和要求,选用的α往往有一定的灵活性4)选择正确地统计方法:应根据分析目的、不同的资料类型及分布、设计方案的种类、样本量的大小等选用适当的检验方法5)正确理解统计推断的意义:统计推断结论是依据现有的设计、研究方法与条件、资料及分析目的和要求所取的水准,采用的统计分析方法等做出具有相应概率的解释,不宜将结论的意义扩大或缩小6)假设检验的结论不能绝对化:统计学结论是具有概率性质的推论,不能使用”肯定”、”证明”、”一定”、”说明”等词,此外有统计学意义时不一定有专业意义.(假设检验是否具有统计学意义取决于被研究事物有无本质差异、抽样误差的大小、所选用的α高低及死单侧还是双侧)7)结合专业知识作出推论:假设检验可帮助研究者作出合理的推断,不能代替研究者做出专业结论8)CI与假设检验的区别与联系:CI推断参考值的范围(量的大小),假设检验判断各参数间有无质的不同12.统计表的结构:1)表号:位于顶线上方、标题的左侧,与标题之间的空2个字符,以阿拉伯数字表示2)标题:位于顶线上方、标号之后,简明扼要地说明表的内容;3)标目:横标目是统计表的主语,表示被说明事物的主要标志, 纵标目是统计表的谓语,说明主语的各项指标.对标目的要求是文字简明、层次清楚,一张表内不要安排过多标目;4)线条:一般只出现顶线、标目线和底线3条等长线;5)数字:一律采用阿拉伯数字,同一指标的小数位数应一致,位次对齐;6)备注:一般不列入表中,必要时可用’*’表示区别率构成比概念表示某现象发生的频率或强度表示事物内部各组成部分所占比重或分布特点某一分率的改变对其他无影响任一部分比重的增减都会影响其他部分意义反映事物的普遍性及严重程度事物按一个特征分类时,反映事物内部组成的结构特征事物按两个特征分类时,反映两个特征之间的关联关系合计各个率不能直接相加一定为100%标准差均数标准误意义描述个体观测值间的变异程度大小描述同一总体中随机抽出n相同的多个样本均属建德离散性公式s=√Σ(x−x̅ )/(n−1)S x̅= s/√n与n的关系随着n的增大逐渐趋于稳定随着n的增大逐渐减小,与n的平方根成反比用途表示观测值变异大小结合均数描述正态分布的特征在正态分布时做参考值范围的估计表示样本抽样误差的大小描述样本均数的可靠性结合均数估计总体均数的CI 进行均数间差别的假设检验计算变异系数和均数的标准误区别总体均数的可信区间参考值范围的区别涵义根据抽样分布原理,按预先规定的概率(1-α)给出被估计总体均数肯德数值范围.表示某总体均数的可能范围表示某项解剖、生理、生化等指标绝大多数个体观测值可能出现的范围计算α已知:(x̅−μα2⁄ σx−,x̅+μα2⁄ σx−α未知:(x̅−tα2⁄ ,S x−ν ,x̅+tα2⁄ ,S x−ν)正态分布: x̅±μα2⁄S(双侧)非正态分布:P x−P100−x(双侧)与n的关系n越大,CI越小;n无穷大,CI趋近0 n越大,参考值范围越稳定用途估计总体均数估计某项指标绝大多数观测单位的波动范围直线相关直线回归联系(1) 反映应变量y与自变量x的互依关系,双向变化的关系体现应变量y随自变量x变化的依存关系,单向的关系(2)对两个变量间的关系进行描述,看是否有关系、关系是否密切及关系的性质对两个变量做定量描述,研究两个变量的数量关系(3) 只适用x,y服从双变量正态分布资料既适用于x,y服从双变量正态分布资料,也适用于y服从双变量正态分布,x是可以精确测量和严格控制的变量(4) r无单位,r的绝对值越大,两变量的关系越密切,相关程度越高b有单位,b的绝对值越大,回归直线越陡,y的平均变化越大(5) 两事物或现象间存在相关关系,不一定是因果关系两事物或现象间存在因果关系,则必然相关区别(1) 同时计算r和b,r与b同正负,r为正说明两变量间的相互关系是同向变化的;b为正说明x增(减)一个单位,y平均增(减)b个单位(2) r和b的假设检验等价,即对同一样本两者的t值相等,故简单的r的假设检验可代替对b的假设检验(3) 相关回归可以互相解释,r2称为确定系数,其可以从回归的角度了解相关程度设计方案水平特点完全随机设计单因素,两水平、多水平,不考虑混杂因素简单方便,应用广泛,容易进行统计分析, 只能分析一个因素的作用,效率相对较低配对设计单因素,两水平,考虑混杂因素能缩小受试对象间的个体差异,从而减少实验误差,提高实验效率随机区组设计单因素,多水平,不考虑混杂因素各随机区组的受试对象数目相等,生物学特点较均衡,缩小了组间差别,实验效率较高SPSS电脑实验1.单样本t检验:1)用Explore正态性检验:选择Alnalyze→Descriptive statistics→Explore(Dependent:测量值, plots按钮:Normality plots with test)2)用One-Sample T Test单样本检测:选择Alnalyze→Compare Means→One-Sample T Test(右侧上面的Test框:测量值, 修改下面的Test框默认值(总体均数))2.配对t检验1)计算差值d: 选择Transform→Compute Variable(Target Variable:d,Numeric expession:方法一,单击运算键“-”,Numeric expession:法二)2)对差值d用Explore正态性检验: (Dependent:d,同上)3)配对t检验: 选择Alnalyze→Compare Means→Paired-Sample T Test(Paired Variable:方法一、方法二)3.方差齐性检验1)用Explore正态性检验,Spread vs.level with levene test→Untransformed4.独立样本t检验1)选择Alnalyze→Compare Means→Independent-Samples T Test(Test框:测量值d,grouping:组别,Define groups:1、2等)1.完全随机设计F检验:1)选择Alnalyze→General Linear Model→Univariate(Dependent:测量值,Fixed Factor(s) :组别,Option视窗中Estimated Marginal Means→Display Means for:组别,Display: Descriptive statistics和Homogeneity tests→Continue→OK) 2.随机区组设计F检验:1)选择Alnalyze→General Linear Model→Univariate(Dependent:测量值,Fixed Factor(s) :方法、药物;Model视窗中选择Custom→Model:方法、药物,Sum of Squares:Type III, →Include intercept in model→Continue;Post Hoc视窗中,Post Hoc Test for:方法,S-N-K →Continue ;Option视窗中Display Means for:组别,Display: Descriptive statistics→Continue→OK)1.成组设计四格表χ2检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2) χ2检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”组别→Row(s)”以及”结果→Column(s)”对话框→statistics→Chi-square→Continue→OK2.配对设计四格表χ2检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2) χ2检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”新法→Row(s)”以及”旧法→Column(s)”→statistics→McNemar→Continue→OK3.R×C表χ2检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2) χ2检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”组别→Row(s)”以及”结果→Column(s)”→statistics→Chi-square→Continue→OK1.直线相关分析:1)选择Alnalyze→Correlate→Bivariate→在Bivariate Correlations的视窗中,将进食量、增重量两变量同时选中,从左边源变量框中移置到由框中→OK2.直线回归分析:1)选择Alnalyze→Regession→Linear→在Linear Regession的视窗中,将左边“收缩压“变量单样本t检验配对设计资料的t检验独立样本t检验μ1=μ2S c2=(n1−1)S12+(n2−1)S22n1+n2−2S x̅1−x̅2=√S c2(1n1+1n2)t=x̅1−x̅2S x̅1−x̅2μ1=μ2完计算均差SS总=ΣX2−(ΣX)2N,SS组间=Σn i(x̅i−x̅)2=Σ(ΣX i)2n i−(ΣX)2N全 随机 F 检验 平方和SS 组内=ΣΣ(x i −x ̅i )2=ΣX 2−Σ(ΣX i )2n i =SS 总−SS 组间 计算自由度ν总=N −1,ν组间=k −1,ν组内=N −k计算均方MS 组间=SS 组间ν组间⁄,MS 组内=SS 组内ν组内⁄ 计算F 值 F =MS 组间MS 组内⁄随机区组 F 检计算均差 平方和SS 总=ΣX 2−(ΣX)2N ,SS 处理=Σ(ΣX i )2k −(ΣX)2N SS 区组=Σ(ΣX i )2n −(ΣX)2N ,SS 误差=SS 总−SS 处理−SS 区组 计算自由度ν总=N −1,ν处理=k −1,ν区组=n −1,ν误差=ν总−ν处理−ν区组 计算均方MS 处理=SS 处理ν处理⁄,MS 区组=SS 区组ν区组⁄,MS 误差=SS 误差ν误差⁄ 计算F 值 F 处理=MS 处理MS 误差⁄,F 区组=MS 区组MS 误差⁄ 相关系数 l xy =Σ(x −x ̅)(y −y ̅)=Σxy −ΣxΣy n , l xx =Σ(x −x ̅)2=Σx 2−(Σx)2n l yy =Σ(y −y ̅)2=Σy 2−(Σy)2n , r =r xy =l xy √(l xx ∗l yy )相关系数假设检验: ρ=0t r =|r−0|√(1−r)(n−2)⁄ ,ν=n −2成组设计四格表 π1=π2 T ≥5 n ≥40 n n n T C R RC =,()∑-=T T A 22χ或()()()()()d b c a d c b a n bc ad ++++-=22χ 1≤T<5n ≥40n n n T C R RC =,()∑--=T T A 225.0χ或()()()()()d b c a d c b a n n bc ad ++++--=222χ 配对设计四格表 B =Cb+c ≥40χ2=(b −c)2b +c ,ν=(R −1)(C −1) b+c<40 χ2=(|b −c |−1)2b +c ,ν=(R −1)(C −1)行×列表π1=π2=πn T>1 或1<T<5 少于1/5 1.率的标准化法: 采用统一标准计算各率的标准化率,使率具有可比性,目的是在比较总率时消除混杂因素的影响.2.相对数:两个有联系的绝对数、相对数或平均数之比.(常用的相对数有率、构成比和相对比3.非参数检验:在统计推断中,不依赖于总体的分布形式, 直接对总体分布位置是否相同进行检验的方法,称非参数检验.4.等级资料: 将观察单位按某种属性的不同程度分组,所得各组的观察单位数,称为等级资料5.参数统计:在统计推断中 ,假定样本所来自的总体分布为已知的函数形式,但其中有的参数为未知,统计推断的目的就是对这些未知参数进行估计或检验.6.参数估计:用样本统计量来估计总体参数,包括点值估计和区间估计.7.可信区间:在参数估计时,按一定可信度估计所得的总体参数所在的范围.8.假设检验:根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断此假设应当拒绝或不拒绝, 以使研究者了解在假设条件下,差异由抽样误差引起的可能性大小,便于比较分析.9.中位数:将一组观察值按从小到大的顺序排列后, 位次居中的观察值.10.影响1−β的因素是:1) 1−β与样本量成正比:n越大,标准误越小, β减小,发现组间差异的能力越强2) 1−β与参数的差值成正比:参数间的差值越大,样本指标间的差值就越大,越易获得拒绝H0的结论3) 1−β与个体差异成反比:标准差越小,标准误就越小,统计量就越大, 1−β越高4) 1−β与设计类型有关:配对设计和配伍设计比完全设计的1−β高5) 1−β与检验方法有关:①参数检验所含的信息量比非参数检验多, 1−β高;②与检验方法要求的条件的多少成正比: 参数检验比非参数检验的1−β高;③检验水准α的大小成正比: α与β呈反比11.假设检验的目的和意义是什么?答: 在实际研究中,一般都是抽样研究,则所得的样本统计量(均数、率)往往不相等,这种差异有两种原因造成: 其一是抽样误差所致,其二是由于样本来自不同总体。
中医统计学重点
1、卡方检验要求理论数不宜太小。
2、多个样本率(构成比)比较。
3、不管资料中的两个分类变量是有序还是无序,均用卡方检验是不妥的。
4、对于单向有序R*C表资料的统计分析。
5、对于双向有序且属性不同的R*C表资料的统计分析。
6、对于双向有序且属性相同的R*C表资料的统计分析。
1、线性相关表示两个变量之间的关系是双向的,当散点图出现直线趋势时再做分析。
2、相关系数的计算只适用于两个变量都服从正态分布的资料。
3、样本相关系数γ是总体相关系数ρ的一个估计值,γ与ρ之间存在着抽样误差,必须做假设检验。
4、相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系,也可能仅是伴随关系。
在正态分布是做参考值范围的估计
计算变异系数和均数的标准误
表示样本均数抽样误差的大小
描述样本均数的可靠性
结合样本均数估计总体均数的CI
进行均数间差别的假设检验
九:方差分析基本思想
将所有测量值间的总变异按照其变异的来源分解为多个部分,然后ห้องสมุดไป่ตู้各部分的变异与随机误差进行比较,以推断各处理组间的差异有无统计学意义。因此,方差分析的基本思路是分析变异,是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术,实质是关于观测值变异原因的数量分析。
十一:秩和检验的应用范围。
1、总体分布类型未知,或资料分布类型已知,但不符合正态分布的资料。
2、某些可能无法精确测量,只能以严重程度、优劣等级、次序先后等表示的等级资料。
3、个别数据偏大或数据的某一端或两端为不确定值的资料,例如“>50”和“<1”。
4、各总体方差不齐的资料。
中医统计学复习资料
统计学思考题以下一切公式仅为帮助理解总体:是根据研究目的所确定的研究对象的全体..它是由许多性质相同的个体组成样本:是从总体中随机抽取的一部分有代表性的个体参数:根据总体分布的特征而计算的总体数值总体的统计指标统计量:由总体中随机抽取样本而计算的相应指标样本的统计指标抽样误差:指样本与总体之间的差别或同一总体中相同大小样本之间的差别概率:反映某一事件发生的可能性大小的量;常用P 表示;0≤P≤1当某事件发生的概率P≤0.05 或0.01;称为小概率事件..数值变量资料:又称计量资料;对每一个观察单位用定量的方法测定某项指标的数值大小所得的资料分类变量资料:又称计数资料;是先将观察单位按性质或类别进行分组;然后清点各组观察单位的个数所得的资料统计工作的基本步骤:研究设计、收集资料、整理资料、分析资料实验设计基本要素:处理因素、受试对象、实验效应实验设计基本原则:对照原则、随机原则、重复原则、均衡原则、盲法原则资料的分析:统计描述、统计推断参数估计、假设检验统计表的基本结构:标题、标目横标目、纵标目、线条、数字如何正确编制统计表和统计图讲稿P4、P5常用统计图直条图:适用于按性质分组的不连续资料构成图:适用于构成比资料;分为百分条图和圆形图普通线图:适用于按数量分组的连续性资料直方图:适用于连续性频数分布资料计量资料的频数分布特征:集中趋势、离散趋势类型:对称分布、偏态分布平均数意义:分析计量资料的基本指标;表示一组性质相同的观察值的平均水平或集中趋势的指标常用平均数1.算术平均数:均数当一组变量值的频数分布呈对称分布或近似对称分布正态或近似正态分布时适用..总体均数μ;样本均数X ..2.几何平均数G:当一组变量值呈倍数关系等比级数资料或变量值呈对数正态分布时适用..3.中位数M:当一组变量值呈偏态分布非对数正态分布或数据的一端或两端无界限或资料的分布特征不清楚时适用..常用变异指标:极差R全距、四分位数间距、标准差、变异系数变异系数:当两组变量值单位不同或均数相差较大时;不能直接用标准差比较其离散程度时适用最常用的平均数指标是均数、最常用变异指标是标准差正态分布两个参数:位置参数μ;变异度参数σ曲线特征:中间高、两边低;左右对称的光滑曲线如果X 为正态变量;作变量变换则u为标准正态变量;u~N0;1;即μ=1;σ 2=0医学上应用:1.概括估计变量值的频数分布2.制定正常值范围双侧95%正常值范围为:X±1.96S 3.控制实验误差正态曲线下的面积分布规律1.μ±σ范围内面积占正态曲线下总面积的68.27%;即有68.27%的变异值分布在此范围内2.μ±1.96σ范围内面积占正态曲线下总面积的95%;即有95%的变异值分布在此范围内3.μ±2.58σ范围内面积占正态曲线下总面积的99%;即有99%的变异值分布在此范围内计数资料统计描述的基本指标是相对数常用相对数率:说明某现象发生的频率频繁程度或强度严重程度的指标构成比:表示事物内部各构成部分在全体中所占比重或分布的指标;又称百分比相对比:两个有关的同类指标的比;常以倍数或百分数表示应用相对数注意问题:1.避免“比”与“率”的误用2.样本太小时;不宜计算相对数3.要注意对比资料之间的“可比性”均数的抽样误差:由抽样而造成的样本均数与总体均数之间的差别;用标准误表示误差大小均数的标准误与标准差区别和联系总体均数95%可信区间:即某个区间估计有95%的把握包括总体均数;5%可能未被包括..总体均数和总体率可信区间的估计;大样本基于正态分布原理;小样本基于t 分布原理..总体均数的可信区间与参考值范围区别前者估计总体均数可信区间;后者确定医学参考值范围t 分布与u 分布的区别和联系相似:以0 为中心;中间高;两边低;左右对称的光滑曲线不同:t 比u 分布离散程度更大中间面积较少;两边面积较大联系:随着自由度增大;t 分布越来越接近u 分布..当自由度无限大;t 分布即为u 分布假设检验基本步骤:1.建立假设:无效假设或检验假设H0;备择假设H12.确定检验水准α:一般取α=0.053.选择检验方法及计算检验统计量计算t 值或卡方值两均数差别的假设检验——t 检验两个或多个率或构成比——χ 2检验卡方检验两个大样本均数或大样本率——u 检验4.求P 值先求自由度v;具体求法参考后面“两均数比较t 检验的形式”和“卡方检验”5.结果推断当检验结果P<0.05;按α=0.05 水准;拒绝H0;接受H1;认为……相当于答得部分当检验结果P>0.05;按α=0.05 水准;接受H0;认为……两均数比较大样本资料:u 检验;小样本资料:t 检验t 检验的应用条件1.两样本来自正态分布总体2.两总体方差相等即方差齐3.相互独立的两个随机样本两均数比较t 检验的形式1.样本均数与总体均数的比较单样本2.配对设计资料差值均数比较3.完全随机设计两样本均数的比较两个方差的齐性检验1.方差齐性检验——F 检验:判断完全随机设计的两组资料方差是否齐同2. t′ 检验方差不齐变量变换在t 检验中的作用参数统计分析方法对资料有一定的要求;如t 检验要求样本来自正态分布总体;并且方差齐同..但实际工作中并非所有的统计资料都能满足参数统计分析方法的条件;变量变换正是使之上述要求..均数比较适用方法总结两个独立样本的可比性:除了处理因素不同;非处理因素尽可能相同..大样本率差别的假设检验u 检验条件:n 足够大;p 不太靠近0 或1;或np>5 及n1-p>5两个率差别的假设检验卡方检验可用于计数资料的假设检验..如两个或多个率或构成比的比较;计数资料的相关分析等..自由度:v=行数-1列数-1=1条件:1.四格表资料卡方检验:n>40 且各格子T>52.卡方检验校正公式:n>40 且任一格1<T<53.四格表精确概率法:n<40 或T<1公式自己看一下。
医学统计学知识点
医学统计学知识点1.数据类型:医学研究中使用的数据包括定类数据和定量数据。
定类数据是非数值型的数据,例如性别、种族等;定量数据是数值型的数据,例如年龄、体重等。
了解数据类型是分析数据的第一步。
2.数据收集:医学研究中的数据可以通过不同的方式收集,例如问卷调查、实验研究、观察等。
在数据收集过程中,需要注意样本的选择、数据的完整性和准确性。
3.描述统计学:描述统计学包括对数据的整体特征进行描述和总结。
常用的描述统计学方法包括中心趋势度量(例如均值、中位数、众数)、离散程度度量(例如标准差、方差)和数据分布描述等。
4.推断统计学:推断统计学是从样本数据推断总体特征的一种方法。
通过推断统计学,可以根据样本数据的统计量(例如样本均值、样本比例)来推断总体参数的区间估计或假设检验。
5.假设检验:假设检验是根据样本数据对总体参数提出假设,并通过计算概率值来判断是否接受或拒绝该假设。
常用的假设检验方法包括t检验、卡方检验、方差分析等。
6.相关分析:相关分析用于研究两个或多个变量之间的关系。
常见的相关分析方法有皮尔逊相关系数、斯皮尔曼相关系数等。
相关分析可以帮助研究者了解变量之间的线性关系和方向。
7. 回归分析:回归分析用于研究因变量与自变量之间的关系,并可用于预测因变量的数值。
常用的回归分析方法有简单线性回归分析、多元线性回归分析和 logistic 回归分析等。
8. 生存分析:生存分析用于研究时间相关的数据,例如疾病患者的生存时间或事件发生的时间。
生存分析方法包括 Kaplan-Meier 曲线、Cox 比例风险模型等。
9.双盲试验和随机分组:在医学研究中,双盲试验和随机分组是常用的研究设计方法。
双盲试验是指研究中既不知道接受治疗的病人,也不知道给予治疗的医生;随机分组是指将研究对象随机分配到不同的治疗组和对照组。
10.统计软件:为了进行医学统计分析,研究者可以使用专业的统计软件,例如SPSS、SAS、R等。
中医统计学 复习
1.中医统计学:处理中医理论与实践中的同质性和变异性的科学与艺术.以概率论和数理统计原理为基础,以中医理论与实践为主体,通过对数据的搜集、整理、分析和推断,从而达到探讨中医理论与方法内在规律的目的.2.总体:根据研究目的确定的同质观测单位的集合. (无限总体和有限总体)3.样本:从统计总体中随机抽取的、具有代表性的部分观测单位的集合.4.同质:构成总体的各个观测单位在某一方面或某几方面的性质相同或基本相同.5.变异:在同质基础上各观察单位(或个体)之间的差异.6.事件:泛指事物发生的某种情况或在调查、观察和实验中获得的某种结果.(确定性事件和随机事件)8.频率:某种现象在重复随机试验中发生的比例.9.概率:某随机事件A发生的可能性大小,记为P(A).10.频数:指研究对象安某属性进行分组后,各组中观测值的个数.11.众数:一群数据中出现次数(频数)最多的值.12.随机:在抽样、分组、实验/试验顺序安排过程中,每个观测单位都不受研究者主观意愿驱使,具有同等的机会被抽中、分配或安排,目的是保证样本具有代表性.13.随机变量:随机事件各种不同的结果.(离散型变量和连续型变量)14.量值:随机事件各种具体的观测值.15.误差:实际观测值与真值之差个差或样本指标与总体指标之差.(非随机误差(粗差、系统误差)和随机误差(测量误差、抽样误差))16.分布:随机变量取值的变化及相应的频率变化的规律性.17.频数分布:指观测值按大小分组,各个组段内观测值个数(频数)的分布,是了解数据分布形态特征和规律的基础.18.正态分布:(高斯分布)一种常见的、最重要的连续型对称分布标准正态分布:期望值μ=0,标准差σ=1的正态分布19.医学参考值范围:为了减小变异的影响,提高参考值作为为判断正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围.20.构成比:事物内部各组成部分所占整体的比重或分布,常用百分数表示.构成比=(某现象内部某一部分的个体数/某现象内部个体数之和)×100%21.相对比:描述两个有关指标的比例关系(通常以倍数或百分数表示).率:表示某现象发生的频率或强度,是频率指标.22.抽样误差:由个体差异和随机抽样造成的样本和总体、样本与样本相应统计指标之间的差异.23.区间估计:结合样本统计量和标准误确定一个具有较大可信度的包含总体参数的区间,该区间称为总体参数的1-可信区间(CI)24.无效假设:记为,表示差别由抽样误差引起,无统计学意义.备择假设: 记为,表示差别为处理因素所致,有统计学意义.分为单侧和双侧两种形式25.检验水准:(显著性水准)符号为,事先规定的对假设成立与否作出判断的依据,常取0.05或0.0126.P值:在检验假设所规定的总体中作随机抽样,获得等于及大于/小于现有样本统计量的概率,即各样本统计量的差异来自抽样误差的概率,是判断成立与否的依据.确定P值的方法有查表法和计算法27.I型错误:统计推断结果拒绝了实际上成立的,犯了”弃真”的错误.指组间差异实际上不存在,统计推断结果却错误地认为存在组间差异,故称为以假为真的错误为阳性错误,其概率用表示II性错误:统计推断结果不拒绝实际上是不成立的,犯了”存伪”的错误. 指组间确实存在差异,统计推断结果却未检查出该差异,故称为以真为假的错误为阴性错误,其概率用表示28.检验效能:(把握度)符号为,当组间确实存在差异时,按所规定的水平能发现组间差异的能力,或当不成立时拒绝的概率29.秩次:全部观测值按顺序排列的位序. 秩和:同组秩次之和秩和检验:用于总体为非正态或不易确定的分布资料、不能或未加精确测量资料等效率较高的非参数检验方法30.相关:指一个变量增大,另一个变量也随之增大或减少的共变现象相关关系:两个变量有共变现象直线相关:判断两个变量之间有无直线相关关系并回答相关的方向和相关程度如何的统计分析方法相关系数:符号为r,说明具有相关关系的两个变量间相关关系的密切程度与相关方向的指标.31.直线回归:用直线回归方程或数学模型描述两个变量间线性依存关系的一种统计分析方法回归系数:回归方程中表示自变量x对因变量y影响大小的参数,在直线回归方程中中x每改变一个单位,y变动b个单位.32.无序资料:(名义资料)取值通常是具有某种特征或属性的个数,特点是可在非数字中取值,各类之间具有性质上的差异;有序资料:(等级资料或半定量资料),特点是各等级间有程度或量的差异,即可按数量的相对大小或程度的高低排出顺序.1.统计学的主要内容:研究设计(专业设计和统计学设计)、统计描述、统计推断(参数估计和假设检验)2.假设检验的步骤:1)建立检验假设、确定检验水准2)选择检验方法、计算统计量3)确定P值、做出推论3.专业设计的基本要素:受试对象、处理因素和试验效应4.统计设计的基本原则:对照(空白、实验、安慰剂、标准、历史、自身、相互和复合处理对照)、随机(单纯、系统、整群和分层随机抽样)、均衡、重复5.受试对象的选择需满足:对处理因素有较强的敏感性和特异性、对处理因素有较稳定的反应性、可行性6.数值变量的统计描述:1)集中趋势描述:描述一组观测值集中趋势的指标,是对同质基础上的样本或总体一般特征的指标.主要作用是①作为一组观测值的代表,表明该组观测值集中趋势的特征②便与同类研究对象进行对比分析.常用的平均数有算数平均数(总体均数μ、样本均数)、几何平均数G和中位数M;2)离散趋势描述:及变异性指标,描述一组同质观测值变异程度大小(、标准差s、变异系.常用的变异性指标有极差R、四分位数间距QR数CV、标准误SE.7.中医统计资料类型:1)计量资料:由数值变量产生的资料,即对每个观察单位用计量方法测得某项标志数值大小所获得的资料.特点是变量值大多有单位,其具体取值通常是正实数(零、正实数和小数); 2)计数资料:由分类变量产生的资料,即对每个观察单位按某种属性分组计数而得的资料.特点是变量值表现为互不相容的属性或类别,无度量衡单位.分为二分类资料(按互不相容的属性分类)和多分类资料(按不同类别分类(无序资料和有序资料))8.直线相关的注意事项:1)线性相关表示两个变量间的关系是双向的,当散点图出现直线趋势时再做分析2)相关系数的计算只适用于两个变量都服从正态分布的资料3)样本相关系数r是总体相关系数的一个估计值,r与间存在抽样误差,必须作假设检验4)相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系9.应用相对数的注意事项:1)计算时分母不宜太小,若观察单位数较小,宜直接用绝对数表示;2)观察单位数不等的几个率不能直接相加求其合计率;3)资料对比时应注意可比性;4)资料分析时不能已构成比代替10.直线回归注意的问题:1)作回归分析要有实际意义,不能把毫无关联的两种现象做回归分析.2)在进行直线回归分析前应先绘制散点图,观察点的分布有直线趋势时才适宜作直线回归分析,若呈曲线趋势宜直线化后再分析3)适用范围一般以自变量的取值范围为限,在此范围内求出的估计值称为内插,超过此范围的值称为外延,应避免外延.11.应用检验假设注意事项:1)事先进行严密的统计学设计:除对比的主要因素外,其他可能影响结果的因素在对比的组间应相同或相近2)单侧检验和双侧检验的选择:双侧检验的检验思路比单侧宽且无限制条件,较为常用,适用于对预试验结果分析,双侧的接受域位于某一特定分布的中部,拒绝域分布在两侧,而单侧检验的接受域和拒绝域各占某一特定分布的一侧,同一检验水准下单侧比双侧界值小、拒绝域大、更易得出拒绝3)灵活确定水准:根据实际工作中对不同分析目的和要求,选用的往往有一定的灵活性4)选择正确地统计方法:应根据分析目的、不同的资料类型及分布、设计方案的种类、样本量的大小等选用适当的检验方法5)正确理解统计推断的意义:统计推断结论是依据现有的设计、研究方法与条件、资料及分析目的和要求所取的水准,采用的统计分析方法等做出具有相应概率的解释,不宜将结论的意义扩大或缩小6)假设检验的结论不能绝对化:统计学结论是具有概率性质的推论,不能使用”肯定”、”证明”、”一定”、”说明”等词,此外有统计学意义时不一定有专业意义.(假设检验是否具有统计学意义取决于被研究事物有无本质差异、抽样误差的大小、所选用的高低及死单侧还是双侧)7)结合专业知识作出推论:假设检验可帮助研究者作出合理的推断,不能代替研究者做出专业结论8)CI与假设检验的区别与联系:CI推断参考值的范围(量的大小),假设检验判断各参数间有无质的不同12.统计表的结构:1)表号:位于顶线上方、标题的左侧,与标题之间的空2个字符,以阿拉伯数字表示2)标题:位于顶线上方、标号之后,简明扼要地说明表的内容;3)标目:横标目是统计表的主语,表示被说明事物的主要标志, 纵标目是统计表的谓语,说明主语的各项指标.对标目的要求是文字简明、层次清楚,一张表内不要安排过多标目;4)线条:一般只出现顶线、标目线和底线3条等长线;5)数字:一律采用阿拉伯数字,同一指标的小数位数应一致,位次对齐;6)备注:一般不列入表中,必要时可用’*’表示率和构成比的区别区别率构成比概念表示某现象发生的频率或强度表示事物内部各组成部分所占比重或分布特点某一分率的改变对其他无影响任一部分比重的增减都会影响其他部分意义反映事物的普遍性及严重程度事物按一个特征分类时,反映事物内部组成的结构特征事物按两个特征分类时,反映两个特征之间的关联关系合计各个率不能直接相加一定为100%标准差和均数标准误的区别标准差均数标准误意义描述个体观测值间的变异程度大小描述同一总体中随机抽出n相同的多个样本均属建德离散性公式与n的关系随着n的增大逐渐趋于稳定随着n的增大逐渐减小,与n的平方根成反比用途表示观测值变异大小结合均数描述正态分布的特征在正态分布时做参考值范围的估计计算变异系数和均数的标准误表示样本抽样误差的大小描述样本均数的可靠性结合均数估计总体均数的CI 进行均数间差别的假设检验区别总体均数的可信区间参考值范围的区别涵义根据抽样分布原理,按预先规定的概率(1-)给出被估计总体均数肯德数值范围.表示某总体均数的可能范围表示某项解剖、生理、生化等指标绝大多数个体观测值可能出现的范围计算已知:(未知:() 正态分布:(双侧)非正态分布:(双侧)与n的关系n越大,CI越小;n无穷大,CI趋近0 n越大,参考值范围越稳定用途估计总体均数估计某项指标绝大多数观测单位的波动范围直线相关直线回归联系(1) 反映应变量y与自变量x的互依关系,双向变化的关系体现应变量y随自变量x变化的依存关系,单向的关系(2)对两个变量间的关系进行描述,看是否有关系、关系是否密切及关系的性质对两个变量做定量描述,研究两个变量的数量关系(3) 只适用x,y服从双变量正态分布资料既适用于x,y服从双变量正态分布资料,也适用于y服从双变量正态分布,x是可以精确测量和严格控制的变量(4) r无单位,r的绝对值越大,两变量的关系越密切,相关程度越高b有单位,b的绝对值越大,回归直线越陡,y的平均变化越大(5) 两事物或现象间存在相关关系,不一定是因果关系两事物或现象间存在因果关系,则必然相关区别(1) 同时计算r和b,r与b同正负,r为正说明两变量间的相互关系是同向变化的;b为正说明x增(减)一个单位,y平均增(减)b个单位(2) r和b的假设检验等价,即对同一样本两者的t值相等,故简单的r的假设检验可代替对b的假设检验(3) 相关回归可以互相解释,称为确定系数,其可以从回归的角度了解相关程度设计方案水平特点完全随机设计单因素,两水平、多水平,不考虑混杂因素简单方便,应用广泛,容易进行统计分析,只能分析一个因素的作用,效率相对较低配对设计单因素,两水平,考虑混杂因素能缩小受试对象间的个体差异,从而减少实验误差,提高实验效率随机区组设计单因素,多水平,不考虑混杂因素各随机区组的受试对象数目相等,生物学特点较均衡,缩小了组间差别,实验效率较高SPSS电脑实验1.单样本t检验:1)用Explore正态性检验:选择Alnalyze→Descriptive statistics→Explore(Dependent:测量值, plots按钮:Normality plots with test)2)用One-Sample T Test单样本检测:选择Alnalyze→Compare Means→One-SampleT Test(右侧上面的Test框:测量值, 修改下面的Test框默认值(总体均数))2.配对t检验1)计算差值d: 选择Transform→Compute Variable(Target Variable:d,Numeric expession:方法一,单击运算键“-”,Numeric expession:法二)2)对差值d用Explore正态性检验: (Dependent:d,同上)3)配对t检验: 选择Alnalyze→Compare Means→Paired-Sample T Test (Paired Variable:方法一、方法二)3.方差齐性检验1)用Explore正态性检验,Spread vs.level with levene test→Untransformed 4.独立样本t检验1)选择Alnalyze→Compare Means→Independent-Samples T Test (Test框:测量值d,grouping:组别,Define groups:1、2等)1.完全随机设计F检验:1)选择Alnalyze→General Linear Model→Univariate(Dependent:测量值,Fixed Factor(s) :组别,Option视窗中Estimated Marginal Means→Display Means for:组别,Display: Descriptive statistics和Homogeneity tests→Continue→OK)2.随机区组设计F检验:1)选择Alnalyze→General Linear Model→Univariate(Dependent:测量值,Fixed Factor(s) :方法、药物;Model视窗中选择Custom→Model:方法、药物,Sum of Squares:Type III, →Include intercept inmodel→Continue;Post Hoc视窗中,Post Hoc Test for:方法,S-N-K →Continue ;Option视窗中Display Means for:组别,Display: Descriptivestatistics→Continue→OK)1.成组设计四格表检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2)检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”组别→Row(s)”以及”结果→Column(s)”对话框→statistics→Chi-square→Continue→OK2.配对设计四格表检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2)检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”新法→Row(s)”以及”旧法→Column(s)”→statistics→McNemar→Continue→OK3.R×C表检验:1)加权频数:Data→Weihgt cases→Weihgt case by(将频数变量选入框中返回)2)检验: 选择Alnalyze→Descriptive statistics→Crosstabs→”组别→Row(s)”以及”结果→Column(s)”→statistics→Chi-square→Continue→OK1.直线相关分析:1)选择Alnalyze→Correlate→Bivariate→在Bivariate Correlations的视窗中,将进食量、增重量两变量同时选中,从左边源变量框中移置到由框中→OK2.直线回归分析:1)选择Alnalyze→Regession→Linear→在Linear Regession的视窗中,将左边“收缩压“变量送入右边Dependent框中,左边”年龄”变量送入右边单样本t检验配对设计资料的t检验独立样本t检验完全随机F 检验计算均差平方和计算自由度计算均方计算F值随机区组F 检计算均差平方和计算自由度计算均方计算F值相关系数,,相关系数假设检验:成组设计四格表T≥5n≥40 nnnT CRRC=,()∑-=TTA22χ或()()()()()dbcadcbanbcad++++-=22χ1≤T<5n≥40nnnT CRRC=,()∑--=TTA225.0χ或()()()()()dbcadcbannbcad++++--=222χ配对设计四格表b+c≥40b+c<4行×列表T>1或1<T<5少于1/51.率的标准化法: 采用统一标准计算各率的标准化率,使率具有可比性,目的是在比较总率时消除混杂因素的影响.2.相对数:两个有联系的绝对数、相对数或平均数之比.(常用的相对数有率、构成比和相对比3.非参数检验:在统计推断中,不依赖于总体的分布形式, 直接对总体分布位置是否相同进行检验的方法,称非参数检验.4.等级资料: 将观察单位按某种属性的不同程度分组,所得各组的观察单位数,称为等级资料5.参数统计:在统计推断中 ,假定样本所来自的总体分布为已知的函数形式,但其中有的参数为未知, 统计推断的目的就是对这些未知参数进行估计或检验.6.参数估计:用样本统计量来估计总体参数,包括点值估计和区间估计.7.可信区间:在参数估计时,按一定可信度估计所得的总体参数所在的范围.8.假设检验:根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断此假设应当拒绝或不拒绝, 以使研究者了解在假设条件下,差异由抽样误差引起的可能性大小,便于比较分析.9.中位数:将一组观察值按从小到大的顺序排列后, 位次居中的观察值.10.影响的因素是:1)与样本量成正比:n越大,标准误越小,减小,发现组间差异的能力越强2)与参数的差值成正比:参数间的差值越大,样本指标间的差值就越大,越易获得拒绝的结论3)与个体差异成反比:标准差越小,标准误就越小,统计量就越大,越高4)与设计类型有关:配对设计和配伍设计比完全设计的高5)与检验方法有关:①参数检验所含的信息量比非参数检验多,高;②与检验方法要求的条件的多少成正比: 参数检验比非参数检验的高;③检验水准的大小成正比:与呈反比11.假设检验的目的和意义是什么?答: 在实际研究中,一般都是抽样研究,则所得的样本统计量(均数、率)往往不相等,这种差异有两种原因造成: 其一是抽样误差所致,其二是由于样本来自不同总体。
《医学统计学》复习重点总结-PPT文档资料
X
、 S、 CV ,
表达: x s
几何均数(G)
2) 描述计量数据变量值(x)分布范围
正态分布法
X 1 .96 S (正态或近似正态分布资料)
百分位数法 P2.5%-P97.5%
(偏态分布资料)
作用:①估计变量值分布范围 ②评价个体的指标正常与否
2、计数资料统计描述指标
相对数指标及含义: 率指标:说明事物发生的频率和强度。 构成比:说明各类别所占的构成比。说明事物 的组成和分布情况。 相对比:两事件的相对关系(增长速度)。 掌握: ①相对数指标意义及计算 ②应用时的注意问题
54
男
B
16.80
37.6
无效
实验与观察研究要求掌握概念
1.实验与观察研究二者的主要区别。 2.实验设计的三原则及意义和作用。 3.实验设计的三要素是什么? 4.观察研究中有那几种概率抽样方法? 5.观察研究有几种研究类型?主要回答那些 问题? 6.何为随机化分组与随机化抽样?
第四、六章 数据特征与统计描述
定性数据的频数表
两组疗效的比较 比较组 (x) 实验组 对照组 痊愈 20 2 疗效(y) 显效 25 5 有效 10 15 无效 2 30 合计 57 52
1.计量资料统计描述指标
1) 描述计量数据(X)几个特征值:
平均水平、变异程度指标 正态或近似正态分 布资料
描述指标:
偏态分布资料
中位数(M) 、四 分位间距(QR) 表达 :M (QR) 等比关系资料
相对数指标
不同职业各年龄(岁)组冠心病发 病率比较
年 龄 (岁 ) 50 病人数 % 9 25.7 4 23.5
职业
40病人数 % 干部 21 60 工人 12 70
中医科研与统计学的考试重点
科研设计:围绕科研任务完成的需要,根据专业知识与数理统计方法的要求,事先制定的周密计划和实施方案,称为科研设计。
第一节中医药学现代化与科研循证医学:循证医学是以证据为基础的医学,又称“求证医学”,通过系统收集各领域开展的临床研究结果,进行全面定量的综合分析评价(如随机对照试验和荟萃分析),为医疗实践提供可靠地科学依据,多中心、大样本、随机对照的灵床实验是其主要手段。
第二节中医科研的主要任务与基本程序一、中医科研的任务1、发现中医学未知事物与未知过程2、揭示中医学中已知事物和位置规律3、探索中医学中已知规律的应用4、验证与发展中医学中已有的理论和学说二、科研的基本程序1、选题2、科研设计是研究计划的核心。
3、实践(1)观察法(2)实验法:与观察法相比,实验法具有主动、精确、高效的特点。
(3)调查法4、统计处理5、总结概括第二章中医科研选题与申报第一节中医科研选题概述一、中医药科研的选题原则1、需要原则2、创新原则(1)创新原则即选题的先进性和新颖性(2)创造性的科学研究分为两种:一是创建前人没有过的新学说和新发明。
二是在前人研究基础上继续深入探索。
3、可行原则(1)人力是开展科研的核心条件(2)物力是开展科研的必备条件(3)财力是开展科研工作的保证(4)信息是开展科研的重要资源4、科学原则5、效能原则6、特色原则、二、按照设计与事实的关系分类:前瞻性研究,回顾性研究第三节中医科研选题的基本方法选题方法:假想构成法,移植结合法,旧题新探法。
第三章假说与中医科研假说是根据一定的科学事实和科学理论,对未知的自然现象及其规律提出的一种推断和解释。
第一节假说的作用一、自然科学的发展形势就是假说二、假说的作用1、为科研创新提供雏形2、为科研和实验提供方向3、为科学发展提供焦点第二节假说的特征一,来源的科学性1假说提出的客观性原则:科学家说的提出应该以事实为依据不能主观的臆想2假说提出的解释性原则科学家说的提出不仅应该有事实依据而且能够说明与解释已有的事实不应与之之相冲突这就是假说提出的解释性原则假说的解释性要求既能够解释了旧理论又不能说明的事物与现象3假说的相容性原则假说的提出应有事实依据外还必须具备理论基础也就是一个好的工作假说不应与已有的基本理论相矛盾这就是假说的相容性原则二假说的假定性三假说的可检性四发展的螺旋性第三节假说形成的方法假说形成的方法包括比较分类法分析综合法归纳演绎法第四节中医药科研的基本要素三要素被试因素受试对象实验效应第一节被试因素被试因素的数目与水平的选定1单因素但水平2单因素多水平3多因素单水平4多因素多水平第二节受试对象一,选定受试对象的条件对被试因素稳定反映稳定二,受试对象的纯化一般标准是:1诊断必须按全国统一标准确诊不含糊其辞2症状体征辅助检查结果具有典型性和代表性3病史明确符合流行病学规律第三节实验效应一。
医学统计学期末考试重点
一、总体:是根据研究目的确定的同质观测单位的集合。
样本:是从统计总体中随机抽取的、具有代表性的部分观测单位的集合。
同质:即构成总体的各个观测单位在某一方面或几方面的性质相同或基本相同。
变异:是指在同质基础上各观测单位之间的差异。
离散型变量:指只能取可数的或有限个数的变量。
特点只是取顺序整数值连续性变量:指可以取各整数区间的一切实数值的变量。
特点是在两个连续的整数值之间还可以用小数或分数连接起来的非整数值。
二、统计的含义1.统计工作:指搜集、整理、分析和研究统计数据的工作,是统计数据与统计理论的基础和源泉。
2.统计数据:指统计工作研究的主体及成果。
3.统计学:是对研究对象的数据进行搜集、整理、分析和研究,以揭示其总体特征和规律性的方法论科学。
三、统计学的主要内容1.研究设计:是按照研究目的和统计学要求制定具有针对性、具体性、专业性的工作方案。
2.统计描述:用统计指标、统计图、统计表等方法描述样本资料的数据特征及其分布规律,是整个统计学的基础。
3.统计推断:用样本信息推论总体特征的归纳过程,它有两个重要领域。
四、误差及其分类误差指实际观测值与真值之差或样本指标与总体指标之差。
误差分为非随机误差和随机误差,非随机误差:粗差-粗心大意,无规律性,可以避免;系统误差-仪器、方法、等条件的差异,感官、理论和实验方法的差异。
随机误差:测量误差-由一系列实验或观测条件的随机波动造成的实测值与真值之差;抽样误差-随机抽样引起的统计量与参数之间的差异。
五、统计工作的基本步骤研究设计、搜集资料、整理资料、分析资料中医统计资料的搜集与整理一、中医统计资料的类型1.计量资料:是由数值变量产生的资料,即对每个观察单位用计量方法测得某项标志数值大小所得资料,变量值大多有度量衡单位;2.计数资料:是由分类变量产生的资料,即对每个观察单位按某种属性分组计数得到的资料,变量值变现为互不相容的属性或类别,无度量衡单位。
统计描述一、频数分布:是指观测值按大小分组,各个组段内观测值个数的分布,它是了解数据分布形态特征与规律的基础。
中医药统计学和软件应用笔记重点
中医药统计学与软件应用笔记重点绪论统计学家C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。
一、统计学的概念、发展简史及主要内容1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。
2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。
3.统计学的发展趋势:①依赖数学。
②与计算机技术结合。
③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。
④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。
4.统计学的主要内容⑴研究设计:专业设计、统计学设计⑵统计学的基本概念、原理和思维方法⑶统计描述:统计指标、统计图表⑷统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:①常规保存的记录;②现场调查记录;③实验/试验记录;④医学文献/网络信息。
(3)整理资料:①检查;②审核;③计算机检查;④分组。
(4)分析资料2.统计学认识现象的特点(1)数量性:(2)群体性:(3)具体性:(4)概率性:三、统计学中常用的概念1.总体(population):是根据研究目的确定的同质观察单位的集合。
例①河北省18岁男性的身高和体重分布②某性红地2005年健康成年男细胞数③河北省18岁身高在170-175cm男性的体重分布⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。
⑵无限总体:指没有空间和时间范围限制的总体。
2.样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。
样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。
样本的代表性:即样本能够充分反映总体的真实情况。
中医药统计学复习重点
身高组段 124 — 128 — 132 — 136 — 140 — 144 — 148 — 152 — 156 — 160 —164 频数(f )12920 35 24 13 321(1) 求出这110名男童身高的均数、标准差。
(2) 写出该市男童身高 95%的参考值范围。
(1) 110名男童身高的均数、标准差为:fx—=140.9cmf 2 2fx ( fx) / f------------------------- =5.99cm鼠标点击Edit T Variables 宀Other 宀将变量A 移到Y 框下,选a+b*Y 后在a:出键入2,点击0K 形成组中值变量A-A 。
鼠标点击 Analyze 宀Distribution(Y), 将变量 A-A 移到Y 框下,将B 移到Freq 框下宀点击 Out put,选Tests for身高组段 124 — 128 — 132 — 136 — 140 — 144 — 148 — 152 — 156 — 160 —164f(x x)2(2)该市男童身高95%的参考值范围:百分位数法: (P 2..5,F 97.5)=(128,156)cm正态分布法:(x 1.96s ,x 1.96s )=(140.9- 1.96 X 5.99,140.9+1.96 X 5.99)=(129.2,152.6 )cm某市12岁男童110人的身高(cm)如下:身高组段 124 — 128 — 132 — 136 — 140 — 144 — 148 — 152 — 156 — 160 —164 频数(f ) 12 9 20 35 24 13 3 211、对该资料作正态性检验;1、 2、 求这110名男童身高的均数、标准差、变异系数; 3、 写出该市男童身高 95%的参考值范围; 用SAS/INSIGHT 建立如下形式的数据集:124 128 2156 2 160 12、 SAS 处理主要步骤:3、 Normality 宀 OK.SAS 输出结果:正态性检验:p=0.0007,均数 Mean : 140.8727cm ,标准差该市男童身高95%的参考值范围(Std. Deviation : 5.99405cmp2.5,p97.5 )=( 128.5455,154.8000 )cm某市12岁男童110人的身高(cm)如下:频数(f ) 1 2 9 20 35 24 13 3 2 1精选文库1、求出这110名男童身高的均数、标准差、变异系数; 写出该市男童身高 95%的参考值范围。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
某市12岁男童110人的身高(cm)如下:身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164频数(f) 1 2 9 20 35 24 13 3 2 1(2)写出该市男童身高95%的参考值范围。
(1)110名男童身高的均数、标准差为:∑∑=f fx x =140、9cm 1/)(1)(222--=--=∑∑∑∑∑∑f ffx fx f x x f s =5、99cm(2)该市男童身高95%的参考值范围:百分位数法:(5..2P ,5.97P )=(128,156)cm正态分布法:(s x 96.1-,s x 96.1+)=(140、9-1、96×5、99,140、9+1、96×5、99)=(129、2,152、6)cm某市12岁男童110人的身高(cm)如下:身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164频数(f) 1 2 9 20 35 24 13 3 2 11、对该资料作正态性检验;2、求这110名男童身高的均数、标准差、变异系数;3、写出该市男童身高95%的参考值范围;1、 用SAS/INSIGHT 建立如下形式的数据集:A B1241128 2…………156 2160 12、 SAS 处理主要步骤:鼠标点击Edit →Variables →Other →将变量A 移到Y 框下,选a+b*Y 后在a:出键入2,点击OK,形成组中值变量A-A 。
鼠标点击Analyze →Distribution(Y),将变量A-A 移到Y 框下,将B 移到Freq 框下→点击Output,选Tests for Normality →OK 、3、 SAS 输出结果:正态性检验:p=0、0007,均数Mean:140、8727cm,标准差Std 、 Deviation:5、99405cm该市男童身高95%的参考值范围(p2、5,p97、5)=(128、5455,154、8000)cm某市12岁男童110人的身高(cm)如下:身高组段 124— 128— 132— 136— 140— 144— 148— 152— 156— 160—164频数(f) 1 2 9 20 35 24 13 3 2 12、写出该市男童身高95%的参考值范围。
)99.596.187.144,99.596.187.144()96.1,96.1(⨯+⨯-=+-s x s xcm )61.156,13.133(=或用百分位数法(5.2p ,5.97p )=(131、50,156、50)cm三、按随机设计,对功能性子宫出血的实热型患者12例与虚寒型患者10例的血液皮质醇含量进行测定,数据如下: 实热组1x :25、5 24、5 26、5 26、0 25、0 23、5 24、5 24、0 23、0 25、527、0 26、5虚寒组2x :12、5 10、5 14、5 15、0 13、5 13、0 12、5 11、5 12、0 13、5试比较两种类型患者的血液皮质醇含量有无差别?(假定资料满足正态性)(1) 基本计算如下:=1n 12 =1x 25、125 =1s 1、2636=2n 10 =2x 12、85 =2s 1、355(2) 方差齐性检验假设210:σσ=H 211:σσ≠H 05.0=α15.12636.1355.1222122===s s F查F 界值表得)11,9(05.0F =3、59因为 F>)11,9(05.0F 所以05.0>p按05.0=α水准,不拒绝0H ,两总体方差相等。
(3) t 检验假设210:μμ=H 211:μμ≠H 05.0=α)11(2)1()1(212122221121n n n n s n s n x x t +-+-+--==21、96=-+=221n n ν12+10-2=20查t 界值表得)20(05.0t =2、086因为 t>)20(01.0t 所以05.0<p 按05.0=α水准,拒绝0H ,接受1H ,可认为功能性子宫出血实热型患者的血液皮质醇含量比虚寒型患者的高。
2、按随机设计,对功能性子宫出血的实热型患者12例与虚寒型患者10例的血液皮质醇含量进行测定,数据如下: 实热组1x :25、5 24、5 26、5 26、0 25、0 23、5 24、5 24、0 23、0 25、5 27、0 26、5 虚寒组2x :12、5 10、5 14、5 15、0 13、5 13、0 12、5 11、5 12、0 13、5试比较两种类型患者的血液皮质醇含量有无差别?(假定资料满足正态性与方差齐性。
)(4) 基本计算如下:=1n 12 =1x 25、125 =1s 1、2636 =2n 10 =2x 12、85 =2s 1、355(5) t 检验假设210:μμ=H 211:μμ≠H 05.0=α )11(2)1()1(212122221121n n n n s n s n x x t +-+-+--==21、96=-+=221n n ν12+10-2=20查t 界值表得)20(05.0t =2、086因为 t>)20(01.0t 所以05.0<p 按05.0=α水准,拒绝0H ,接受1H ,可认为功能性子宫出血实热型患者的血液皮质醇含量比虚寒型患者的高。
四、某中医院将45例血栓闭塞性脉管炎III 期2-3级患者随机分成甲乙两组,甲组使用活血温经汤,乙组使用通塞脉I 号治疗,结果如下表,问两药的疗效有无差别?两药疗效比较组别 有效人数 无效人数 合计活血温经汤组 17 18 35通塞脉I 号组 9 1 10合 计 26 19 45因45=N ,422=T 、22,所以用校正的2x 检验;或Fisher 的确切概率法。
假设210:ππ=H 211:ππ≠H 05.0=α ()91.319261035452/45918117))()()(()2(222=⨯⨯⨯⨯-⨯-⨯=++++--=d b c a d c b a n n bc ad x >3、84 所以05.0<p或Fisher 确切概率法0288.0=p 按05.0=α水准,拒绝0H ,接受1H ,可认为通塞脉I 号治疗血栓闭塞性脉管炎疗效好于活血温经汤。
某中医院将45例血栓闭塞性脉管炎III 期2-3级患者随机分成甲乙两组,甲组使用活血温经汤,乙组使用通塞脉I 号治疗,结果如下表,作两药的疗效有无差别比较,可采用哪几种统计方法来分析,试用其中的一种方法进行分析?两药疗效比较组 别 有效人数 无效人数 合计活血温经汤组 21 14 35通塞脉I 号组 9 1 10合 计 30 15 45可采用校正的2x 检验与Fisher 确切概率法进行分析。
因45=N ,33.32.2=T ,所以用校正的2x 检验。
9446.12=x 1632.0=p或Fisher 确切概率法 1288.0=p根据现有资料还不能认为两药的疗效有差别。
五 20只大白鼠配成10对,要求配对时,毛色、窝别、体重、雌雄及健康状况等条件尽量相同。
然后,随机将两只条件相同的大白鼠分配到实验组与对照组中去。
一组就是正常饲料组,一组就是维生素E 缺乏组。
测定两组大白鼠肝中的维生素A 含量,结果见下表,试比较两组大白鼠肝中维生素含量A 有无差别?不同饲料鼠肝中维生素A 含量(IU/g)大白鼠对别 正常饲料组 维生素E 缺乏组1 3050 17502 3550 24503 3450 25504 2100 24005 3100 18506 3800 32507 3950 32508 3850 32009 3750 2750 10 3700 2700假设:0H :0=d μ 1H :0≠d μ05.0=αn s dt d /=56.510/2.4630.815==9101=-=-=n ν查t 值表得262.2)9(05.0=t 今)9(05.0t t>,故05.0<p 按05.0=α水准拒绝0H ,接受1H ;两组大白鼠肝中维生素含量有差别,维生素E 缺乏组大白鼠肝中维生素A 含量低于正常饲料组的。
六为研究血清唾液酸含量对慢性胃疾病的诊断价值,测定了随机抽样得到的正常人、慢性胃炎、胃溃疡与胃癌患者的血清唾液酸含量(mg/dl),结果如下:正常人组: 43、10 41、46 42、35 41、42 42、01 43、12 42、05 40、20慢性胃炎组:45、68 47、20 47、50 44、39 47、80 48、11 46、45 47、01胃溃疡组: 44、04 45、12 44、77 46、28 48、56 44、87 48、58 47、32胃癌患者组:68、21 67、40 66、12 65、38 66、44 62、21 66、15 60、36进行四组患者血清唾液酸含量有无差别的方差分析,(1)填写下列方差分析表空缺项方差分析表──────────────────────────────────变异来源 SS V MS F P──────────────────────────────────总 2642、3524 31组间 2554、5074组内 28──────────────────────────────────(2)作四组患者血清唾液酸含量两两组间有无差别,可采用什么统计方法进行分析?(3)上述资料若不满足参数检验的条件,应采用什么统计方法进行分析?(1) 方差分析表──────────────────────────────────变异来源 SS V MS F P──────────────────────────────────总 2642、3524 31组间 2554、5074 3 851、5025 271、4107 0、0000组内 87、8450 28 3、1373──────────────────────────────────(2)作四组患者血清唾液酸含量两两组间有无差别,可采用q 检验,也称SNK 检验。
(3)上述资料若不满足参数检验的条件,应采用秩与检验与相应的q 检验。
七用甲乙两种方法检测鼻咽癌患者93例,结果见下表,试问两种检测结果就是否有一致性?就是否有差别?两种检测结果乙法甲法 + - 合计+ 45 22 67- 6 20 26合 计 51 42 93(1) 一致性检验假设0H :两种检测方法检测结果无一致性1H :两种检测方法检测结果有一致性05.0=α因为93=N ,每个理论数都大于5,所以用不校正的2x 检验。