医学统计学笔记
课堂笔记——医学统计学
第一章医学统计中的基本概念一、医学统计工作的内容:实验设计(experiment design)、收集资料(collecting data)、整理资料(sorting data)和分析资料(analyzing data)二、变异:医学研究的对象是有机的生命体,其功能十分复杂,不同的个体在相同的条件下,对外界环境因素可以发生不同的反应,这种现象称为个体差异或称为变异三、总体(population)和样本(sample):总体是同质的个体所构成的全体。
从总体中抽取部分个体的过程称为抽样,所抽的部分称为样本,在一个样本里含有的个体数可以不同,样本包含的个体数目称为样本容量。
四、样本的特性:代表性(representation)——要求样本能够充分反应总体的特征;随机性(randomization)——需要保证总体中的每个个体都有相同的几率被抽做样本;可靠性(reliability)——实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度;可比性(comparability)——指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。
五、误差:①系统误差(system error)②③六、概率(probability):是描述某一件事发生的可能性大小的一个量度。
习惯将P≤0.05或P≤0.01的事件称为小概率事件第二章集中趋势的统计描述一、频数表(frequency table):①概念:一种格式的统计表,即同时列出观察指标的可能取值区间及其在各区间内出现的频数。
由于这种资料的表达方式较完整地体现了观察值的分布规律,所以也称为频数分布表。
②制作图标的步骤:确定组数、确定组距、确定组段、对各组段计数及手工编制划记表。
二、直方图(histogram):①概念:直方图是以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。
医学统计学重点知识点
<<医学统计学>>1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。
2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
3. 同质:影响研究指标的主要因素易控制的因素基本上相同。
4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。
样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为--5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。
6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。
原因:失访/退出/终止(研究时限已到而终止观察)。
7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。
X2反应实现了实际频数与理论频数的吻合程度。
如果检验假设成立,则A-T一般不大,X2应很小,即出现大X2值概率很小。
即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。
若P>a则没有理由拒绝H0。
8. X2用途:(1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x列表)。
B两变量之间有无相互关系。
C频数分布的拟合优度检验(判断次样本是否来自某种分布)。
(2)某些分布可用X2近似。
(3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。
9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。
10. 假设检验中P,a,b(倍他)的关系及统计学意义:a:检验水准,即显着性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。
医学统计学学习笔记
医学统计学笔记一、绪论及基本概念1. 资料类型①计量资料(定量资料、数值变量资料):连续型、离散型②计数资料(定性资料、无序分类变量、名义变量):二分类、多分类③等级资料(半定量资料、有序分类变量)信息量:计量资料>等级资料>计数资料2.误差类型①过失误差:可避免②系统误差:具有明确的方向性,可避免③随机误差:分为随机测量误差和随机抽样误差,没有固定的大小和方向,不可避免3.核心概念参数:u、σ;固定的常数,总体的统计指标,参数大小客观存在,但往往未知。
统计量:X̅,S,P;样本的统计指标,参数附近波动的随机变量。
概率为参数,频率为统计量。
4.医学统计工作的基本步骤:设计、收集资料、整理资料、分析资料二、计量资料的统计描述1.集中趋势的描述a.算术均数,简称均数(mean):主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。
不能用于开口型资料。
u(总体均数),X(样本均数)。
b.几何均数(geometric mean,G):适用于经对数转换后呈对称分布。
观察值不能为0 、不能同时有正有负。
同一资料算得的几何均数小于算术均数。
c.中位数(median, M)和百分位数(precentile, Px):适用于各种分布类型资料。
当计量资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。
用频数表法计算百分位数时,组距不一定要相等。
P x=L x+i x(n∗x%−∑f L)f xL x:第x百分位数所在组段的下限i x:第x百分位数所在组段的组距f x:第x百分位数所在组段的频数∑f L:第x百分位数所在组段上一组段累计频数d.调和均数(harmonic mean,H):适用于表达呈极严重的正偏态分布资料的平均水平。
计算方法为求倒数的均值后再取其倒数。
SPSS:在Transform中输入公式。
2.离散(dispersion)趋势的描述a.极差(range,R):也称为全距。
b.四分位数间距(quartile range,Q):即统计图中箱子的高度,常用于偏态资料离散度的描述,多与M 合用。
医学统计学重点重点知识总结
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
2024年度-医学统计学重点笔记一复习必备
即标准正态分布,当样本量足够大时(n>30),t分布近似u分布。
14
总体均数置信区间估计
置信区间的概念
按一定的置信水平(1-α),根据样 本统计量估计总体参数所在的范围。
置信区间的计算
根据样本均数、标准差和样本量计算 置信区间。常用的置信水平为95%和
99%。
置信区间的意义
表示总体参数有100(1-α)%的可能性 落在此区间内。
适用条件
01
R×C列联表资料,即多行多列列联表,用于分析两个多分类变
量之间的关联。
检验统计量
02
卡方值,计算公式为χ2=∑(O-E)2/E,其中O为观察频数,E为
理论频数。
拒绝域
03
根据自由度和显著性水平确定拒绝域,自由度为(R-1)(C-1)。
29
配对设计四格表资料卡方检验
01
适用条件
配对设计四格表资料,即两个相 关样本的二分类变量之间的关联 分析。
26
06
卡方检验
27
四格表资料卡方检验
适用条件
四格表资料,即2×2列联表,用于分析两个二分类变量之间的关联。
检验统计量
卡方值,计算公式为χ2=(ad-bc)2N/(a+b)(c+d)(a+c)(b+d),其 中N为样本总量。
拒绝域
根据自由度和显著性水平确定拒绝域,自由度为1。
28
R×C列联表资料卡方检验
正态分布在医学中的应用 许多医学指标如身高、体重、血压等服从或近似服从正态 分布;在估计医学参考值范围、质量控制等方面有广泛应 用。
正态性检验方法 图形法(直方图、P-P图、Q-Q图)、计算法(偏度系数 和峰度系数检验、Shapiro-Wilk检验、KolmogorovSmirnov检验等)。
医学统计学学习笔记
医学统计学学习笔记第一章绪论冉美岭康复0931班学号09260431201、医学统计学:是运用数理统计、概率论的原理和方法于医学科研和实践,研究医学资料和信息的收集、整理和分析的一门应用科学。
统计方法的两个特点:用数量反映质量,利用样本推断总体。
2、医学统计学的意义:为了预防疾病,研究病因,促进健康,必须运用医学统计学方法透过偶然现象来探其规律性,得出科学推断。
3、总体:是根据研究目的所确定的同质的研究对象的全体。
4、样本:是根据随机的原则从总体中抽出有代表性的一部分观察单位。
5、描述总体特征的有关指标称为参数:如总体平均数、总体标准差、总体率等。
6、反映样本特征的有关指标称为统计量:如样本均数、样本标准差、样本率等。
7、抽样误差是不可避免的,一般来说,样本越大则抽样误差越小,越和总体的情况相接近,用样本推断总体的精确度越高,反之亦然。
8、随机化:是抽样研究和抽样分配时十分重要的原则。
具有代表性、随机性、独立性、可比性。
9、概率:是描述某事件发生的可能性大小的一个量度。
10、医学统计资料的类型:①计量资料:是对每个观察单位用定量方法测定某项指标量的大小,一般有度量衡单位。
②计数资料:是将观察单位按某种属性或类别分组,所得各组的观察单位数,没有度量衡单位。
③等级资料:是将观察单位按某种属性的不同程度分组,所得各组的观察单位数。
11、医学统计工作的基本步骤:①统计设计②搜集资料③整理资料④分析资料第二章计量资料的统计描述1、计量资料的统计描述分为两个方面:集中趋势、离散趋势2、频数表:是一种统计表:即同时列出观察值的可能取值及其出现的频数。
3、频数表的编制步骤:①计算全距R=X max—X min②确定拟分组数(k)和组距(i),根据全距的大小和组段数来计算组距i= R K③划分组段:划分组段的基本要求是第一个组段应包括最小值,最后一个组段应包括最大值。
各组段只包含下限值但不包含上限值,故在列组段时只列出下限值,不列出上限值,但最后一个组段要依据具体情况进行封口,即要同时列出下限值和上限值。
医学统计学知识点笔记
2012 级临床五年五班 LCM勤医学统计学笔记——xxx 级临床x 年x 班整理一.绪论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计 调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A :资料的搜集与整理B :常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图C : 统计推断,如参数估计和假设检验。
3)医学多元统计方法 多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic 回归与Cox 回归分析。
3,统计工作步骤:1)设计 明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A , 搜集材料的原则 及时、准确、完整B , 统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C , 资料贮存3)整理资料 a 检查核对b 设计分组c 拟定整理表d 归表4)分析资料 统计分析包括统计描述和统计推断4,同质(homogeneity ):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型离散型产前检查次数计量资料数值变量连续型定量测量值,有计量单位身高二分类对立的两类属性性别(男女)无序多分类不相容的多类属性血型(A,B,O,AB )计数资料分类变量有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population )根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
医学统计学重点终极笔记
Medical Statistics【Introduction】医学统计工作的内容⒈实验设计:最关键、最重要⒉收集资料:最基础[原始资料] 实验数据,现场调查资料,医疗卫生工作记录、报告、报表质量控制:精度和偏倚⒊整理资料:资料的逻辑、一致性检查,原始数据的加工(频数分布表)⒋分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断资料的类型⑴计量资料:定量方法测定数值大小所得的资料⑵计数资料:按性质或类别分组,然后计数⑶等级分组资料:具有计数资料的特性,又有半定量的性质(“+ , -”表示)变异:不同个体在相同环境下,对外界环境因素发生的不同反应,即个体差异总体:同质的个体所构成的全体。
[同质性,大量性,差异性]样本:从总体中抽取部分个体的过程称为抽样,所抽得的部分是样本。
样本包含的个体数目称为样本含量样本的特征:⑴代表性⑵随机性⑶可靠性*抽样的要求:代表性,随机性,可靠性,可比性完全随机设计:将受试对象随机分配到各处理组或对照组中,或分别从不同总体中随机抽样进行研究。
可为两样本或多样本得比较,但样本含量不宜相差太大。
随机区组设计:也称配伍设计,是配对设计的扩展。
配对设计的每一“对子”中的受试对象分别随机分到两个处理组中,而配伍组设计中的每个“配伍组”,包含多个受试对象,要将它们分别随机分到各处理组中。
误差:泛指观测值与真实值之差,以及样本统计量与总体参数之差⑴系统误差:在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌握等因素,造成观察结果倾向性的偏大活偏小。
要尽量查明原因,必须克服。
⑵随机测量误差:在收集资料过程中,即使系统误差已经避免,由于各种偶然因素的影响造成对同一对象多次测定的结果不完全一致。
譬如操作员技术、电压、环境温度的差异。
没有固定的倾向,时高时低;应采取措施加以控制。
⑶抽样误差:由抽样不同引起的样本均数与总体均数之间的差异。
原因是个体之间存在变异,抽样时只能抽取总体的一部分作为样本。
医学统计学知识点汇总
医学统计学知识点汇总医学统计学是指应用统计学原理和方法进行医学研究设计、数据分析和结果解释的学科。
医学统计学的知识点非常丰富,包括统计学基础知识、研究设计、样本量计算、控制方法、参数估计、假设检验和数据分析等方面。
以下是医学统计学知识点的一些精华汇总。
1.统计学基本概念:包括基本统计量(均值、中位数、众数)、数据类型(定量数据、定性数据)、数据的描述方法(频数分布表、直方图等)。
2.研究设计:包括随机对照试验、队列研究、病例对照研究等,了解不同研究设计的优缺点及适用场景。
3.样本量计算:确定研究样本量是保证研究结果可靠性的重要一环,需要根据研究目的、效应量和统计显著性水平确定样本量。
4.控制方法:包括随机分组、盲法、配对设计等,用于减少实验误差和避免偏倚。
5.参数估计:常用的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的一个点估计值,区间估计是对总体参数的一个区间估计。
6.假设检验:假设检验是用来判断样本数据与总体假设之间的差异是否显著的统计方法。
常用的假设检验方法有t检验、卡方检验、方差分析等。
7.数据分析:包括描述性统计分析和推断性统计分析。
描述性统计分析用来描述研究变量的基本情况,推断性统计分析用来推断样本数据与总体数据之间的关系。
8.相关分析:用来分析变量之间的关联程度,包括皮尔逊相关系数和斯皮尔曼等级相关系数等。
9. 回归分析:用来分析因变量与自变量之间的关系,包括线性回归分析和 logistic回归分析等。
10.生存分析:用来分析时间到达事件发生的概率,包括生存曲线的绘制、生存率的估计和影响因素的分析等。
11. 多变量分析:用来分析多个自变量对因变量的影响,包括多元方差分析、多元回归分析和多元Logistic回归分析等。
12. Meta分析:用于综合多个独立研究结果,对总体效应进行定量分析和综合评价。
以上是医学统计学的一些精华知识点的汇总。
医学统计学的应用非常广泛,不仅在医学研究中需要应用统计学的原理和方法,也在临床实践中需要对医学统计学知识有一定的了解和应用。
医学统计学_总结_重点_笔记_复习资料
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
(完整版)医学统计学知识点汇总
医学统计学总结绪论1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量有序分类变量:有顺序和程度上的差异4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。
可以分为有限总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。
若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。
频数分布有对称分布和偏态分布之分。
后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
x均数:适用于正态或近似正态的分布的数值变量资料。
样本均数用表示,总体均数用μ表示。
几何均数:适用于等比级数资料和对数呈正态分布的资料。
注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
医学统计学_总结_重点_笔记_复习资料[精选]
医学统计学_总结_重点_笔记_复习资料[精选]第一篇:医学统计学_总结_重点_笔记_复习资料[精选]第一章2选1 总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义,P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2)拒绝原假设的最小显著性水平。
3)观察到的(实例的)显著性水平。
4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(10/L)、脉搏(次/分)、血压(KPa)等。
职称考试卫生统计学重点学习笔记.
卫生统计学第一章统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一.资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作P,其取值范围0≤P≤1,一般用小数表示。
P=0,事件不可能发生必然事件(随机事件的特例);P=1,事件必然发生;P→0,事件发生的可能性愈小;P→1,事件发生的可能性愈大六、小概率事件习惯上将P≤0.05或P≤0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
医学统计学复习笔记
统 计1. 统计工作步骤: 研究设计、收集资料、整理资料、分析资料 。
2. 定量资料: 以定量值表达每个观察单位的某项观察指标,如血脂、心率等,各观察值 间只有量的差别,有连续性。
3. 定性资料: 以定性方式表达每个观察单位的某项观察指标,如血型、性别等,各观察 值间有质的区别,无连续性。
4. 等级资料: 以等级方式表达每个观察单位的某项观察指标,如疗效等级,各观察值间 有质的区别,无数值大小5. 总体:是指按照研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
分 为有限和无限两种。
6. 样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
7. 同质性:同一总体或其样本的观察单位在取值方面必须有相同的性质,称为同质性。
8. 描述某总体特征的指标称为参数;描述样本特征的指标称为统计量。
9. 概率:是指随机事件发生的可能性的大小的一个度量,常用 P 表示,其小于等于 0.05 时称为小概率事件。
10. 变异: 是以具有统治性的观察单位为载体, 某项观察指标在其观察单位之间现实的 差别。
包括同质事物间的、不同观察单位间的、同一单位不同阶段的差别。
11. 整理数据最有效的形式是频数分布,根据频数分布可以初步判断指标分布的特征是 集中趋势还是离散趋势, 发现某些特大或特小的可疑值,揭示资料分布类型,便于资 料进一步分析。
12. 频数分布分为对称分布和非对称分布, 非对称分布又称为偏态分布, 包括正偏态(大 ——小)和负偏态(小——大) 。
13. 集中趋势指标: 1) 算术均数(Xbar ),最适合单峰对称资料; 2) 几何均数(G),如 抗体滴度、细菌计数,应用于等比数列、对数数列; 3)中位数(M )和百分位数,适 用于偏态分布、开口资料、分布不明资料。
14. 离散趋势指标: 1)全距(R ),又称极差,极差大说明变异度大; 2)四分位间距; 3) 方差和标准差(s ),标准差大离散程度大,及波动明显; 4) 变异系数 CV=标准差/均 数,可应用于单位不同的两组资料或均数相差悬殊的两组资料。
医学统计学知识点
实用标准文案精彩文档第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
率的标准化:为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除 其内部构成(年龄、性别、工龄、病程长短等)的影响。
标准构成:⑴选取有代表性、较稳定、数量较大的人群构成为标准 ⑵选择相互比较的各组例数合计为标准构成 ⑶从比较的各组中任选其一作为标准构成
【 2 检验】 2 检验:英国统计学家 Peason 提出的一种用途广泛的假设检验方法。该检验以 2 分布为理论依据,可以推断两个(或多个)总体率以及构成比之间有无差异。
四格表资料的 2 检验
理论频数 TRC (nR • nc ) n
四格表资料 2 检验专用公式 2
(ad bc)2 n
Medical Statistics
【Introduction】 医学统计工作的内容 ⒈实验设计:最关键、最重要 ⒉收集资料:最基础
[原始资料] 实验数据,现场调查资料,医疗卫生工作记录、报告、报表 质量控制:精度和偏倚 ⒊整理资料:资料的逻辑、一致性检查,原始数据的加工(频数分布表) ⒋分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断
(a b)(c d)(a c)(b d)
四格表 2 检验校正公式 2 ( ad bc n 2)2 n (a b)(c d)(a c)(b d)
通常规则:①n 40 且所有的 T 5 基本公式(或专用公式)
②n 40 但有 1 T<5 校正公式
③n<40,或 T<1
Fisher 确切概率法
误差:泛指观测值与真实值之差,以及样本统计量与总体参数之差 ⑴系统误差:在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌
握等因素,造成观察结果倾向性的偏大活偏小。要尽量查明原因,必须克服。 ⑵随机测量误差:在收集资料过程中,即使系统误差已经避免,由于各种偶然
因素的影响造成对同一对象多次测定的结果不完全一致。譬如操作员技术、 电压、环境温度的差异。 没有固定的倾向,时高时低;应采取措施加以控制。
【方差分析】 方差分析:将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基
础上,计算假设检验的统计量 F 值,实现对总体均数是否有差别的推断。 条件:来自于正态分布总体,且总体方差相等的 k 个样本均数的比较(k>=3)
完全随机设计:又称单因素方差分析,将实验对象随机分配到不同处理组的单因 素设计方法。只考虑一个处理因素
样本的特征:⑴代表性 ⑵随机性 ⑶可靠性
*抽样的要求:代表性,随机性,可靠性,可比性
完全随机设计:将受试对象随机分配到各处理组或对照组中,或分别从不同总体 中随机抽样进行研究。可为两样本或多样本得比较,但样本含量 不宜相差太大。
随机区组设计:也称配伍设计,是配对设计的扩展。配对设计的每一“对子”中 的受试对象分别随机分到两个处理组中,而配伍组设计中的每个 “配伍组”,包含多个受试对象,要将它们分别随机分到各处理 组中。
标准正态分布:均数μ=0,标准差σ=1 的正态分布。
转化公式: u X
☆适用条件总结:①样本标准差 正态,对数正态
②变异系数
单位不同或均数相差较大
③四分位数间距 偏态
医学参考范围:也称正常值范围,正常人的解剖、生理、生化、免疫及组织代谢 产物的含量等各数据的波动范围。 (习惯上是包含 95%参照总体的范围)
变量:观察单位的某些特征 变量值:观察、测定的结果
【集中趋势的统计描述】 频数表(计量资料):同时列出观察指标的可能取值区间及各区间的频数 集中趋势:变量值的集中位置 离散趋势:变量值围绕集中位置的分散情况
平均数:描述一组观察值集中位置或平均水平的统计指标。常作为一组数据的代 表值用于分析或进行组间比较。
☆中心极限定理:在样本含量 n 很大(>=50)的情况下,无论原始测量变量服从什 么分布,的抽样分布都近似服从正态分布 N(μ, 2 n )
标准误:反映样本均数间变异的标准差。 (反映样本均数间的离散程度,也反映样本均数与总体均数的差异)
理论值 n X
估计值 S S n X
参数估计:由样本统计量估计总体参数。 点估计:使用单一的数值直接作为总体参数的估计值。如用 X 估计相应的μ
标准差(S):将方差取平方根,还原为与原始观察值单位相同的变异量度 (反映样本值的离散程度)
X X 2
S n 1
标准差变异系数(CV):均数相差较大或单位不同的几组观察值的变异程度的比较 CV S 100% (百分数,可能大于 1) X
正态分布曲线下的面积 横轴: ( f ) f=2.58, 1.96, 1, 0(居中) 对应 99%, 95%, 68.3%
[适用条件]:对称分布或偏度不大的资料,尤其适合正态分布 算术均数( X ):简称均数,说明一组观察值平均水平或集中趋势(描述计量资料) 几何均数(G):描述观察值间按倍数关系变化的资料的平均水平,如滴度、浓度、
血清效价、细菌计数。
中位数(M):观察值按从小到大排列时,居于中心位置的数值。 n 为奇数时,M=第(n+1)/2 项 n 为偶数时,M=第 n/2 项和第(n/2+1)项的平均值 [适用条件]:分布明显呈偏态;频数分布的一端或两端无确切值
单侧,f=2.33,1,645, 1, 0
正态分布的特征 均数处最高,以均数为中心,两端对称 中心μ对应的 f(x)最大;x 越远离μ,f(x)越趋近于 0,但不会为 0 永远不与 x 轴相交的钟型曲线 有两个参数:均数——位置参数;标准差——形状(变异度)参数 正态曲线下的面积分布有一定规律 正态分布具有可加性
死亡率:某地某年每 1000 人中的死亡率 年龄别死亡率:某地某年龄组每 1000 人口中的死亡数 死因别死亡率:某年每 10 万人中,由于患某疾病死亡的人数 死因构成:相对死亡比,某种死因引起的死亡人数占总死亡人数的百分比
发病率:某一时期内特定人群中患某病新病例的频率 患病率:某一时点某人群中患某病的频率(可大于 100%) 病死率:某期间内,某病患者因某病死亡的频率 治愈率:接受治疗的病人中治愈的频率
t X 0 ,v n 1 Sn
配对样本均数 t 检验:受试对象依特征配对,随机分别分配到两个实验组
t d Sd / n
两独立样本均数 t 检验:两总体服从正态分布,且总体方差齐
方差齐性:两独立样本的总体方差
2 1
2 2
Sc2
n1
1 S12
n1
(n2 1)S22 n2 2
方差不齐时两样本均数的 t’检验
⑶抽样误差:由抽样不同引起的样本均数与总体均数之间的差异。原因是个体 之间存在变异,抽样时只能抽取总体的一部分作为样本。 不可避免,要用统计方法进行正确分析。
概率:描写某一事件发生可能性大小的一个度量。 频率:样本实际发生率
小概率事件:P<=0.05(差别有统计学意义)或 P<=0.01(差别有高度统计意义)的事件
总变异 SST :n 个观测值的离均差平方和 组间变异 SSTR :组内均值与总均值之差的平方和 组内变异 SSE :组内各个观测值与本组内均值之差的平方和
(反映各组内样本的随机波动)
完全随机设计的方差分析表(自由度 ) F= t2
随机区组设计:又称配伍组设计,先将受试对象按条件相同或相近组成 m 个区 组,每个区组中有 k 个受试对象,再将其随机地分到 k 个处理组中。 (属于无重复数据的两因素方差分析)
(未考虑抽样误差的影响) 区间估计:按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
可信度:事先给定的概率 1-α(通常取 0.95 或 0.99);计算得到的是可信区间 95%可信区间 ( X 1.96 X , X 1.96 X )
假设检验:即显著性检验,是统计推断的重要内容,比较总体参数之间有无差别。 首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推 断是否拒绝这一假设。
方差齐性检验
F
S12 S22
(较大) (较小)
,v1
n
1, v2
n
1
(P>0.05,可认为总体方差齐)
t’检验
u 检验:总体标准差已知,或样本量较大时,样本均数与总体均数的比较
t 检验中的注意事项 ⒈样本资料必须能代表相应总体 ⒉t 检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验 ⒊完全随机设计的两样本均数比较,要求两组方差齐 ⒋对同一资料作单侧检验更容易获得显著结果 ⒌假设检验用于推断总体均数间是否相同;可信区间用于估计总体均数所在范围
百分位数(P):在一组数据中找到一个数值 Px,全部观察值的 x%小于 Px。 P25, P75 描述资料的离散程度 P2.5, P97.5 规定医学 95%的参考值范围
【变异程度的统计描述】 极差(R):即全距,观察值中最大值与最小值之差。不适用于开口资料
四分位数间距(Q):一组观察值按大小排序后,分成四个数目相等的段落,每段 观察值占总例数的 25%,去掉两端含有极端数值的 25%,取 中间 50%的数据范围即为 Q。(适用于偏态分布&开口资料) [Q=P75 - P25] Q 越大,则数据变异越大
配对四格表资料的 2 检验
观察结果的四种情况:①A+, B+ [a] ②A+, B- [b] ③A-, B+ [c] ④A-, B- [d]
公式:㈠ 2 (b c)2 , =1 bc
(b + c均差距。即各观察值与均数之差的绝对值之
和的平均。
平均偏差= X X n
离均差平方和:通过取平方避免正负抵消
SS X X 2
方差:离均差平方和再取平均,分母用自由度 v=n-1 代替 *自由度(v):在所有的 n 个离均差平方项中,只有 n-1 个是独立的。