统计学考试重点上海交大医学院
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学
第一章、绪论
1、统计学(statistics)是研究如何有效地搜集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的科学。
2、统计工作的主要步骤:
1.研究设计:调查研究设计(观察不干预)、实验研究设计(随机分配)
2.搜集资料
3.整理资料
4.分析资料(统计描述、统计推断——参数估计,假设检验)
3、统计研究设计应当遵循3个基本原则:对照原则、重复原则、随机化原则。
4、研究设计基本要素:
1.处理因素:标准化;处理因素外,还有一些非处理因素又称“混杂因素”。
2.实验对象:应对处理因素敏感、稳定,且具有同质性
3.实验效应:客观性、有效性、准确性——效度(准确度:概率大小),信度(精确度:区间长度)
5、统计资料分类:
1.计量资料:又称定量资料,有计量单位,分为连续型资料和离散型资料两类。
2.计数资料:又称定性资料,按某种属性或类别用计数方式得到的资料。
3.等级资料:又称半定量资料,按某种属性的不同程度分组计数的资料。
6、统计描述(statistical discription)统计描述是指将研究数据加工提取,用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。
7、统计推断(statistical inference)统计推断指用样本所提供的信息对总体数量规律性作出推断。
8、总体(population):一个统计问题所涉及的对象的全体。(有限总体,无限总体)
9、个体(individual):总体中每一个研究对象称为个体。
10、样本(sample):按随机的方式从总体中抽取若干个体构成一个样本。
11、样本量:样本包含的观察单位数称为样本含量。
12、参数(parameter):由总体计算所得的特征量,用希腊字母表示。
13、统计量(statistic):由样本资料计算所得的特征量,用拉丁字母表示。
14、参数估计:由样本统计量估计总体分布中的未知参数。分为点估计和区间估计。
15、点估计(point estimation):选择一个适当的样本统计量作为总体参数的估计值。
抽样误差:(sampling error):由于个体间存在变异性造成样本统计量和相应的总体参数间的差异。
16、区间估计(interval estimation):根据一定的精确度要求,确定一个概率水平,由样本统计量计算出一个适当的区间作为未知总体参数真值所在的范围,称为区间估计。
置信度:此概率水平为可信度,也可称为可信水平。
置信区间(CI):所估计的区间称为可信区间,区间的端点称为“可信限,CL”。
(可信度大,可信区间长;样本含量大,可信区间短)
17、可信区间的准确度:表现为可信度的大小,即区间包含总体参数的概率大小。
可信区间的精确度:表现为区间的长度。
18、假设检验(Hypothesis Testing):又称显著性检验,先对总体的参数或分布作出某种假设,然后用适当的方法,根据样本对总体提供的信息推断是否拒绝该假设。
19、假设检验的基本步骤:
1.建立H0(无效假设:假设相同,无差异)、H1(备择假设)
2.选择适当的样本统计量,在H0成立的情况下计算P值(P值理解为H0成立时得到目前研究结果甚至更极端情况下的可能性)
3.根据P值与α的大小关系进行判断:
如果P>0.05,则在α=0.05水平上,不拒绝H0;
如果0.01<P≤0.05,则在α=0.05水平上,拒绝H0,差异有统计学意义;(P小拒)如果P≤0.01,则在α=0.01水平上,拒绝H0;
20、检验水准α:又称显著性水平,是假设检验预先规定的一个“较小”的值。符号为α。一般取α=0.05。
21、检验效能(1-β):两总体确有差异,按α水准能发现差异的能力。
22、影响效能的四要素:
(1)客观上两组效应差异越大,效能越大。
(2)个体间标准差越小,效能越大。
(3)样本量越大,效能越大。
(4)第Ⅰ类误差的概率越大,效能越大。
同时降低两类误差的唯一办法是加大样本量。
23、I型错误:拒绝了实际上成立的H0,即“弃真”,这叫第一类错误,记为α,医学中常称为假阳性错误。(例如某人血压180是健康的,却被认为得病了,得病阳性率增加是假的)
24、II型错误:未拒绝了实际上不成立的H0,即“存伪”,这叫第二类错误,记为β,医学中常称为假阴性错误。
25、正态分布(normal distribution)记为N(μ,σ2),标准正态分布:N(0,1)
均数μ:位置参数,μ增大,曲线向右移动
标准差σ:形状参数,σ增大,数据分散,曲线低平
(µ-1.96σ,μ+1.96σ)面积为95%,(µ-2.58σ,μ+2.58σ)面积为99%
第三章、计量资料的统计描述
1、计量资料的统计描述:
统计图、表:频数分布图、表;
统计指标:集中趋势指标(3、4、5、6、7)、离散趋势指标(8、9)
2、频数:不同组别内观测值个数,表示在各组别内观测值出现的频繁程度。
3、算术平均数:简称为均数(Mean),总体均数用μ表示,样本均数用X(拔)表示。
适用于:对称分布资料,特别是正态分布或近似正态分布。
特性:1.各观察值与均数之差(离均差)的总和为零 2.离均差平方和最小
4、几何均数(连乘开方):用G表示。
适用于:等比级资料,对数正态分布
特性:1.观察值中不能有零 2.观察值不能同时有正数和负数
5、中位数:即P50,用M表示,是将一组观察值按由小到大顺序排列后,位次居中的那个观察值。
适用于:各种分布,正态分布时=算数均数;对数正态分布时=几何均数
特性:1.偏态分布资料 2.端点无确切值的资料 3.分布不明确的资料
6、百分位数:指将观察值从小到大排列后处于第x百分位置上的数值,以Px表示。