统计学基础知识之基础概念与知识点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学基础知识之基础概念与知识点统计学基础知识之基础概念与知识点

统计学基础知识

总体:是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。

样本:从总体中随机抽取部分观察单位,其实测值的集合称为样本。

随机抽样:是指按照随机化的原则,从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。

随机化原则:总体中每一个观察单位都有同等的机会被选入到样本中。

抽样误差:由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。

同质:一个总体中有许多个体,它们之所以共同成为人们研究的对象,必定存在共性,所谓一些个体处于同一总体,就是指他们大同小异,具有同质性。

变异:在自然状态下,个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,表现为各种生理测量值的参差不齐。

变量:确定总体之后,研究者对每个观察单位的某项特征进行测量和观察,这种特征称为变量。

变量值:对变量的测得值称为变量值,或者观察值。它可以是定量的,也可以是定性的。

定量资料:又称数值变量。其变量值是定量的,表现为数值的大小,一般有度量衡单位。

分类资料:也称定性资料,其观察值是定性的,表现为互不相容的类别或者属性。有无序分类和有序分类两种情况。

统计描述:用统计指标、统计图、统计表等方法,对资料的数量特征及分布规律进行客观的描述和表达。

统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征:①参数

估计:用样本的指标去推断总体相应的指标;②假设检验:由样

本的差异推断总体之间是否可能存在的差异。

计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。计量资料亦称定量资料、测量资料。其

变量值是定量的,表现为数值大小,一般有度量衡单位。

计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。计数资料亦称定性资料或分类资料。其观察值是

定性的,表现为互不相容的类别或属性。

等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。

概率:又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。

频率:在相同的条件下,独立重复做n次试验,事件A出现了m 次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验

重复很多次时P(A)=m/n。

随机误差:又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。

系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实

验设计和完善技术措施来消除或使之减少。

随机变量:指变量的值无法预先确定仅以一定的可能性(概率)取值的量。随机变量的具体内容虽然是各式各样的,但共同的特点是

不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特

定的概率分布。

参数:是指总体的统计指标,如:总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过

随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总

体参数。

统计量:是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总

体参数附近波动的随机变量。

算术均数:描述一组数据在数量上的平均水平。总体均数用μ

表示,样本均数用X表示。

几何均数:用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。

中位数:将一组观察值由小到大排列,n为奇数时取位次居中的

变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察

值在位次上的平均水平。

极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。

百分位数:是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的'另一个重要用途是确定医学参考值

范围。

四分位数间距:是由第三四分位数和第一四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。

方差:方差表示一组数据的平均离散水平,由离均差的平方和除以样本个数得到。

标准差:是样本平均数的平均距离,用来考察样本数据分散程度的大小。

变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV表示。计算:CV=标准差/均数×100%

可信区间:是按预先给定的概率1-α所确定的包含未知总体参

数的一个范围。从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α的可信区间

包含了总体参数,而不是总体参数落在该范围的可能性为1-α。

参数估计:指用样本指标值(统计量)估计总体指标值(参数)。

假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

假设检验:亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,如设总体均数为一定值,两总体均数相等,总体

服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。

I型错误:指拒绝了实际上成立的H0,这类“弃真”的错误称为

I型错误,其概率大小用α表示。

II型错误:指接受了实际上不成立的H0,这类“存伪”的误称

为II型错误,其概率大小用β表示。

正态性检验:用均数和标准差描述资料的分布特征,对例数n较小的样本进行t检验时,首先要求样本取自正态分布的总体。

检验效能:1-β称为检验效能,它是指当两总体确有差别,按

规定的检验水准α所能发现该差异的能力。

率:又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:率=发生某现象的观察单位数/可能发生某现象的观察

单位总数×100%,表示方式有:百分率(%)、千分率(‰)等。

相关文档
最新文档