医学统计学绪论
医学统计学:绪论
绪论一、医学统计学的意义与基本内容随着科学的不断发展,一个明显的趋势是从原来的定性研究向半定量或定量研究发展。
于是在学习、研究和实践工作过程中,我们将面对众多的数据。
怎样才能正确理解这些数据的内涵呢?方法很多,但最常用的方法是统计学方法的使用。
我们用几个例子来解释一下:【例1】高考结束后,许多高中学校在大门或围墙上挂出横幅,A学校的横幅上面大字写着:“热烈祝贺我校200名学生高考成绩达到本一线”,B学校的横幅上面大字写着:“热烈祝贺我校400名学生高考成绩达到本一线”。
路过的你如何判断哪个学校高考成绩更好呢?一般情况下,人们认为B中学高考成绩比A中学好,因为上本一线的学生数是A 中学的两倍。
但是这样的结论是有前提的,就是两个学校参加高考的学生数必须一样或大致相同。
否则,如果A中学参加高考的学生数是300名,B中学参加高考的学生数是1000名,那么孰优孰劣应该容易判断了。
【例2】上世纪80年代中期,《文汇报》曾发表一篇关于人口问题的文章,其中一个段落是谈人口寿命问题的:“一般认为农村人口平均比城市人口长寿5岁。
据统计,湖北地区共有95岁以上的长寿者125人,其中24%居住在城市,76%居住在乡村。
可见城市住房拥挤、空气污染、工作紧张等诸多因素影响居民的寿命。
”这段文字的内容可分为三部分,一是论点:农村人口平均比城市人口长寿5岁;二是用于证明这一论点的论据:125个95岁以上的长寿者中,30人居住在城市,95个居住在农村,可以想见的意思是绝大多数的长寿者都是农村的。
于是可以得到第三部分的内容——结论:城市生活影响寿命。
这个结论对不对呢?我们暂且不去讨论城市生活对寿命有无影响问题,对我们来说,关键的问题是论据正确不正确。
应当注意这样一个事实:在上世纪80年代的中国,大约有70-80%的人口居住在农村,农村的人口本来就比城市多,若长寿者的比例在城乡是一致的,125个95岁以上的长寿者中,城市占24%,乡村占76%就不足为奇了。
01医学统计学绪论
的风险,但一直无法证实。该项研究使用统计学方法确定
了服用叶酸组与对照组的差别不是简单偶然出现的,而是 归因于叶酸的作用。
Medical statistics
问题:
胃溃疡治疗新技术的研究结论为什么会出现错误?
为了证明服用叶酸的作用,应如何进行分组?
如何准确地估计两组出现神经管缺陷的发病率?
案例1:1962年美国医学学会杂志(JAMA)曾发表了一篇 关于胃溃疡治疗新技术的报告,该报告根据动物实验和24
名患者的临床试验结果得出结论,即将冷冻液导入胃中使
胃冷却可以缓解溃疡症状,之后这一研究成果在临床中被 广泛应用。后证实这种方法无效甚至有害。
案例2: 20世纪80年代早期,两项观察性研究结果提示孕 妇在怀孕期间补充维生素可以降低新生儿神经管缺陷(NTD)
Variable and data
定性数据:也称计数资料。变量的观测值是定性的 ,表现为互不相容的类别或属性。血型分为A、B、
O、AB等。
有序数据:也称半定量数据或等级资料。变量的观 测值是定性的,但各类别(属性)之间有程度或顺 序上的差别,如尿糖的化验结果分为-、+、++ 、+++。
统计分析方法的选用与数据类型有密切的关系。根
抽样误差(sampling error): 由于抽样而引起的
样本统计量与总体参数间的差异,在统计学上称为 抽样误差。
概率(probability):描述某事件发生可能性大
小的度量。事件A发生的概率可以写成 P (A),其
取值范围为 0 P(A) 1, P(A) 0 表示该事件不可
能发生, P(A) 1 表示该事件必然发生。
医学统计学绪论
年《中华预防医学杂志 》:中华医学会系列杂志误用约 54% (1995)。
医学统计学绪论
第191页9
3. 伪造统计数据违反科学道德
➢ 1976年New Science 杂志关于科研舞弊 行为调查
(1)74%调查表反应有不正当修改数据情 况
You should always worry about whether the sampled results are representative of the population, and whether your sample allows you to make inferences about the population.
一、设计
1.专业设计:选题、建立假说、确定 研究对象和技术方法等→个性
2.统计设计:围绕专业设计确定统计 设类型、样本大小、分组方法、统计
分析指标及统计分析方法。
医学统计学绪论
第242页4
二、搜集资料
(一)资料起源
➢ 第一手资料 ① 经常性:统计报表(死亡登记、疫情 汇 报等),工作统计(病历、化验);
(2)17%拼凑试验结果
(3)7%凭空捏造数据
(4)2%有意曲解结果
医学统计学绪论
第20页
A Warning!
Fancy statistical methods cannot rescue garbage data
Fancy statistical methods can help you gain insight into your data, over and above what seems obvious on its face
《医学统计学》之医学统计学绪论(精品)
4. 三类资料间关系
例:一组2040岁成年人的血压
<8 低血压
等 8 正常血压
计量资料
级 资 料
12 15
轻度高血压 中度高血压
计数资料
17 重度高血压
以12kPa为界分为正常与异常两组,统计每组例
数
第四军医大学卫生统计学教研室 2020年3月9日
第四军医大学卫生统计学教研室 2020年3月9日
第二节 数据类型
1. 计量资料 2. 计数资料 3. 等级资料 4. 三类资料间关系
第四军医大学卫生统计学教研室 2020年3月9日
观察单位 observations
Units;elements
变量 variables
个体individuals 住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局
19
4 女 71 下 中分化 Ⅱ 阳性 78
5
5 男 59 上 高分化 Ⅲ 阴性 85
35
…… … … … … …
…
…
第四军医大学卫生统计学教研室 2020年3月9日
实例数据2
体重指数 身高 班制 劳动强度 紧张程度 心率 嗜肥肉史 收缩压 舒张压 中风家族史
(1) (2)(3) (4) (5) (6) (7) (8) (9) (10) 12.24 1.62 1 1 3 70 1 146 90 有 16.47 1.63 3 1 3 72 0 110 70 无 15.19 1.64 1 2 2 72 0 100 70 无 15.59 1.63 1 1 3 84 1 114 70 无 12.60 1.64 3 1 3 68 1 116 68 无 … …… … … … … … … …
医学统计学绪论
Today: 17 October 2019
(二)同质与变异(homogeneity and variation)
同质:指事物的性质、影响条件或背景相 同或非常相近。
变异:指同质的个体之间的差异。
同质与变异的例子
Today: 17 October 2019
例1 调查2004年上海市7岁男童的身高和体重 同质:2004年、上海市、7岁男童 变异:身高和体重各不相同 例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同
Today: 17 October 2019
120名正常成年男子红细胞计数值(1012/L)
5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84 4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 4.66 4.20 4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21 4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97 4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22 4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53 4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51 4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77 4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69
医学统计学--绪论
THANKS
感谢观看
03
医学统计方法
描述性统计
频数分布表
集中趋势指标
用于描述定性数据的频率分布,如某种疾病 的发病率或患病率。
描述定量数据的集中趋势,如平均数、中位 数和众数。
离散程度指标
偏态与峰态
描述定量数据的离散程度,如标准差、四分 位数间距和变异系数。
描述数据分布的偏斜程度和峰度,如偏度、 峰度和标准偏度。
推论性统计
描述性统计、推论性统计、多元统计分析等。
03
应用范围
适用于各种数据类型和统计分析需求,如金融数据分析、市场研究、
医学研究等。
STATA介绍
软件概述
STATA(Statistical Analysis and Data Mining)是一款开源 的统计软件,由Stata公司开发, 广泛应用于学术界和政府机构。
参数估计
利用样本信息推断总体参数,如总体均数、总体 比例和总体方差。
方差分析
用于比较多个组间的均值是否存在显著差异,如 单因素方差分析、多因素方差分析和协方差分析 。
假设检验
根据样本信息对总体参数进行假设检验,如t检验 、卡方检验和方差分析。
回归分析
研究变量之间的相关关系,如线性回归、逻辑回 归和非线性回归。
应用范围
适用于各种数据类型和统计分析需求,如问卷调查数据、医学临床数据、生物医学数据等 。
SAS介绍
01
软件概述
SAS(Statistical Analysis System)是一款商业统计软件,由SAS公
司开发,广泛应用于商业、政府、学术界等领域。
02
主要特点
功能强大、灵活性强、可靠性高,提供了丰富的统计分析方法,包括
医学统计绪论
39
4 、误差( error )
误差:实际观察值与客观真实值之差
误差
过失误差 系统误差
随机测量误差 随机抽样误差
40
4 、误差( error )
(1) 系统误差(systematic error):
由于仪器不准确、标准不规范、抽样不均匀,分 配不随机,实验者感觉或操作上的差异等原因, 造成观察结果呈倾向性的偏大或偏小,这种误差 称为系统误差。 特点:观察值有系统性、方向性、周期性的偏离 真值。 通过周密的研究设计和严格的技术措施可以避免
Uniform Requirements for Manuscripts Submitted to Biomedical Journals http://
11
为什么要学统计学?
❖4. 获得循证医学证据的主要手段
▪ “ 良 好 愿 望 的 医 学 ” ( well-meaning medicine) 转 入 “ 以 证 据 为 基 础 的 医 学 ” (evidence-based medicine,EBM)需要 有统计学方法的支持。
20
2、搜集资料(data collection) ❖搜集资料要遵循准确、完整、及时三个原则。
21
3、整理资料(data sorting)
❖ 目的是对搜集到的原始资料整理、清理、核实、 查对,使其系统化、条理化,便于进一步计算统 计指标和深入分析。
❖ 资料整理前要对资料再次检查与核对,发现缺项 或错项较多的调查表,须补查或剔除。审查无误 后,设计分组。
18
2、搜集资料(data collection)
搜集资料:根据研究计划取得可靠、完整的资料。 ❖ 资料的来源:
1、统计报表:如疫情报表,医院工作报表等; 2、报告卡(单):传染病和职业病发病报告卡, 肿瘤发病及死亡报告卡,出生及死亡报告单等; 3、日常医疗卫生工作记录:如门诊病例、住院病 例、健康检查记录、卫生监测记录等; 4、专题调查或实验。
医学统计学-绪论
描述性统计 统计图表 统计推断 文字表达
一、研究设计(study design)
统计设计首先要考虑选用什么研究方法 调查研究(survey):对特定人群进行观察、分析比较,
从而找出事物变化的规律 按调查范围分为:全面调查、抽样调查、典型调查 设 计 方 案 包 括 6W1H ( What, Why , Whom, Who , When, Where, How)
统计推断:
参数估计:用样本统计量推断总体参数 如:总体均数的可信区间估计
假设检验(hypothesis testing 或significance test):用样 本统计量的差异来推断总体参数是否存在差异,即用样本 信息检验关于总体的两个对立假设 如:t检验(两个均数的比较):根据两个样本均数等信息 推测总体均数之间是否有差别 2 检验(两个率的比较):根据两个样本率的信息推测 总体均数之间是否有差别
调查设计的一般工作流程
确定研究题目 明确研究目的和意义 确定研究的主要指标 明确研究范围 确定研究方法 估计样本含量 调查表设计与资料收集方式 资料的整理与统计分析 调查的组织实施与质量控制
• 实验(试验)研究 (experiment study or trial): • 对研究对象随机分组(使各组间均衡可比)、施加
频率与概率间的关系:
1)样本频率总是围绕概率上下波动 2)样本含量n越大,波动幅度越小,频率越接近概 率
五、变量与随机变量
Variable and random variable
变量:研究对象的某个或某些特征或属性(研究指标或项目)
随机变量:变量的值是随机而获得的非确定值,随机取值的 变量就是随机变量
• 样本:
• 从总体中随机(random) 抽取一部分有代表性的个 体组成样本(sample),
医学统计学绪论
例要瞭解某地12歲健康男孩的平均身高μ (參數),今測得100名男孩身高值, 求得平均數(統計量)。
四.統計資料的類型
根據變數的類型可以將統計資料分成三類。
1. 定性資料 (qualitative data)
將觀察單位按某種屬性或類別分組,所得 各組的觀察單位數。如調查某人群的血 型分佈,按O、A、B、AB分組,得各血 型組的人數,又如作結核菌素試驗,要 計算陰、陽性人數。
相交次數
704 2532 1218 382 489 1808 859
π 3.142 3.1596 3.1554 3.137 3.1595
3.1415929
3.1795
6.參數與統計量( parameter and statistic )
根據樣本觀察值計算出的統計指標,稱統 計量(statistic),常用拉丁字母表示。
取得準確完整的原始數據。 資料來源有: ①統計報表 ②工作記錄(病歷或化驗報告單) ③調查或實驗結果。
3.整理資料(sorting data)
將原始數據系統化條理化,即數據的預處 理。
4.分析資料(analysis of data)
計算有關統計指標,闡明事物的內在聯繫 和規律,包括統計描述和統計推斷。
2.統計學的發展歷史
A)古典統計學時期 17世紀中葉至18世紀中葉統計學萌芽時期,有記
述學派和政治算術學派。 (1)記述學派或國勢學派
創始人是德國的康令(H.Coning,1606-1681) 和阿亨瓦爾(G.Achenwall,1719-1772) 很少進行數量方面的研究,未涉及統計學的實質。
(2)政治算術學派
医学统计学:第一章 绪论
3.统计推断
是通过统计检验方法(如t检验、u检验、F检验、
卡方检验、秩和检验等)来推断两组或多组统计指标 的差异是抽样误差造成的还是有本质的差别。
4.相关与回归
医学中存在许多相互联系、相互制约的现象。如 儿童的身高与体重、胸围与肺活量、血糖与尿糖等, 都需要利用相关与回归来分析。
❖ 注意:抽样误差是不可避免的。无论抽样抽得多么好, 也会存在抽样误差。
五、概率
概率(probability):是描述随机事件发生可 能性大小的量值。用英文大写字母P来表示。 概率的取值范围在0~1之间。当P=0时,称为 不可能事件;当P=1时,称为必然事件。
小概率事件:统计学上一般把P≤0.05或 P≤0.01的事件称为小概率事件。
第一章 绪论
目录
第一节 医学统计学的定义和内容 第二节 统计工作的基本步骤 第三节 统计资料的类型 第四节 统计学中的几个基本概念
第一节 医学统计学的定义和内容
统计学(statistics)- 是搜集,整理,分
析资料,并作出决策的一门学科。
医学统计学(medical statistics)-是
如同质的儿童身高、体重、血压、脉搏等指标会 有一定的差别。
二、总体与样本
总体(population):根据研究目的确定的同质观
察单位某项变量值的集合或全体。 无限总体(infinite population) 有限总体(finite population)
样本(sample):从总体中随机抽出的部分观察单
统计推断(inferential statistics)
使用样本信息推断总体特征。通过样本统计 量进行总体参数的估计和假设检验,以达到了 解总体的数量特征及其分布规律,才是最终的 研究目的。
医学统计学 第一章 绪论
第一章绪论第一节医学统计学的地位和作用当人们研发了一种治疗高血压病的新药,应该怎样评价该新药的疗效?最基本的方法就是比较。
通常将患者以随机的方式分成两个组,一组服用该新药,另一组服用对照药物,观测并记录两种药物的疗效,最后统计分析该新药的有效性和安全性,这就是一个常见的临床试验。
其中,统计学扮演什么角色?在这个临床试验中有诸多问题需要回答:需要多少名患者参加试验?如何随机地将患者分为两个组?哪些措施可以保证两组患者除了接受不同药物治疗外,其他影响疗效的因素在两组的分布是一致的?如果分布不一致,如何在诸多的影响因素中,分离出药物因素的效应?应采用什么样的指标来反映新药的有效性和安全性?怎样测量这些指标以保证数据的准确性和可靠性?如何控制临床试验的误差?如果两组疗效存在一定差别,怎样比较两个药物的疗效到底是否存在差别?换言之,我们需要了解这种差别是机会造成的,还是真实存在的?统计学可以回答上述问题。
我们再看另一种情形,假定为了解一个城市居民高血压病的患病现状,通常的做法是在这个城市调查一部分个体,利用这一部分个体的高血压病患病状况来反映整个城市的患病状况。
那么,如何在这个城市选取这一部分个体?因为只有这部分个体能够很好地代表整个城市人群,用这种部分推论全体的做法才是准确的。
此外,需要选取多少人进行调查?如何保证收集到的资料是准确和可靠的,又如何评价这种准确性和可靠性?几百人的血压值(如收缩压值)各不相同,看上去是一堆“杂乱无章”的数据,如何描述高血压病的患病状况,如何才能推论到整个城市人群?我们对于这种推论的正确性抱有多大的信心?统计学也可以回答上述问题。
每个人的血压都不一样,每个高血压病患者对同一种药物治疗的反应也存在着差别,这就是所谓的个体差异和不确定性。
个体差异是自然界普遍存在的现象,个体结构和功能千差万别,机体反应受到各种自然和社会环境因素的影响和制约,对内外环境刺激的反应同样千差万别。
在统计学中,我们将这种差异称为变异(variation)。
医学统计学 第一章绪论
历史上著名的投掷硬币试验 试验者 投币次数 德莫根 浦丰 2048 4040 正面朝上频数 1061 2048 6019 12012 频率 0.5081 0.5069 0.5016 0.5005
皮尔逊 12000 皮尔逊 24000
2. 概率(probabilidy) 概率( ) (1)概率的定义: 概率的定义: 概率的定义 稳定的频率当作概率 概率的统计定义是将稳定的频率当作概率, ①概率的统计定义是将稳定的频率当作概率,用P 表示。 表示。 概率的古典定义: ②概率的古典定义 某种随机现象具有: 某种随机现象具有: a.等可能性( n种结果出现机会均等); 等可能性( 种结果出现机会均等 种结果出现机会均等); 等可能性 b.完备性(至少出现一种结果); 完备性( 完备性 至少出现一种结果); c.互不相容性(只能出现一种结果), 互不相容性( 互不相容性 只能出现一种结果) 则在一次试验中某种结果出现的概率为1/n。 则在一次试验中某种结果出现的概率为 。
随机化抽样
………. 总体指标
样本指标 1
样本指标2 样本指标 样本指标3 样本指标 样本指标4 样本指标
……….Байду номын сангаас
样本指标5 样本指标
随机误差是难以避免的 但具有一定规律, 随机误差是难以避免的,但具有一定规律, 难以避免 规律 可以采用统计指标衡量其大小, 指标衡量其大小 可以采用统计指标衡量其大小,并可进行相 应的分析。 应的分析。 分析 例如抽样误差可用标准误衡量其大小, 例如抽样误差可用标准误衡量其大小,分析 时可以进行总体指标的估计和假设检验。 时可以进行总体指标的估计和假设检验。
医学统计学
基础医学院 统计与预防医学教研室 陈全良
绪论 第1章 章 第一篇 基本统计方法 第2~第10章 ~ 章 第二篇 高级统计方法 第11~第24章 ~ 章 第三篇 基本统计方法 第25~第28章 ~ 章 第四篇 数据处理与条件软件应用 第29~第33章 ~ 章
医学统计学绪论完整
医学统计学绪论完整医学统计学是一门应用统计学原理和方法来分析医学数据的学科。
它在医学研究和临床实践中起着至关重要的作用,可以帮助医生和研究人员更好地理解和应用各种医学数据,以推动医学科学的发展和临床实践的进步。
医学统计学的基本任务是收集、整理和分析医学数据。
医学数据可以是临床试验中的实验数据,也可以是临床病历中的观察数据。
为了有效地进行统计分析,首先需要正确地收集数据。
医学研究中常用的收集数据的方法包括问卷调查、临床试验、病历记录等。
在收集数据时,需要注意确保数据的可靠性和有效性,避免数据的偏倚和错误,以提高数据的质量。
在数据收集之后,需要对数据进行整理和描述。
数据的整理工作包括数据清洗、变量定义、缺失值处理等。
数据清洗是指对收集到的数据进行筛选和去除异常值,以保证数据的准确性和完整性。
变量定义是指对各个变量进行定义和分类,以便后续的统计分析。
缺失值处理是指对数据中的缺失值进行处理,可以选择删除缺失值或者使用插补方法进行填补。
数据描述是指对数据进行统计分析和描述性分析。
统计分析可以通过计算基本统计量如均值、中位数、标准差、协方差等来描述和比较不同的数据分布。
描述性分析则通过制作图表、计算频率分布等方式来展示数据的特征和变量之间的关系。
这些分析可以帮助研究人员更全面地理解数据,并发现数据中的规律和趋势。
医学统计学的另一个重要任务是假设检验和推断统计学。
假设检验是指通过对样本数据进行统计分析,进而对总体参数进行判断和推断。
在假设检验中,需要先提出一个零假设和一个备择假设,然后通过计算统计量和P值来判断是否拒绝零假设,从而得出结论。
推断统计学是指通过对样本数据进行分析,推断总体参数的值和性质。
在推断统计学中,需要使用抽样分布、置信区间等方法来推断总体参数的估计值和范围。
医学统计学还涉及到生存分析、回归分析、多元分析等方法。
生存分析是研究和分析患者生存时间和生存率的方法,常用于研究慢性疾病的生存率和预后情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四人投掷硬币试验
试验着
甲
乙
丙
丁
试验次数(n)
1500 2800 4800 8500
出现正面次数(m) 739 1405 2395 4252
出现正面频率(f) 0.4927 0.5018 0.4990 0.5002
《医学统计学》
绪论
内容提要
什么是统计学? 统计学的几个基本概念 变量与资料 医学统计工作的基本步骤 统计方法在医学实践中应用 统计学发展简史 常用统计软件介绍 课程内容简介 学习医学统计学的要求 课程成绩构成说明 总结提问
什么是统计学? What’s statistics?
……
……
……
……
……
… …
…… …… …… …… …… ……
观察指标的同质部分:“某地某年健康成年男子”
观察指标的变异部分:各个体间红细胞数间的差异
(二)总体与样本(population & sample)
总体:是根据研究目的所确定的同质观察单位(某种 变量值)的全部。 1)有限总体(有时间、空间限制) 例研究2012年温州市肝癌死亡率。 2)无限总体(没有时间、空间限制) 例研究某药对高血压病的疗效。
统计指标 平均值 标准差 率 …
总体参数
σ π …
样本统计量 x S p …
(六)频率与概率 (frequency & probability)
频率:在相同条件下,独立地重复n次试验,随机事件A 出现f次,则f/n为随机事件A出现的频率。
概率:用P表示,0≤P≤1。当P=0时,称为不可能事件; 当P=1时,称为必然事件。概率是频率的稳定的、 极限的形式。
统计学的几个基本概念
同质和变异 总体与样本 随机抽样 误差 参数与统计量 频率与概率
医学统计学的基本概念
(一)同质与变异
同质(homogeneity) 指各观察个体(单位)受相同因素影
响的部分。
变异(variation) 在同质的基础上个体间的差异。
例某地某年用随机抽样方法检查了140名健康成年男 子的红细胞数(1012/L),检测结果如下表:
– 无序分类变量(计数资料):二项分类、多项分类
– 有序分类变量(等级资料)
统计分析方法选用,首先要确定资料的类型。
判断下表中变量和资料类型
病例 号
年龄(岁) 性别
身高 (cm)
1
35 女 165
2
44 男 174
3
26 男 180
4
25 女 161
5
41 男 171
6
45 女 158
7
50 女 160
变量值:变量测定值 资料data:某变量观测值的汇总,也可以是
各变量观测值的汇总。
观测单位 变量和资料 变量
病例 号
年龄(岁) 性别
身高 (cm)
1
35 女 165
2
44 男 174
3
26 男 180
4
25 女 161
5
41 男 171
6
45 女 158
7
50 女 160
8
28 男 176
分析资料
又称为统计分析,包括:
– 统计描述:利用合适的统计图、统计表、统计指 标等对数据的数量特征及其分布规律进行描述。
– 统计推断:在一定的可信程度下,由样本信息推 断总体特征。包括: 参数估计:用样本统计量推断相应的总体参 数。 假设检验:由样本差异推断总体之间是否存 在差异。
统计分析:统计描述
通过统计推断方法——“假设检验”
(五)参数与统计量 (parameter & statistic)
参数: 指总体的指标,如总体均数μ、总 体 标准差σ,用希腊字母表示。
统计量:指样本的指标,如样本均数 x 、标
准差s,用拉丁字母表示。
检验统计量:用于统计检验的样本指标。
如 t、u、x2、F 等
总体参数与相应的样本统计量
8
28 男 176
9
31 女 162
血型 心电图 尿WBC 职业
A 正常 - 教师 B 正常 - 工人 O 正常 + 职员 AB 正常 + 农民 A 异常 ++ 工人 B 正常 ++ 工人 O 异常 ++ 干部 AB 正常 +++ 干部 O 正常 + 军人
RBC (1012/L)
4.67 5.21 4.10 3.92 3.49 5.48 6.78 7.10 5.24
样本:从总体中随机抽取一部分个体所组成的集合。
绝大多数研究采用抽样研究方法
提问:
问题1:为了解2012年温州市肝癌死亡率,你将如 何进行调查设计?
问题2:为研究某药对高血压病的疗效,你将怎么 做?
问题3:如果要了解2012年温州医学院在校生近视 眼患病率,如何进行设计?
如何能使样本具有较好的代表性?
统计分析时,同质观察对象要达到一定数量
孟德尔的豌豆杂交实验
实验过程
P 纯高茎 × 纯矮茎
F1
高茎 ⊙ 高茎
F2
高茎 矮茎
3: 1
【遗传图解如下】
P 高茎
矮茎
DD × dd
配子 D
d
Dd
F1
高茎
F1
高茎
高茎
Dd × Dd
配子 D d
Dd
F2 DD Dd Dd dd
高茎 高茎 高茎 矮茎
1: 2
:1
44
29
12
28
24
16
等级资料
资料间的相互转化
例:测得一群人Hb值(g/dL),此资料
为
;
按正常和异常分为两组,此时资料
为
;
按量的多少分为: < 6 (重度贫血), 6 ~ (中
度贫血), 9 ~ (轻度贫血), 12 ~ 16 (正常)
及 > 16 (Hb增高)。此时资料为
。
医学统计工作的基本步骤
案例
某商家宣称他的一大批鸡蛋“坏蛋率为1%”。 抽检:随机抽取5个做检查。 问题:在“坏蛋率为1%”的前提下,5个鸡蛋
中出现1个“坏蛋”的概率是多少?抽到有 “坏蛋”的概率又是多少?
①P=0.048; ②P=0.049
变量和资料
变量variable:每个观察单位(个体)的某 项特征。 如:年龄、性别、身高、血型等
(1)设计: design
1)专业设计 2)统计设计
(2)收集资料
1)统计报表
collection of data 2)医疗卫生工作记录 3)专题调查和实验
(3)整理资料 sorting data
(4)分析资料 analysis of data
1)对数据检查、核对 2)按分析要求分组、汇总 1)统计描述 2)统计推断
总体
抽样 推断
样本
(三)随机抽样 总体
抽样 推断
样本
从总体中随机遇而定抽取部分个体的过程。 (总体中每一个观察单位均有同等的机会被 抽取到)
随机抽样是样本客观反映总体情况的前提。 此外,抽取数量(样本含量)也很重要。
问题:运动员的选取是否随机?
随机抽样方法: 总体
1.单纯随机抽样 2.系统(机械)随机抽样 3.整群随机抽样 4.分层随机抽样
上例从统计学角度,还不能认为两者有效率有 差别。为什么?
例:有一袋子装有大小相同的100个球,其中红球70个, 黑球30个,红球占总数70%。
现从袋子中随机抽取10个球。 第1次:8红2黑,红球占80%;
将取出球再放回袋中。 第2次:6红4黑,红球占60%。
已知总体相同,现两样本间差别是什么原因所致? 若总体未知,现两样本间有差别是否等同于总体有差别?
抽样 推断
样本
上述抽样方法得到样本的代表性一样吗?
(四)误差
误差,Error:实测值与真值之差。 1. 非随机误差:可以而且应该避免 粗差(过失误差) 系统误差(偏倚) 2. 随机误差:不恒定、呈正态分布,不可避免 随机测量误差 抽样误差
抽样误差(sampling error)
抽样引起的总体指标(总体参数)与样 本指标(样本统计量)之间的差别。 有抽样,抽样误差就不可避免。
9
31 女 162
血型 心电图 尿WBC 职业
A 正常 - 教师
RBC (1012/L)
4.67
B 正常 - 工人 变量5值.21
O 正常 + 职员 4.10
AB 资正料常 + 农民 3.92
A 异常 ++ 工人 3.49
B 正常 ++ 工人 5.48
O 异常 ++ 干部 6.78
AB 正常 +++ 干部 7.10
X2:4.12 7.89 3.24 6.36 3.48 6.74 4.67 7.38 4.95 4.08 5.34 4.27 6.54 4.62 5.92 5.18
计量资料
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
O 正常 + 军人 5.24
变量和资料
定量变量:又称数值变量,其值是定量检测得到,有大小 之分,一般有度量衡单位。
– 连续型定量变量:变量值可以在实数轴上连续变动
} – 离散型定量变量:变量值只能取整数