3资料的性质、统计表与统计图
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
资料性质、统计表与统计图
医学统计教研室
柳伟伟讲师
一、概述
总体
根据研究目的确定的同质观察单位的全体同质的所有观察单位某种观察值的集合
研究目的了解某地2002年全体正常18岁男子身高情况
总体该地2002年全体正常18岁男子身高值
观测单位每个正常18岁男子
观测值正常18岁男子身高值
样本:从总体中随机抽取部分观察单位,其实测值的集合
抽样研究:从总体中抽取样本,根据样本信息推断总体特征
抽样:从总体中随机抽取部分观察单位的过程,应遵循随机化的原则
变量:总体确定后,对每个观察单位的某项特征进行测量和观察,这种特征,能表现观察单位的变异性
资料:对变量的测得值称为变量值,或观测值,由变量值构成资料
二、资料性质:
传统划分法
现代划分法
统计资料传统划分方法:计量资料计数资料等级资料
计量资料:又称定量资料或数值变量资料
测定每个观察单位某项指标量的大小而获得的资料。例如测得正常成年男子身高(cm)、体重(kg)、血
红蛋白(g/L)
其变量值是定量的,表现为数值大小,一般有度量衡单位
计数资料:又称定性资料或无序分类变量资料
将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料
其变量值是定性的,表现为互不相容的属性或类别
分为二分类和多分类两种情形
等级资料又称半定量资料或有序分类变量资料
将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料其变量值具有半定量性质,表现为等级大小或属性程度
统计资料现代划分方法
计数资料
定量资料
计量资料
二值资料
定性资料多值名义资料
多值有序资料
定量资料:测定每个观察单位某项指标量的大小
计量资料:指标的取值可以带度量衡单位,甚至可以带小数的定量资料。例如测得正常成年男子身高(cm)、体重(kg) 、血红蛋白
计数资料:指标的取值可以带度量衡单位,只能取整数,通常为正整数。例如测得正常成年男子脉搏数(次/min)、引体向上的次数(次/min)
定性资料:观测每个观察单位某项指标质的状况
二值资料:观测值只有对立的两种结果
多值名义资料:指标质的不同状况之间在本质上无数量大小或先后顺序之分。例如血型(A型、B型、AB型、O型)、职业(工人、农民、知识分子
多值有序资料:指标质的不同状况(状态个数之间在本质上有数量大小或有先后顺序之分。例如疗效(治愈、显效、好转、无效)
识别资料类型的要领看从每一个体上测得的结果看变量、取值及其专业含义
资料类型识别中常见错误:
将一切“百分比”或“百分率”资料视为定性资料
将形式上的数字当作准确测量所得的数值,如用1和0分别表示阳性和阴性结果,然后对含有多个1和0的一串数进行各种运算,如求平均值和标准差
收集到某医院1994-1997年送检的血管瘤手术标本存档蜡块107例。其中毛细血管瘤45例……正常小儿皮肤对照6例。高倍镜下每例肿瘤区内计数500个细胞,计数雌激素受体和孕激素受体阳性细胞的百分率。数据如表2所
错误辨析:高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞的百分率,从每一个个体的标本上都可以测得1个ER阳性细胞百分率和1个PR阳性细胞百分率,这两个百分率都是表现为量的大小,故ER百分率和PR百分率两个结果变量都是定量的
各类资料间的转化
在资料分析过程中根据需要在有关专业理论指导下,各类资料间可以相互转化
将定量资料转化为定性资料较为容易,在研究设计时,对于能测量的指标应尽可能设计为定量指标
三、统计表
定义:表达统计分析结果的表格称为统计表。凡是由“文字、数字、线条”等组合而成的信息集合,都可统称为统计表
作用:展示统计数据的结构、分布和主要特征。它可以避免冗长的文字叙述,使要表达的内容中心突出、简单明了,便于直观分析和比较
标题:相当于文章的题目,位于统计表的上方中央。应当提纲挈领、中心突出。必要时需注明资料的地点和时间
标目:可分为横标目、纵标目,必要时需给出总的纵标目。横标目与纵标目分别说明每行与每列数字的含义。总的纵标目则常常是关于表体中数据的专业含义的解释性术语
线条:最基本的线有三条,即顶线、底线以及纵标目与表体之间的分割线。顶线和底线一般采用较粗的横线(如1.5磅),其它线则采用常规线条(0.5磅)
当同时存在纵标目与总纵标目时,二者之间可用一条辅线隔开。各组数字与“合计”数字之间也要有辅线隔开
统计表内不能有竖线
数字:用阿拉伯数字表示。表内一般不留空格。若数字为零用“0”表示,无数字用“-”表示,缺失值用“…”表示
备注:不是统计表的必要构成成分,表中数字区不要插入文字,也不列备注项。必须说明者标“﹡”号,在表下方说明
统计表的编制原则
简单明了。一张统计表最好只表达一个中心内容,不要很多内容堆在一起
分组标志清晰。一般情况下,把统计表的“原因变量”放在表的左侧,作为横标目;把统计表的“结果变量”放在表的右上侧,作为纵标目
统计表的分类
根据统计表中所包含分组变量的个数分为:简单表、复合表根据表中所表达的资料的性质分为:频数分布表、简化形式的定量资料统计表、列联表
频数分布表
将变量值划分为若干个组段,清点并记录各组段变量值的个数,绘制成统计表,称为频数表
编制频数表的步骤
1.求极差:也称全距(Range)R=最大值-最小值=5.71-
2.35=
3.36
2.确定组段数(取10-15组)和组距:组距(i)=全距∕组段数=
3.36∕10=0.336≈0.30
3.写出组段:起始组段取小于或等于最小值的数,最后组段包含最大值
4.分组划计并统计频数
频数表的用途
1.描述频数分布的类型对称分布正(右)偏态分布、负(左)偏态分布
2.描述频数分布特征变异范围、统计分布规律(对称性、集中位置、在各组段出现的频率等)
3.便于发现资料中的可疑值
4.便于进一步做统计分析和处理
简化形式的定量资料统计表
实验研究中,往往需要按照原因(称为因素)的多种状态(称为水平)进行分组实验,而每组中又
往往包含多个受试对象,从每个受试对象个体上均可获得某定量观测指标的具体数值在进行统计分析时,需要用到所有的数据,而在资料表达时,为节省版面,则只能给出各组的均值和标准差,即只能给出简化形式的定量资料统计表