医学信息学论文:面向临床的实用统计软件及信息咨询流程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设有m个自变量X1,X2,…,Xm及一个因变量Y,则其m元线性回归方程的一般
ˆ 形式为: Y
b0 b1 X1 b2 X 2 bm X m
其中bi为偏回归系数,它的意义是指当其他各自变量的值均被固定时,Xi改变 1个单位Y所改变的量。 主要功能 (1)复相关系数、校正复相关系数和剩余标准差; (2)原始数据的均数和标准差; (3)偏回归系数、标准偏回归系数及回归系数的标准误; (4)回归方程的假设检验及回归系数的假设检验。
编号 身高(cm) X1 1 135.1 3 163.6 5 156.2 7 167.8 9 145.0 11 165.5 13 153.3 15 160.5 17 147.6 19 155.1 21 143.0 23 160.8 25 158.2 27 144.5 29 156.5
体重(kg) X2 32.0 46.2 37.1 41.5 33.0 49.5 41.0 47.2 40.5 44.7 31.5 40.4 37.5 34.7 32.0
分析示例 例 测得某地3岁儿童10人的体重与体表面积见下表,试 求由体重推算体表面积的回归方程。(选自《医百.医统》 P145,例1) 体重,X (kg) 11.0 11.8 12.0 12.3 13.1 13.7 144 14.9 15.2 16.0 体表面积,Y (103cm2) 5.283 5.299 5.358 5.292 5.602 6.014 5.830 6.102 6.075 6.411
分析示例: 例 某市1995年110名7岁男童的身高(cm)资料如下,请作统 计描述。(选自《卫生统计学》第四版,倪宗赞,P6) 114.4 119.2 124.7 125.0 115.0 112.8 120.2 110.2 120.9 120.1 125.5 120.3 122.3 118.2 116.7 121.7 116.8 121.6 115.2 122.0 121.7 118.8 121.8 124.5 121.7 122.7 116.3 124.0 119.0 124.5 121.8 124.9 130.0 123.5 128.1 119.7 126.1 131.3 123.8 114.7 122.2 122.8 128.6 122.0 132.5 122.0 123.5 116.3 126.1 119.2 126.4 118.4 121.0 119.1 116.9 131.1 120.4 115.2 118.0 122.4 114.3 116.9 126.4 114.2 127.2 118.3 127.8 123.0 117.4 123.2 119.9 122.1 120.4 124.8 122.1 114.4 120.5 115.0 122.8 116.8 125.8 120.1 124.8 122.7 119.4 128.2 124.1 127.2 120.0 122.7 118.3 127.1 122.5 116.3 125.1 124.4 121.3 112.3 127.0 113.5 118.8 127.6 125.2 121.5 122.5 129.1 122.6 134.5 118.3 132.8
分析示例 例 某地29名13岁男童身高x1(cm),体重x2(kg),肺活量y(L) 的实测数据如下表,试建立肺活量与身高、体重的回归关系。(选自 《医用多元统计分析方法》,陈峰,P24,例3.1)
编号
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
身 高体 重 肺活量 (cm) (kg) (L) x1 x2 y 135.1 32.0 1.75 163.6 46.2 2.75 156.2 37.1 2.75 167.8 41.5 2.75 145.0 33.0 2.50 165.5 49.5 3.00 153.3 41.0 2.75 160.5 47.2 2.25 147.6 40.5 2.00 155.1 44.7 2.75 143.0 31.5 1.75 160.8 40.4 2.75 158.2 37.5 2.00 144.5 34.7 2.25 156.5 32.0 1.75
非参数法
非参数统计(nonparametric statistics)是相对于参数统计 而言,两者在实际中均有着广泛的应用,但其统计学原 理和应用场合不同。非参数统计对总体的分布特征无特 殊要求,如服从偏态分布、两端或一端无确切值等,及 分布不明的计量资料。若适合用参数检验的计量资料, 采用非参数检验会损失信息,降低检验效能。 此外,各种设计的等级资料的假设检验可使用非参数检 验。
两样本比较的秩和检验
主要功能: 1.Wilcoxon两样本比较的秩和检验;当两组计量资料比较, 资料不满足t检验条件时,可用此法。 2.计算方法简介: (1)先将两组数据不分组别混合排出秩次,相等数值时给 以平均秩次,然后分别算出两组的秩和T1和T2。 (2)当两组例数不等时,用例数较小组的秩和T值计算出 确切概率;若两组例数相等,则用T1和T2较小者的秩和T值 为统计量计算概率。 (3)当例数较大时,比如n≥40,用正态分布近似法计算统 计量u,并按u值得P;此时,若相相同秩次较多,则计算效 正uc,并按uc计算P值。 (4)数据资料可以是原始数据(例3)或频数表数据(例4), 算法不同。
单纯随机抽样
主要功能: 是从N例(编号1~N)中随机抽取n例,1≤n≤N,并依由小到大的 顺序列出。N最大为9999。 实际操作时,按屏幕提示输入N和n即可。 分析示例: 从45例中随机抽取10例。 输入数据:N=45,n=10 程序计算后可得到结果。
计量资料的描述及正态性检验
主要功能: 1、计算集中趋势指标:如,均数、中位数、几何均数、众 数; 2、计算离散程度指标:如,标准差、方差、极差(全距)、 几何标准差、几何方差; 3、计算四分位数及四分位数间距和常用19个百分位数(0.5、 1、2.5、5、…99、99.5); 4、计算偏度系数及其标准误、峰度系数及其标准误,进行 矩法正态性检验。 注:提供的资料类型可以是原始数据,也可以是频数表 数据
分析示例: 例 测得铅作业与非铅作业工人的血铅值(ug/100g)如下表,已从小到大排列, 试检验两组血铅值有无差别。(选自《医百.医统》P136,例1)
非铅作业组 5 5 6 7 9 12 13 15 18 21
铅作业组 17 18 20 25 34 43 44
回归与相关
回归与相关分析是研究两变量间相互关系的统计方法。回 归分析是用回归方程表达随X的变化而变化的依存关系; 相关分析是用相关系数描述变量间相互关系的方向和密切 程度。两类方法既有区别,又有联系。本章主要介绍直线 回归、直线相关、等级相关和曲线拟合等,两个因素间的 回归与相关分析方法,而多因素分析请参阅本说明书的 “多变量分析”一章。
面向临床的实用统计软件
及信息咨询流程
赖伏虎
2014年12月26日
实用统计软件 ——PEMS
PEMS 3.1部分参考书
特点一: ◆全中文界面
特点二: ◆菜单方式
特点三: ◆窗口方式(3个)主窗口数 据 窗 口 结 果 窗 口
特点四: ◆对话框操作,简单
特点五: ◆结果窗口,简洁直观,Word格式
多元线性回归
在客观世界中,事物之间的关系往往比较复杂。一个因 变量与一个自变量发生关系的简单线性回归模型的情形 是比较少见的。在多数情况下,都是一个因素受到其他 许多因素的制约和影响,如血压值的大小除了与年龄有 关外,还受到性别、劳动强度、饮食习惯、吸烟状况、 家族 史等因素的影响。因此,实际工作需要我们把简单 线性回归模型加以扩展,研究一个因变量与多个自变量 之间的线性关系,找出它们之间关系的函数表达式,从 而达到预报作用,这就是多元线性回归。
肺活量(L) Y 1.75 2.75 2.75 2.75 2.50 3.00 2.75 2.25 2.00 2.75 1.75 2.75 2.00 2.25 1.75
两样本均数比较
主要功能: 1、两个方差的齐性检验; 2、两样本均数比较的 t 检验(用于小样本,正态,方差齐); 3、两样本均数比较的 t'检验(用于小样本,非正态或方差不齐); 4、两样本均数比较的 u 检验(用于样本例数较多时); 5、计算原始数据的均数和标准差。 注:录入的数据可以是原始数据,也可以是各组的均数、 标准差和样本例数。
两样本率的比较
主要功能 1.四格表的2(卡方)检验; 2.校正四格表的2(卡方)检验; 3.四格表的确切概率法。
分析示例 四格表数据 例 在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺 向鼻腔滴注(鼻注组),另一组在鼻注亚硝胺基础上加注维生素B12, 实验结果见下表,问两组生癌率有无差别?(选自《医百.医统》P94,例2) 生 癌 鼠 未生癌鼠 合计 生癌率( % ) 数 数 鼻注组 鼻 注 +B12 组 合 计 52(a) 39(c) 91 19(b) 3(d) 22 71 42 113 73.24 92.86 80.53
编号 身 高体 重 肺活量 (cm) (kg) (L) x1 x2 y 2 139.9 30.4 2.00 4 146.5 33.5 2.50 6 156.4 35.5 2.00 8 149.7 31.0 1.50 10 148.5 37.2 2.25 12 135.0 27.6 1.25 14 152.0 32.0 1.75 16 153.0 32.0 1.75 18 157.5 43.3 2.25 20 160.5 37.5 2.00 22 149.4 33.9 2.25 24 159.0 38.5 2.50 26 150.0 36.0 1.75 28 154.6 39.5 2.50
直线回归
直线回归分析必须满足以下条件:①每个X值的应变量Y,必 须是互相独立的随机变量,并服从正态分布(正态单变量或 正态双变量的资料);②X、Y之间呈直线关系,或在X值的 观察范围内呈直线关系,不同X的应变量Y的剩余平方和是齐 性的;③样本变量值必须来自同一个总体。 注意:在使用该程序计算前,应先对两个变量进行正态性检 验,若满足条件后再做散点图,在散点图上两变量有直线趋 势时才做直线回归分析。 主要功能 1.计算X、Y的均数、标准差; 2.建立由X求的直线回归方程,并做直线回归方程的假设 检验。
线性相关
如果要计算多个变量间两两相关系数(Pearson相关)并对 其进行假设检验,则可用线性相关分析。 主要功能 (1)变量的均数和标准差; (2)简单相关系数矩阵; (3)简单相关系数显著性检验的P值。
分析示例 例 仍用前例。某地29名13岁男童身高x1(cm),体重x2(kg),肺 活量y(L)的实测数据如下表,试作相关分析。(选自《医用多元统 计方法》,陈峰,P24,例3.1)
分析示例: 例 分别测得14例老年性慢性支气管炎病人及11例健康人的尿 中17酮类固醇排出量(mg/dl)如下,试比较两组的均数有无 差别。(选自《医百.医统》P104,例1) 病 人X1:2.90 5.41 5.48 4.60 4.03 5.10 4.97 4.24 4.36 2.72 2.37 2.09 7.10 5.92 健康人X2:5.18 8.79 3.14 6.46 3.72 6.64 5.60 4.57 7.71 4.99 4.01
特点六:数据,EXCEL表格形式
还可打开或保存为Excel等多种文件
PEMS的特点七: 图形功能全
还有曲线拟合图、生存曲线图、 META分析图、ROC曲线…等
两样本均数比较所需的样本含量
主要功能: 计算两个样本均数比较时,其两组例数相等或不相等时所需 的样本含量。 分析示例: 例 在动物镇咳试验中,比较中药复方I与复方II使小白鼠推 迟发生咳嗽的时间,复方I平均推迟31.67秒,复方II平均推迟 44.00秒。设两组标准差相等,为25秒,α=0.05,β=0.1,要 得出两组有差别的结论,问需用多少只小白鼠作试验。(选自 《医百.医统》P53,例4)