2013年北京大学医学部《医学统计学基础》课件合集
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
升序 降序
四、文件拆分 Spliwenku.baidu.com File
ex .sav文件中, 按照“sex(性别)”拆分文件
比较组 分组变量 根据分组 变量排序
分性别对“height(身高)”进行统计描述 描述性统计
不同性别的“height(身高)”统计描述 所有记录的“height(身高)”统计描述 注意:SPSS的输出结果文件为*.spo
100
80
60
40
20
0 0.0
10.0
20.0
30.0
40.0
50.0
60.0
二、统计描述
统计描述包括两个方面:集中趋势的描述 和离散趋势的描述
跟总体有关的叫参数,希腊字母表示。 跟样本有关的叫统计量,用英文字母表示 集中趋势指标:均数,几何均数,中位数 离散趋势指标:
(一)集中趋势指标描述
1.算术均数(均数 mean) 适用于正态分布或者近似正态分布 总体均数:;样本均数:
概论
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
1.总体:总体是根据研究目的确定的同质观察单位 的全体,更确切地说,是同质的所有观察单位某种 变量值的集合。
2.样本:样本是从总体中随机抽取部分观察单位, 其实测值的集合。所谓随机抽取亦就是总体中每一 个观察单位都有同等可能性被抽到,随机抽样的目 的是为了减少偏性,使样本对总体有代表性 。在实 际工作中经常从总体中抽取样本,目的是用样本信 息来推断总体特征(即统计推断)。
3.Width:变量宽度,默认为8。
4.Decimals:小数位数,默认为2。
5.Label:变量编码,又称为变量标签,用于注释 变量名的含义。
6.Values:变量值编码,又称为变量值标签,用于注释 变量值的含义。例如:变量sex,变量标签为“性别”; 变量值为1与2,变量值编码:1为“男性”,2为“女性”。
7.Missing:缺失值。默认为系统缺失值,用“.”表示。
8.Columns:列宽,默认为8。
9.Align:对齐方式。数值型变量默认右对齐 (Right),字符型变量默认左对齐(Left) 。
10.Measure:测度,包括三类:数值变量(Scale), 名义变量或无序分类变量(Nominal),有序分类变量 或等级变量(Ordinal)。
3.概率:概率是描述随机事件发生的可能性大小的 数值,常用P表示。所谓随机事件,亦就是在一定 条件下,可能发生也可能不发生的事件。随机事件 的概率在0与1之间,即0≤P≤1,常用小数或百分 数表示。P越接近1,表明某事件发生的可能性越 大,P越接近0,表示某事件发生的可能性越小。
小概率事件:当一个事件的概率P≤0.05或P≤0.01 时,称为小概率事件。小概率事件表示某事件发生 的可能性很小,在一次试验中基本上是不会发生 的。
数据文件ex.sav(数据窗口……数据清单界面) 数据清单 变量清单
数据文件ex.sav(数据窗口……变量清单界面)
注意:一行对应一个“记录(Case)”;一列对应一个“变量 (Variable)”。此数据窗口不是一个很好的数据录入界面。
三、记录排序 Sort Cases
ex .sav文件中, 按照“height(身高)”的大小排序。
5.误差: (1)抽样误差 是由于抽样原因引起的样本指标与 总体指标间的差别。
(2)随机测量误差 (3)系统误差 (4)过失误差
抽样误差和随机测量误差是不能避免的,但可控 制。系统误差和过失误差是可以避免的。
6.统计工作的基本步骤 (1)设计 (2)搜集资料 (3)整理资料 (4)分析资料
SPSS的基本数据管理功能 (SPSS13.0)
何平平
北大医学部流行病与卫生统计学系 Tel:82801619
一、数据获取 二、变量属性 三、记录排序 四、文件拆分 五、筛选记录 六、通过计算产生新变量 七、重新赋值
一、数据获取
Getting Data into SPSS
读取SPSS数据文件:*.sav , 常用的其他外部 数据文件: *.xls , *.dbf , *.txt , *.dat, *.w*, *.sas7bdat, *.mdb ……
注意:医学领域常用数据库EpiData软件,先 将数据文件*.rec转换为*.sps文件,然后在 SPSS的语法窗口运行,生成*.sav 文件。
数据获取途径
二、变量属性 Variable Properties
1.Name:变量名。允许用中文,但习惯上采用英 文变量名。
2.Type:变量类型,常用数值型(Numeric)、字 符型(String)、日期型(Date)。
有高血压家族史的患者身高的统计描述 所有患者身高的统计描述
六、通过计算产生新变量 compute
产生一个新变量:bmi=体重/(身高**2),四舍五入 取整
七、重新赋值 Recode…….. Into different variables
旧及新的变量值
根据bmi对7个记录进行分组,bmi: 正常:18- 23;超重:24-27;肥胖:>=28。
定义新的变量名:bmi _ gr
数值变量资料的集中趋势和离散趋势
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
一、分布类型
正态分布:集中位置居中,左右两侧频数 基本对称的分布。常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称的 分布。
特点:有极端的数据。
120
五、筛选记录 Select Cases
select
如果条件满足
unselect
过滤
删除
筛选条件:有高血压家族史(genic >0)
如果选用 Deleted,则一 定要将筛选后的 文件另存一个文 件名
不符合条件的记录, 被用斜线筛除
filter_$变量,0表示未选中该记录,1 表示选中该记录
4.资料的类型:
(1)数值变量 又称为定量资料或计量资料,其变 量值是定量的,表现为数值大小,一般有度量衡单 位。
(2)分类变量 又称为定性资料,其变量值是定性 的,表现为互不相容的类别或属性。有两种情况:
无序分类 包括变量值取无等级顺序的二项分类 或多项分类。
有序分类 又称为等级资料,各类之间有程度的 差别,给人以“半定量”的概念,即定性变量的变量 值取有等级顺序的几类。
四、文件拆分 Spliwenku.baidu.com File
ex .sav文件中, 按照“sex(性别)”拆分文件
比较组 分组变量 根据分组 变量排序
分性别对“height(身高)”进行统计描述 描述性统计
不同性别的“height(身高)”统计描述 所有记录的“height(身高)”统计描述 注意:SPSS的输出结果文件为*.spo
100
80
60
40
20
0 0.0
10.0
20.0
30.0
40.0
50.0
60.0
二、统计描述
统计描述包括两个方面:集中趋势的描述 和离散趋势的描述
跟总体有关的叫参数,希腊字母表示。 跟样本有关的叫统计量,用英文字母表示 集中趋势指标:均数,几何均数,中位数 离散趋势指标:
(一)集中趋势指标描述
1.算术均数(均数 mean) 适用于正态分布或者近似正态分布 总体均数:;样本均数:
概论
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
1.总体:总体是根据研究目的确定的同质观察单位 的全体,更确切地说,是同质的所有观察单位某种 变量值的集合。
2.样本:样本是从总体中随机抽取部分观察单位, 其实测值的集合。所谓随机抽取亦就是总体中每一 个观察单位都有同等可能性被抽到,随机抽样的目 的是为了减少偏性,使样本对总体有代表性 。在实 际工作中经常从总体中抽取样本,目的是用样本信 息来推断总体特征(即统计推断)。
3.Width:变量宽度,默认为8。
4.Decimals:小数位数,默认为2。
5.Label:变量编码,又称为变量标签,用于注释 变量名的含义。
6.Values:变量值编码,又称为变量值标签,用于注释 变量值的含义。例如:变量sex,变量标签为“性别”; 变量值为1与2,变量值编码:1为“男性”,2为“女性”。
7.Missing:缺失值。默认为系统缺失值,用“.”表示。
8.Columns:列宽,默认为8。
9.Align:对齐方式。数值型变量默认右对齐 (Right),字符型变量默认左对齐(Left) 。
10.Measure:测度,包括三类:数值变量(Scale), 名义变量或无序分类变量(Nominal),有序分类变量 或等级变量(Ordinal)。
3.概率:概率是描述随机事件发生的可能性大小的 数值,常用P表示。所谓随机事件,亦就是在一定 条件下,可能发生也可能不发生的事件。随机事件 的概率在0与1之间,即0≤P≤1,常用小数或百分 数表示。P越接近1,表明某事件发生的可能性越 大,P越接近0,表示某事件发生的可能性越小。
小概率事件:当一个事件的概率P≤0.05或P≤0.01 时,称为小概率事件。小概率事件表示某事件发生 的可能性很小,在一次试验中基本上是不会发生 的。
数据文件ex.sav(数据窗口……数据清单界面) 数据清单 变量清单
数据文件ex.sav(数据窗口……变量清单界面)
注意:一行对应一个“记录(Case)”;一列对应一个“变量 (Variable)”。此数据窗口不是一个很好的数据录入界面。
三、记录排序 Sort Cases
ex .sav文件中, 按照“height(身高)”的大小排序。
5.误差: (1)抽样误差 是由于抽样原因引起的样本指标与 总体指标间的差别。
(2)随机测量误差 (3)系统误差 (4)过失误差
抽样误差和随机测量误差是不能避免的,但可控 制。系统误差和过失误差是可以避免的。
6.统计工作的基本步骤 (1)设计 (2)搜集资料 (3)整理资料 (4)分析资料
SPSS的基本数据管理功能 (SPSS13.0)
何平平
北大医学部流行病与卫生统计学系 Tel:82801619
一、数据获取 二、变量属性 三、记录排序 四、文件拆分 五、筛选记录 六、通过计算产生新变量 七、重新赋值
一、数据获取
Getting Data into SPSS
读取SPSS数据文件:*.sav , 常用的其他外部 数据文件: *.xls , *.dbf , *.txt , *.dat, *.w*, *.sas7bdat, *.mdb ……
注意:医学领域常用数据库EpiData软件,先 将数据文件*.rec转换为*.sps文件,然后在 SPSS的语法窗口运行,生成*.sav 文件。
数据获取途径
二、变量属性 Variable Properties
1.Name:变量名。允许用中文,但习惯上采用英 文变量名。
2.Type:变量类型,常用数值型(Numeric)、字 符型(String)、日期型(Date)。
有高血压家族史的患者身高的统计描述 所有患者身高的统计描述
六、通过计算产生新变量 compute
产生一个新变量:bmi=体重/(身高**2),四舍五入 取整
七、重新赋值 Recode…….. Into different variables
旧及新的变量值
根据bmi对7个记录进行分组,bmi: 正常:18- 23;超重:24-27;肥胖:>=28。
定义新的变量名:bmi _ gr
数值变量资料的集中趋势和离散趋势
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
一、分布类型
正态分布:集中位置居中,左右两侧频数 基本对称的分布。常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称的 分布。
特点:有极端的数据。
120
五、筛选记录 Select Cases
select
如果条件满足
unselect
过滤
删除
筛选条件:有高血压家族史(genic >0)
如果选用 Deleted,则一 定要将筛选后的 文件另存一个文 件名
不符合条件的记录, 被用斜线筛除
filter_$变量,0表示未选中该记录,1 表示选中该记录
4.资料的类型:
(1)数值变量 又称为定量资料或计量资料,其变 量值是定量的,表现为数值大小,一般有度量衡单 位。
(2)分类变量 又称为定性资料,其变量值是定性 的,表现为互不相容的类别或属性。有两种情况:
无序分类 包括变量值取无等级顺序的二项分类 或多项分类。
有序分类 又称为等级资料,各类之间有程度的 差别,给人以“半定量”的概念,即定性变量的变量 值取有等级顺序的几类。