北大光华陈奇志老师saS课件9

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RUN;
order=data|internal|freq|formatted
33
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
例2.3 下表记录了某公司在过去6个月中的顾客信息.其中包
括顾客的性别(GEN:0=男和1=女),顾客的年龄(AGE),顾客的 年收入(INCLEV:1=低,2=中和3=高)和购买价值 (PURCHASE:0=小于100元,1=大于等于100元),共记录了 431位顾客的资料.试用“分析员应用”或编程来生成 PURCHASE(购买价值)与GEN(性别)或INCLEV(收入)的双 向列联表,并进行分析.
按Tables键,在弹出的窗口中选择计算观测频数、 单元百分数、行百分数和列百分数=>OK.
25
2007北京大学 列联表分析
由原始数据生成列联表的例子
④ 将要求分析计算的项选择完毕后, 从相应窗口按OK键,返回到列联表分析 的主窗口=>OK,系统将按用户的要求进 行分析计算.
看输出结果,从“分析员应用”的数 据窗口左边的树状表可以选择你想查看的 各类计算结果.输出的列联表分析的结果 及结果解释省略了.
单元记数变量
23
2007北京大学 列联表分析
由原始数据生成列联表的例子
要 求 表 格 指定分类变量 输出次序的原则
各单元输出的内容
关 联 统 计 量 设 定
分组变量设定
24
2007北京大学 列联表分析
由原始数据生成列联表的例子
③ 在列联表分析主窗口的下方有几个键:Tables 键让用户选择所要求的计算结果,如观测频数、期望 频数及两者的偏差,还有单元百分数、行百分数和列 百分数; Input键让用户指定输出的列联表中分类变 量各个水平的排列次序,是按DATA步的输入顺序还是 按分类变量内部值的次序等;Statistics键让户选择希 望计算的统计量.
分析gen=0(男)时purchase*inclev表,可以得出:
(1)查看purchase=1所在行的3个单元格中的行百分比(分 别为13.11%,24.59%和62.3%)可以得出:高消费(指购买100元 以上者)的男性人群中,高收入占的比例明显高于中低收入。
白人 黑人 是 19 17 36 否 141 149 290
160 166 326
28
2007北京大学 列联表分析
解 (1) 首先用DATA步生成一个数据集.然后由带
有WEIGHT语句的FREQ过程步来生成列联表(结果见下
面).
data penalty;
input decision $ defrace $ numcell ;
27
2007北京大学 列联表分析
例2.2 杀人犯的种族是否会影响判处死刑的问 题.对1976至1977年美国佛罗里达州20个地区杀人 案件中的326个被告进行调查.考虑的种族有白人与 黑人;用“是”或“否”表示是否判处死刑.调查后 已把数据整理成表格形式(见下表).试用编程方法 或菜单系统生成列联表.
注意这种情况下,数据步中除输入行 变量和列变量外,还要键入另一变量(这 里为NUMCELL)来给出各单元的观测个数. 因为这个列联表仅有四个单元,所以该数 据集仅包含四个观测.WEIGHT语句指出用 来说明每个单元中有多少观测的变量为 NUMCELL.如果使用TABLES语句而后面 没有使用WEIGHT语句的话,将会得到一
15
2007北京大学 列联表分析
多个属性变量取值的交叉表
19
2007北京大学 列联表分析
由原始数据生成列联表的例子
例2.1 对某个“统计入门”课题,记录了该课程 中所有学生的性别和专业(′是′为统计专业,′非′ 为其他专业).数据见以下SAS程序的数据行.试用编程 方法或菜单系统生成列联表.
解 (1) 使用FREQ过程来生成列联表. 下面的DATA步用来生成该数据集,然后使用FREQ过 程生成列联表,其中TABLES语句要求用分类变量性别 (SEX)和主修专业(MAJOR)来生成列联表.这些语句产 生的输出见上页.
① 产生汇总分类数据----列联表; ② 检验属性变量间的独立性(无关 联性) ; ③ 计算有序的属性变量间的关联性统计 量; ④
14
2007北京大学 列联表分析
属性变量取值的频数表
对属性变量最基本的统计特征就是它可取到的 不同数值及取各个不同数值的频数和概率(频率).
(中学生数据的频数表和条形图.)
张每个单元只有一个观测的列联表.
30
2007北京大学 列联表分析
由现有的汇总表生成列联表的例子
31
2007北京大学 列联表分析
由现有的汇总表生成列联表的例子
(2) 使用SAS菜单系统“分析员应用” 生成列联表的步骤与例2.1类似.只是在 步骤②中除了指定行变量和列变量外, 还要给出频数变量:
NUMCELL=>ell Countes. 输出的列联表分析的结果见前面.
35
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
以下SAS程序生成二个双向列联表。
proc freq data=salesa; tables purchase*(gen inclev); weight numcell; run;
36
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
九、SAS系统 与属性数据分析
1
2007北京大学
目录
1.属性数据 2.列联表分析 3.属性变量的无关联性检验 4.有序变量的关联性分析 5 Logistic回归分析
2
2007北京大学
属性数据
为了某种目的通过调查表进行社会调查得到的数据----调 查数据,一般都是属性数据。即在许多调查研究中,所得到的 信息是样本中个体的分类, 而不是定量变量的值。
分析purchase*gen表,可以得出:
(1)查看purchase=1所在行的两个单元格中的行百分比( 分别为37.65%和62.35%)可以得出:高消费(指购买100元以上 者)的人群中,女性占的比例明显高于男性。
而低消费(指购买100元以下者)的人群中,女性和男性所 占的比例相差不大。
(2)查看gen=0(男)所在列的两个单元格中的列百分比 (分别为68.06%和31.94%)可以得出:男性人群中,高消费( 指购买100元以上者)的比例明显小于低消费。
32
2007北京大学 列联表分析
由现有的汇A=数据集名 order=… noprint; TABLES 分层变量*行变量*列变量.../ nocol norow nocum nofreq nopercent missing list out=数据集; WEIGHT 变量名; BY 变量名;
而女性人群中,高消费(指购买100元以上者)的比例稍微 小于低消费。
37
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
38
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
分析purchase*inclev表,可以得出:
(1)查看purchase=1所在行的3个单元格中的行百分比( 分别为25.93%,28.4%和45.68%)可以得出:高消费(指购买100 元以上者)的人群中,高收入占的比例明显高于中低收入。
26
2007北京大学 列联表分析
有些情况下,已经汇总并得出表格中每个单元 有多少个观测.在收集数据时,也许是先建立一张 表,然后将观测个数记到每个单元中,这样得到的 信息.或许是使用以表格形式发表的数据.如:
白人 黑人 是 19 17 否 141 149
在这种情况下,没有给出样本中每一个个体的观 测数据.为了由这种类型的数据生成一张列联表, 首先建立一个包含所有单元观测个数的数据集, 然后使用带有WEIGHT语句的FREQ过程.
我们关心的问题是两种方案的疗效是否有显著的 差别?哪种冶疗方案更好些
5
属性数据 2007北京大学
属性数据与连续数据分析
属性数据分析(Categorical data analysis) 是当目标变量为属性记录时的数据分析, 不管 问题的预测变量(自变量)是否为属性 或连续的。属性变量的结果通常反映属性 分类的信息。
① 在“分析员应用”菜单栏目中选 分析(Statistics)=> 表分析(Table Analysis)....
② 在弹出的列联表分析主窗口中选择行变 量和列变量:
SEX=>Row,MAJOR=>Column.
22
2007北京大学 列联表分析
由原始数据生成列联表的例子
行分类变量
列分类变量
分层变量
;
proc freq data=statclas; tables sex*major; title ′统计课程中学生的专业和性别′;
run;
(cate21.sas)
21
2007北京大学 列联表分析
由原始数据生成列联表的例子
(2) 使用SAS菜单系统“分析员应用”生成 列联表.
首先启动“分析员应用”,并打开SAS数据 集STATCLAS.
连续数据分析(Continuous data analysis) 是当目标变量为连续记录时的数据分析, 也不论它的预测变量是属性的或连续的。
11
属性数据 2007北京大学
属性数据与连续数据分析
目标变量
12
属性数据 2007北京大学
属性数据分析
13
属性数据 2007北京大学
属性数据分析
对属性数据进行分析,将达到以下几方
34
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
解:首先用DATA步生成SAS数据集SALESA。
data salesa; do purchase=0,1; do gen=0,1;
do inclev=1 to 3; input numcell ; output; end; end; end; cards; 35 58 37 55 40 44 8 15 38 34 31 36 ;
cards;
是 白人 19 是 黑人 17 否 白人 141 否 黑人 149
;
proc freq data=penalty;
tables decision*defrace;
weight numcell;
title ′死刑数据的列联表′;
run;
(cate22.sas)
29
2007北京大学 列联表分析
20
2007北京大学 列联表分析
由原始数据生成列联表的例子
data statclas; input student sex $ major $ ; cards;
1 男是 2男非 3女是 4男非 5女是 6女是 7男非 8 男 非 9 男 是 10 女 是 11 男 非 12 女 是 13 男 是 14 男 是 15 男 非 16 女 是 17 男 是 18 男 非 19 女 非 20 男
而低消费(指购买100元以下者)的人群中,高收入与中低 收入所占的比例相差不大。
(2)查看inclev=1或2(中低收入)所在列的两个单元
格中的列百分比(如分别为68.18%和31.82%)可以得出:中低 收入人群中,高消费(指购买100元以上者)的比例明显小于 低消费。
而高收入人群中,高消费(指购买100元以上者)与低消费 的比例相差不大。
例如,在某次调查中,根据人们的性别,对颜色的喜好等, 将他们分类。
在某次政府调查中,根据公司的产品类型,公司的所在地区, 及产品是否出口, 将这些公司分为不同组。
在市场研究中,为了了解一种新产品的吸引力, 根据顾客 是否已看到这种新产品的广告以及是否已购买了该新产品,将 顾客分为不同组。
这种类型的数据可以方便地汇总在一张表格中,用来表示 每个组中的观测个数。
39
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
以下SAS程序按性别的不同分层生成二个双向列联表。
proc freq data=salesa; tables gen*purchase*inclev; weight numcell;
run;
40
2007北京大学 列联表分析
由现有的汇总表生成列联表的另一例子
3
2007北京大学
属性数据
例1 假定随机地抽取100个人,提问每个人下面的问题: 红、兰、绿三色中,你最喜欢那种颜色?那么将结果整理 为以下最简单的一张调查汇总表(见下表)
双向列联表:性别×颜色
我们关心的问题是性别不同是否与所喜爱的颜色有关.
4
2007北京大学
属性数据
例2 为了比较两种冶疗方法的效果,将患者随机地 分为两个处理组,每组50人。分别用两种方法治疗一 段时间后,记录患者的状态(全愈,未愈)。假定得到的结 果见下表 。
相关文档
最新文档