SAS笔记第六章,列联表分析
(整理)列联分析
列联分析一、列联表的构造列链表是由两个以上的变量进行交叉分类的频数分布表。
例如表1:表1(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C列联表。
二、列联表的分布在表1中,最右边显示了态度变量的总数,如赞成改革方案的共有279人,反对改革方案的共有141人,对此称为行的边缘分布。
同理,100、120、90、110称为列边缘分布。
这样列联表所表现的就是在变量X条件下变量Y的分布,或者是在变量Y的条件下变量X的分布,因此又把列联表中的观察值分布称为条件分布,每个具体的观察值就是条件频数。
例如,一个公司赞成改革方案的职工有68人就是一个条件频数。
为了能在相同的基数上比较,使列联表中的数据提以对变量的联合分布的关系看得更清楚一些。
为了更深入的分析,需引入期望分布的概念。
期望值分布表。
如表3所示。
在全部420个样本中,赞成改革方案的有279人,占总数的66.4%,那么对第一分公司来说,赞成该方案的人数应当为0.664×100=66人,66人即为期望值。
将观察值和期望值频数结合在一起,就可以得到观察值和期望值对比分布表,如表4所示。
就应该有664.04321====ππππ(i π为第i 个分公司赞成改革方案的百分比),对于需要验证这一假设,可以采用2χ分布进行检验。
三、2χ统计量2χ可以用于变量间拟合优度检验和独立性检验,可以利用测定两个分类变量之间的相关程度。
若用0f 表示观察值频数,用e f 表示期望值频数,则2χ统计量为:()∑-=ee f f f 202χ计算2χ统计量的步骤(可见表5): 步骤一:用观察值0f 减去期望值e f 。
步骤二:将()e f f -0之差平方。
步骤三:将平方20)(e f f -结果除以e f 。
步骤四:将步骤三的结果加总。
表5 2χ计算表0fe f()e f f -020)(e f f - 20)(e f f -/e f68 66 2 4 0.060606 75 80 -5 25 0.3125 57 60 -3 9 0.15 79 73 6 36 0.493151 32 34 -2 4 0.117647 45 40 5 25 0.625 33 30 3 9 0.3 31 37 -6 36 0.9729733.031877()∑-=ee f f f 202χ=3.03192χ统计量有这样几个特征:首相2χ≥0,因为它是对平方值结果的汇总。
2021年sas分析方法笔记
Run;
Procprintdata=sasuser.score;
VarnamemathChinese;//变量
Run;
Procprintdata=sasuser.scorenoobs;//去掉第一列(观测序号)
VarnamemathChinese;
Run;
gcontour过程:画出曲面等高线
Procgcontourdata=数据集名;
Plotx*y=z;
Run;
4.基本记录分析
4.1正态性检查:univariate过程
Procunivariatedata=sasuser.stocknormal;
Vareps;
Run;
Procunivariatedata=sasuser.stocknormal;
SymbolI=nonev=star;
PlotEnglish*Chinese;
Run;
3.9gchart过程:绘制直方图、饼图、三维直方图等。
Procgchartdata=数据集名称;
Vbar/pie/block=变量;
Run;
3.10G3D过程绘制三维曲面
Procg3ddata=数据集;
Plot变量x*变量y=变量z;
Run;
Procprintdata=sasuser.score;//使用by分组输出前用sort排序
Bysex;
Run;
Procprintdata=sasuser.score;
Summath;
Run;
3.2tabulate过程
Proctabulatedata=数据集名称;
Class分类变量;
最新SAS数据分析完整笔记(1)资料
SAS数据分析完整笔记。
[收藏]2013-08-11ice数据分析数据分析1. SAS INSIGHT启动:方法1:Solution→Analysis→Interactive Date Analysis方法2:在命令栏内输入insight方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮;Proc insight;Run;1.1 一维数据分析用 sas insight做直方图、盒形图、马赛克图。
直方图:Analysis→Histogram/Bar Chart盒形图:Analysis→Box plot马赛克图:Analysis→Box plot/Mosaic plot(Y)1.2 二维数据分析散点图:Analysis→Scattery plot(Y X)曲线图:Analysis→Line plot( Y X)1.3 三维数据分析旋转图:Analysis→Rotationg Plot曲面图:Analysis→Rotationg Plot设置 Fit Surface等高线图:Analysis→Countor plot1.4 分布分析包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。
1.4. 1 Analysis→Distribution(Y)第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。
1.4.2 添加密度估计A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→Parametric DensityB:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;Curves→Kernel Density1.4.3 分布检验Curves→CDF confidence bandCurves→Test for Distribution1.5 曲线拟合Analysis→Fit(Y X):分析两个变量之间的关系1.6 多变量回归Analysis→Fit(Y X)1.7 方差分析Analysis→Fit(Y X)1.8 相关系数计算Analysis→Multivariate1.9 主成分分析Analysis→Multivariate2.SAS ANALYST启动:方法1:Solution→Analysis→Analyst方法2:在命令栏内输入analyst2.1 分类计算统计量:Data→Summarize by group2.2 随机抽样:Data→Random Sample2.3 生成报表:Report→Tables2.4 变量计算:Date→Transform2.5 绘制统计图2.5.1 条形图:Graph→Bar Chart→Horizontal2.5.2 饼图:Graph→Pie Chart2.5.3 直方图:Graph→Histogram2.5.4 概率图:Graph→Probality plot2.5.5 散点图:Graph→Scatter plot2.6 统计分析与计算2.6.1 计算描述性统计量Statistics →Descriptive→Summart Statistics只计算简单统计量Statistics →Descriptive→Distribution可计算一个变量的分布信息Statistics →Descriptive→Correlations可计算变量之间的相关关系Statistics →Descriptive→Frequency counts可计算频数2.6.2 列联表分析Statistics →Table Analysis2.7假设检验2.7.1单样本均值Z检验:检验单样本均值与某个给定的数值之间的关系Statistics →Hypothesis tests→One-Sample Z-test for a mean2.7.2单样本均值t检验:适用于不了解变量的方差情形推断该样本来自的总体均数μ与已知的某一总体均属μ0是否相等Statistics →Hypothesis tests→ One-Sample t-test for a mean2.7.3单样本比例检验:检验取离散值的变量取某个值的比例Statistics →Hypothesis tests→One-Sample test for a proportion2.7.4单样本方差检验:检验样本方差是否等于给定的值。
SAS讲义1-6
第六章用SAS软件作统计分析本章我们将介绍如何利用SAS软件从事多种统计分析,比如计算分布频数,建立两个或多个变量的交叉表格,作统计描述,计算相关系数,以及作回归分析和方差分析等等。
我们先介绍关于计算分布频数和建立交叉表格的SAS指令。
一、用SAS程式计算分布频数和建立交叉表格:SAS软件的指令PROC PREQ,是专门用于计算分布频数,以及对单变量、双变量交叉和多变量交叉相适应的一般统计分析结果的子程式。
1.单变量的频数计算:频数分布计算指令PROC FREQ,属于SAS程式PROC部分中的指令,必须放在DATA部分的指令之后。
频数计算指令的一般表达式是这样的:TABLES 一个或一组被选定变量名单/B选择指令(可加可不加,通常不加) (可加可不加,视需要而定);选修** “A选择指令”的主要关键词是ORDER,其目的是使频数计算的结果按不同的标志排列打印,有下列几种主要指令可供用户选择:A选择指令意义ORDER=FREQ 按频数分布的大小从大到小排列ORDER=DATA 按数据的出现顺序排列PAGE 一页印一张表格.. (参Legros P48). **下面是一个单变量频数计算的指令实例:如: PROC FREQ; TABLES V1 V5-V10;程式执行后这条指令将产生V1,V5,V6,V7,V8,V9与V10,共七个变量的分变量频数表;在表上将给出以下计算结果:①每一个变量取值的分布频数(调查总体中对应于每一个变量值的样本个数)。
如变量V14,共有“.”,1,2,3四个取值;“.”的有1人,答“1”的有883人,答“2”的有15人,答“3”的有1人。
“. ,1,2,3”累计共900人,即调查总体含900人(参见Legros 附页P62)。
②每一个变量取值在总体中的分布频率。
如上例,答“.”的(拒答或nsp)有1人,其百分比为1/900*100%=0.1%;答“1”的有883人,占883/900*100%=98.1%;答“2”的有15人,占15/900*100%=1.7%;答“3”的有1人,占0.1%。
第六章SAS过程中常用语句
6.5 WEIGHT语句
语句格式: WEIGHT 变量; 功能: 在过程中规定一个数值变量,并以它的值作为观测值的权重。
*
6.6 FREQ 语句
语句格式: FREQ 变量; 功能: 规定一个数值变量,它的值表示数据集中某观测值出现的频数。 说明: 数据集中观测值总数等于FREQ变量的和。
*
例: DATA B; INPUT SEX $ AGE NUMBER; CARDS ; F 20 10 F 22 23 M 21 19 M 22 16 PROC MEANS ; VAR AGE ; PROC MEANS ; FREQ NUMBER ; VAR AGE ;
*
DATA SCORE; LENGTH NAME $ 12; INPUT NAME SEX GROUP $ T1-T3 @@ ; S=SUM(OF T1-T3) ; CARDS; WANGDONG 1 1 90 70 60 XUEPING 2 2 85 95 88 ZHOUHUA 1 1 77 84 69 HEYAN 1 2 95 78 88 SUNHONG 2 3 89 97 87 ZHAOBIN 2 3 66 98 86 PROC FORMAT ; VALUE SEXFMT 1='MALE' 2='FEMALE'; PROC PRINT DATA=SCORE; FORMAT SEX SEXFMT. ; RUN ;
*
*
6.7 ID 语句
语句格式: ID 变量表; 功能: 在输出数据集时,用该语句所规定的变量来识别观测值。 例:PROC PRINT DATA=A; PROC PRINT DATA=A; ID NAME;
*
*
*
sas属性数据分析
(cate21.sas)
21
列联表分析
由原始数据生成列联表的例子
(2) 使用SAS菜单系统“分析员应用”生成 列联表.
首先启动“分析员应用”,并打开SAS数据 集STATCLAS.
① 在“分析员应用”菜单栏目中选 分析(Statistics)=> 表分析(Table Analysis)....
14
列联表分析
属性变量取值的频数表
对属性变量最基本的统计特征就是它可取到的 不同数值及取各个不同数值的频数和概率(频率).
(中学生数据的频数表和条形图.)
15
列联表分析
多个属性变量取值的交叉表
19
列联表分析
由原始数据生成列联表的例子
例2.1 对某个“统计入门”课题,记录了该课程 中所有学生的性别和专业(′是′为统计专业,′非′ 为其他专业).数据见以下SAS程序的数据行.试用编程 方法或菜单系统生成列联表.
27
列联表分析
例2.2 杀人犯的种族是否会影响判处死刑的问 题.对1976至1977年美国佛罗里达州20个地区杀人 案件中的326个被告进行调查.考虑的种族有白人与 黑人;用“是”或“否”表示是否判处死刑.调查后 已把数据整理成表格形式(见下表).试用编程方法 或菜单系统生成列联表.
白人 黑人 是 19 17 36 否 141 149 290
26
列联表分析
有些情况下,已经汇总并得出表格中每个单元 有多少个观测.在收集数据时,也许是先建立一张 表,然后将观测个数记到每个单元中,这样得到的 信息.或许是使用以表格形式发表的数据.如:
白人 黑人 是 19 17 否 141 149
在这种情况下,没有给出样本中每一个个体的观 测数据.为了由这种类型的数据生成一张列联表, 首先建立一个包含所有单元观测个数的数据集, 然后使用带有WEIGHT语句的FREQ过程.
列联表分析
列联表分析【例1】性别与所喜爱颜色的调查表。
双向列联表:性别×颜色【程序】proc freq data=SASUSER.data9_01;tables SEX*COLOR / CHISQ NOPERCENT NOROW;weight F; run;【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业(“是”为统计专业,“非”为其他专业)。
对数据进行整理生成列联表并分析。
【操作:解决方案-分析-分析家调入数据统计-表分析】【程序】*** Table Analysis ***;proc freq data=SASUSER.data9_03;tables SEX*MAJOR;run;【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary)/薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary)/薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教育年限。
试作三向、四向、五向列联表。
【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表)*** Table Analysis ***;proc freq data=SASUSER.data9_05;tables GENDER*SALARYRANK*JOBCAT; run;【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进行统计(生成18张表)*** Table Analysis ***;proc freq data=SASUSER.data9_05;tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run;【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。
SPSS列联表分析
例3: 以下是胃癌真菌病因研究中3种食物样品的真菌检出率,比较3种食物真菌检出率有无差异.
本例中SPSS提示没有理论频数小于5,且最小的理论频数为8.00,故直接选择Pearson 卡方结果,即χ2=22.841,P<0.001,提示三种食物中真菌检出率不同.此时还需要进一步考虑三种食物真菌检出率到底谁与谁之间的差异存在统计学意义,这里就需要用到卡方分割,通俗讲就是把RC列联表拆分成若干个四个表分别进行χ2检验,进而判断不同组两两比较差异是否用统计学意义,但是因为多组比较可能会增加犯I类错误概率,所以还需要对χ2检验的P值进行校正.常用Bonferroni法进行校正,本例中需要进行3次两两比较,校正的检验水准α=0.05/比较次数=0.05/3=0.0167,即当两两比较P<0.0167才能认为差异有统计学意义.
Kappa一致性检验
1、Kappa检验旨在评价两种方法是否存在一致性,或者是同一个研究者先后两次的诊断结果 2、Kappa检验会利用列联表的全部数据 3、Kappa检验可计算Kappa值用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方法诊断结果是否有差别 2、配对χ2检验只利用“不一致“数据,如表中b和c 3、配对χ2检验只能给出两种方法差别是否具有统计学意义的判断
无效 疗效=1
好转 疗效=2
显效 疗效=3
治愈 疗效=4
合计
有效率%
甲法
24
26ห้องสมุดไป่ตู้
72
186
308
92.2
乙法
20
16
24
32
92
78.3
丙法
20
22
14
22
sas分析方法笔记
SAS数据分析笔记1.SASINSIGHT启动:方法1:Solution→Analysis→InteractiveDateAnalysis方法2:在命令栏内输入insight方法3:程序编辑窗口输入以下代码,然后单击Submit按钮;Procinsight;Run;1.1一维数据分析用sasinsight做直方图、盒形图、马赛克图。
直方图:Analysis→Histogram/BarChart盒形图:Analysis→Boxplot马赛克图:Analysis→Boxplot/Mosaicplot(Y)1.2二维数据分析散点图:Analysis→Scatteryplot(YX)曲线图:Analysis→Lineplot(YX)1.3三维数据分析旋转图:Analysis→RotationgPlot曲面图:Analysis→RotationgPlot设置FitSurface等高线图:Analysis→Countorplot1.4分布分析包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。
1.4.1Analysis→Distribution(Y)第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。
1.4.2添加密度估计A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→ParametricDensityB:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;Curves→KernelDensity1.4.3分布检验Curves→CDFconfidencebandCurves→TestforDistribution1.5曲线拟合Analysis→Fit(YX):分析两个变量之间的关系1.6多变量回归Analysis→Fit(YX)1.7方差分析Analysis→Fit(YX)1.8相关系数计算Analysis→Multivariate1.9主成分分析Analysis→Multivariate2.SASANAL YST启动:方法1:Solution→Analysis→Analyst方法2:在命令栏内输入analyst2.1分类计算统计量:Data→Summarizebygroup2.2随机抽样:Data→RandomSample2.3生成报表:Report→Tables2.4变量计算:Date→Transform2.5绘制统计图2.5.1条形图:Graph→BarChart→Horizontal2.5.2饼图:Graph→PieChart2.5.3直方图:Graph→Histogram2.5.4概率图:Graph→Probalityplot2.5.5散点图:Graph→Scatterplot2.6统计分析与计算2.6.1计算描述性统计量Statistics→Descriptive→SummartStatistics只计算简单统计量Statistics→Descriptive→Distribution可计算一个变量的分布信息Statistics→Descriptive→Correlations可计算变量之间的相关关系Statistics→Descriptive→Frequencycounts可计算频数2.6.2列联表分析Statistics→TableAnalysis2.7假设检验2.7.1单样本均值Z检验:检验单样本均值与某个给定的数值之间的关系Statistics→Hypothesistests→One-SampleZ-testforamean2.7.2单样本均值t检验:适用于不了解变量的方差情形推断该样本来自的总体均数μ与已知的某一总体均属μ0是否相等Statistics→Hypothesistests→One-Samplet-testforamean2.7.3单样本比例检验:检验取离散值的变量取某个值的比例Statistics→Hypothesistests→One-Sampletestforaproportion2.7.4单样本方差检验:检验样本方差是否等于给定的值。
统计学教程(含spss)六 列联分析
32
45
33
31
141
合计
100
120
90
110
420
自由度=
R 1C 1 2 14 1 3
列联表中的卡方检验
自由度用以衡量列联表的大小。
3×4列联表 C1 R1 R2 R3
合计 合计
C2 f12 f22 f32 CT2
C3 f13 f23 f33 CT3
C4 f14 f24 f34 CT4
查表得临界值: 0.05 经计算: 结论:
2
2 5.99 f 0 f e 2 6.13 5.99
fe
拒绝 “男性与女性啤酒偏好相同”的原假设并接 受“男性与女性啤酒偏好不同”的备择假设。即啤酒的 偏好与性别是有关联的。
列联表中的相关性测量
Φ相关系数 C相关系数 V相关系数
a bc d a c a d
于是得:
ad bc a bc d a c b d
0 1
Φ相关系数
完全相关的两种情况
2×2列联表 C1 R1 R2 C2
2×2列联表
合计
a+b c+d
R1 R2
C1
C2
合计
a+b c+d
淡啤
男性 女性 合计 20 30 50
普啤
40 30 70
黑啤
20 10 30
合计
80
总比率: 70 150
淡 啤
50 100% 33.3% 150
普 啤 黑 啤
70 100% 46.7% 150
30 100% 20.0% 150
SAS编程:列联表分析
SAS 统计分析与应用 从入门到精通 一、简单相关分析 一、属性数据与列联表 3、FREQ过程
语句说明: (1)PROC语句用于规定运行FREQ过程,并指定要分析的数据集 名。 (2)TABLES语句用于对规定的变量进行频数统计,并生成列联表。 如果不使用TABLES语句,则FREQ过程对数据集中的每个变量都生成 一个单项频数表。 (3)WEIGHT语句规定的变量用于表示观测的频数,使得FREQ过 程在计算频数时将读入的每个观测作为次观测处理,其中为WEIGHT变 量的值。 (4)BY语句规定了分组变量,它使得FREQ过程对分组内进行处 理。在使用BY语句前,应对数据集按照分组变量进行排序。
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
3、相对风险和优势比
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
3、相对风险和优势比
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
4、FREQ过程
FREQ过程除了用来进行频数统计并生成列联表外,还可以用来对 列联表进行关联性分析。FREQ过程的语句格式与上一节完全相同,只 是通过指定TABLES语句中的选项来实现关联性。
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
1、关联性的检验
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
2、关联性的度量
SAS 统计分析与应用 从入门到精通 一、列联表的关联性分析
3、相对风险和优势比
在实际问题中,我们最常使用的就是列联表,而且常常用行变量来 表示两组样本(例如,吸烟与不吸烟的人群),用列变量来表示某项结 果的两种可能性(例如,患有肺癌与没有肺癌)。 在这种情况下,我们还可以使用其他一些的统计量来描述变量间的 关联性,如相对风险和优势比等。
SAS应用基础6-2 相关分析
相关分析是讨论分析变量之间是否有明显相关关系的 重要工具,主要用于测定两变量在数量关系上的密 切程度和性质。
相关关系是指在一定范围内,一个变量任一取值xi,虽然 没有另一变量的某个确定值yi与之对应,但却有一个 特定的yi的条件概率分布与之对应,只要有这种关系 存在,我们就称变量x,y有相关关系。
利用克莱姆法则,得出普通最小二乘估计
(OLSE: ordinary least square estimators)
ˆ1 17
ˆ0 yˆ1x
(xi (xxi )(xyi)2y)
(xiyi)nxy (xi2)nx2
REG 过程
最常用的回归过程是REG 过程,它的使用方法是: PROC REG DATA=输入数据集 [选项]; VAR 变量列表; MODEL 因变量自变量列表; [PRINT 输出结果;] [PLOT 诊断图形;] RUN;
18
Reg示例
对数据集stock分析股价price与每股收益eps、流通量 scale的线性关系。调用REG 过程:
proc reg data=stock; var eps scale price; model price=eps scale; run;
Root MSE:残差标准差,反映回归方程的精度,其值 越小说明回归效果越好;
例如,在农业试验中,对两块种有小麦的完全相同的土地, 第1 块施以化肥A ,第2 块施以化肥B ;第1 块使用种子 C,第2 块使用种子D。在两块土地中,又分别分为10 小 块,这样经过一段时间后得到了20 个不同的亩产值。 如何通过这些值来判断化肥、种子是否具有明显差 异呢?这就是一个典型的方差分析问题。化肥、种子 便是其中的因素,每个因素的取值只有几个。
列联表分析spss步骤
【Exact钮】
• 针对2*2以上的行*列表设定计算确切概 率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo) 或确切计算(Exact)。蒙特卡罗模拟 默认进行10000次模拟,给出99%可信 区间;确切计算默认计算时间限制在5 分钟内。这些默认值均可更改。
【Statistics钮】
• 弹出Statistics对话框,用于定义所 需计算的统计量。
• o Chi-square复选框:计算X2 值。
• o Correlations复选框:计算行、 列两变量的Pearson相关系数和 Spearman等级相关系数。
• o Norminal复选框组:选择是 否输出反映分类资料相关性的指标, 很少使用。
Crosstabs过程不能产生一维频数表(单变 量频数表),该功能由Frequencies过程实现。
界面说明
【Rows框】 • 用于选择行*列表中的行变量。 • 【Columns框】 • 用于选择行*列表中的列变量。 • 【Layer框】 • Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中
注意事项
• 如何选用上面众多的统计结果令许多初学 者头痛,实际上我们只需要在
• 未校正卡方、 • 校正卡方和 • 确切概率法 三种方法之间选择即可,其余的对我们而言
用处不大,可以视而不见。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.
Data==>Weight Cases
SAS应用基础6-3 属性数据分析(共25张PPT)
5
第五页,共25页。
属性(shǔxì制ng作)数:据ZX分D 析
• 常见的属性数据分析形式主要有单向表、双向 表、多向表三种。
• 单向表:由一个属性变量(biànliàng)对总体或 调查数据进行分组构成单向表或称一维分组表。
2
第二页,共25页。
区间(qū j制iān作)型:变ZXD量
• 所谓区间型变量是指本来的屈指范围可以是一 个连续的数值区间,它可细分为间隔型和比率 型。
• 间隔型—数值无绝对零点,间隔有意义,倍数无 意义,只能(zhī nénɡ)做加减不能做乘除。
• 比率型—数值有绝对零点,可进行四那么运算.
3
第三页,共25页。
• proc freq data=table-name;
• tables var-names;
• run;
• 多向表:由两个以上属性变量(biànliàng)构成 的表称多向表,也称多向交叉表或多维表。多 向表通常化为双向表进行分析。
6
第六页,共25页。
双向表〔列联表〕
制作:ZXD
RC双向表数据结构的一般形式
22
第二十二页,共25页。
Fisher精确(jīngquè)检验(当总例数
<制40作) :ZXD
data a; input smoke$ cancer$ num@@; cards; 吸烟(xī yān) 患病 12 吸烟(xī yān) 未患 7 不吸烟(xī yān) 患病 6 不
吸烟(xī yān) 未患 8 ; proc freq; tables smoke*cancer /exact; weight num; run;
sas简单操作步骤
SAS数据分析完整笔记1. SAS INSIGHT启动:方法1:Solution→Analysis→Interactive Date Analysis方法2:在命令栏内输入insight方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮;Proc insight;Run;1.1 一维数据分析用 sas insight做直方图、盒形图、马赛克图。
直方图:Analysis→Histogram/Bar Chart盒形图:Analysis→Box plot马赛克图:Analysis→Box plot/Mosaic plot(Y)1.2 二维数据分析散点图:Analysis→Scattery plot(Y X)曲线图:Analysis→Line plot( Y X)1.3 三维数据分析旋转图:Analysis→Rotationg Plot曲面图:Analysis→Rotationg Plot设置 Fit Surface等高线图:Analysis→Countor plot1.4 分布分析包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。
1.4. 1 Analysis→Distribution(Y)第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。
1.4.2 添加密度估计A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→Parametric DensityB:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;Curves→Kernel Density1.4.3 分布检验Curves→CDF confidence bandCurves→Test for Distribution1.5 曲线拟合Analysis→Fit(Y X):分析两个变量之间的关系1.6 多变量回归Analysis→Fit(Y X)1.7 方差分析Analysis→Fit(Y X)1.8 相关系数计算Analysis→Multivariate1.9 主成分分析Analysis→Multivariate2.SAS ANALYST启动:方法1:Solution→Analysis→Analyst方法2:在命令栏内输入analyst2.1 分类计算统计量:Data→Summarize by group2.2 随机抽样:Data→Random Sample2.3 生成报表:Report→Tables2.4 变量计算:Date→Transform2.5 绘制统计图2.5.1 条形图:Graph→Bar Chart→Horizontal2.5.2 饼图:Graph→Pie Chart2.5.3 直方图:Graph→Histogram2.5.4 概率图:Graph→Probality plot2.5.5 散点图:Graph→Scatter plot2.6 统计分析与计算2.6.1 计算描述性统计量Statistics →Descriptive→Summart Statistics只计算简单统计量Statistics →Descriptive→Distribution可计算一个变量的分布信息Statistics →Descriptive→Correlations可计算变量之间的相关关系Statistics →Descriptive→Frequency counts可计算频数2.6.2 列联表分析Statistics →Table Analysis2.7假设检验2.7.1单样本均值Z检验:检验单样本均值与某个给定的数值之间的关系Statistics →Hypothesis tests→One-Sample Z-test for a mean2.7.2单样本均值t检验:适用于不了解变量的方差情形推断该样本来自的总体均数μ与已知的某一总体均属μ0是否相等Statistics →Hypothesis tests→ One-Sample t-test for a mean2.7.3单样本比例检验:检验取离散值的变量取某个值的比例Statistics →Hypothesis tests→One-Sample test for a proportion2.7.4单样本方差检验:检验样本方差是否等于给定的值。
SAS-6.pdf
返回总目录目 录第31章一般线性模型统计程序PROC GLM (3)31.1 PROC GLM 程序概述 (3)31.2 统 计 模 型 (3)31.3 如何撰写 PROC GLM 程序 (4)31.4 用 PROC GLM 执行回归分析 (20)31.5 用PROC GLM 执行单变量变异数分析 (20)31.6 用PROC GLM 程序执行多变量变异数分析 (20)31.7 范 例 (20)31.8 注 意 事 项...............................................................................................................36第32章 离差平方和(SS)的四种类型及其函数.. (43)32.1 四类型的 SS 是什么................................................................................................4332.2在变异数分析里哪些线性函数是可估计的 (43)32.3 一因子的变异数分析 (44)32.4 三因子变异数分析与其主效果的参数估计 (45)32.5 复回归分析与其统计模型 (46)32.6 第一型离差平方和与其函数 (47)32.7 第二型离差平方和与其函数 (48)32.8 第三型离差平方和与其函数 (50)32.9 第四型离差平方和与其函数 (51)32.10 四型离差平方和的比较 (52)第六部分一般线性模型与四型离差平方和第31章 一般线性模型统计程序PROC GLM 31.1 PROC GLM 程序概述GLM 是一般线性模型 (General Linear Model) 的简称其推算参数的理论基础是最小误差平方法 (The Least Squares Method)最适用于不平衡的实验设计亦即各组 (或各细格)的观察体个数不等若你的实验是一个平衡的实验设计则你应该用 ANOV A 程序 (见第 26 章) 来执行变异数分析以节省计算的时间与电脑的记忆空间PROC GLM 可以被应用在多种不同的统计分析上如a. 变异数分析 (特别是不平衡的实验设计)b. 共变量分析 (Analysis of Covariance)c. 极多变量变异数分析 (MANOV A)d. 重复观察的变异数分析 (又称 Split-Plot Factorial Analysis)e. 一元回归分析f. 复回归分析g. 极多项式回归分析 (Polynomial Regression)h. 加权回归分析 (Weighted Regression)i. 二项式反应面分析 (Response Surface Modeling)j.净相关的计算等本章的重点在于介绍PROC GLM 内有关变异数分析的指令 (亦即上述a 到d 的用法)至于GLM 程序在回归分析上的应用上述e 到j 的用途则与PROC REG 的基本语法类似请参阅第18章的内容或本章第31.4节31.2 统 计 模 型欲详细了解有关变异数分析之统计模型的专有名词请读者参阅第 26 章 (ANOV A)内第 26.2 及第 26.3 节以下简单介绍 PROC GLM所能处理的几种模型若以 A B C 等字母代表实验设计的自变量Y 代表因变量 X1X2 与 X3 代表连续变量则 PROC GLM 可处理的几种变异数分析之模型及其 SAS 指令如下实验设计 S AS 指令一因子的变异数分析 MODEL Y = A;主效果模型 MODEL Y = A B C;交互效果模型 MODEL Y = A B A*B;镶嵌效果模型 MODEL Y = B(A) C(B A);极多变量变异数分析 MODEL Y1 Y2 = A B;共变量分析 MODEL Y = A X1;第六部分 一般线性模型与四型离差平方和4 组内斜线模型 MODEL Y = A X1(A);共斜线模型 NODEL Y = A X1 X1*A;31.3 如何撰写 PROC GLM 程序PROC GLM 含十七道指令其中只有 PROC GLM 和 MODEL 是必要的不可省略其他十五道指令则可有可无但当实验设计内含一个以上的自变量时读者必须用CLASS 指令标明下面请读者特别注意各指令出现的次序PROC GLM 选项串CLASS 自变量名称串MODEL因变量串= 实验效果 /选项串MEANS 效果名称串 /选项串CONTRAST '比较式的名字' 各组效果的系数据/ 选项ESTIMATE '估计值的名字' 各组效果的系数据/选项串LSMEANS 效果名称串 /选项串MANOVAH= 效果名称E= 效果名称M= 变量的转换式PREFIX = 新变量的名称代号MNAMES=新变量的名称串/选项串OUTPUT OUT=输出资料文件名称关键字=变量名称串RANDOM 效果名称串 /选项串REPEA TED 重复变量的名称串组数 (组名)变量的转换 /选项串TESTH= 效果名称串E= 效果名称 /选项串ABSORB变量名称串BY 变量名称串FREQ 变量名称ID变量名称串WEIGHT 变量名称指令之后一处RUN 指令之前指令之后第31章 一般线性模型统计程序 PROC GLM 55下面是除 PROC GLM 以外其余十六道指令的功能简介PROC GLM 指令功能简介 CLASS标明自变量 MODEL界定统计模型 MEANS 计算各组的平均数CONTRAST 以线性方程序重新组合参数据执行检定ESTIMA TE 检验参数的线性组合LSMEANS 计算根据最小误差法求得的平均数MANOV A 执行多变量变异数分析OUTPUT 界定一个输出资料文件使其包含预测值与预测误差RANDOM宣告某些效果是随机效果然后计算它的变异数的均方REPEA TED 执行重复观察之实验设计的变异数分析TEST 检定某些实验效果时界定检定的分子与分母ABSORB 简化模型中的主效果 BY 将资料文件分成几个部分分别对其执行统计分析 FREQ 表明观察体重复出现的次数ID 观察体的识别编号WEIGHT 与 FREQ 作用类似旨在标明数据的加权值下面将对这些指令作详尽的介绍指令 #1 PROC GLM 选项串在此指令后有下列六选项(1) DATA= 输入资料文件名称指明对那一个 SAS资料文件执行分析若省略此选项则 SAS 会自动找出在此程序前最后形成的 SAS 资料文件并对它执行分析(2) ORDER= FREQ 或ORDER= DATA 或ORDER= INTERNAL 或ORDER= FORMATTED (内设值)界定自变量内组别的次序这个选项和 CONTRAST 及 ESTIMATE 指令是息息相关的当 ORDER=FREQ 时观察体个数最多的那一组就是第一组以下类推当 ORDER=DATA时组别是按照输入资料文件中各组第一次出现的次序而决定的当 ORDER=INTERNAL时组别按其代号由小到大 (如123等)排列或按各组名称的英文字母顺序排列 (如FEMALE 在 MALE 之前)当 ORDER=FORMATTED 时则组别的顺序以外部的格式 (External Format) 而决定这也是本选项的内设值第六部分 一般线性模型与四型离差平方和6(3) MANOV A 要求 PROC GLM 将含一个或一个以上遗漏数据的观察体剔除当读者以交互式(Interactive Mode)方式进行多变量的变异数分析时最好界定此选项(4) MULTIPASS要求 PROC GLM 在必要情况下重读输入资料文件内的数据由于这个选项会占用极多的记忆空间同时耗时很多除非必要读者可以省略此选项(5) OUTSTAT=(含分析结果的) 输出资料文件名称这个选项会界定一个含分析结果的输出资料文件此输出资料文件将含离差平方和 (SS)F 检定值以及各实验效果的显著程度若读者同时界定 MANOV A 指令中的 CANONICAL 选项但未界定 M= 的选项则典型相关分析的结果也会纳入此输出资料文件内(6) NOPRINT要求 PROC GLM 抑止分析结果在报表上的打印除非读者只想制造某些输出资料文件而不太想看到分析的结果否则这个选项不太有用指令 #2 CLASS 自变量名称串这道指令也可以写成 CLASSES自变量名称串此指令标明资料文件中到底哪些是统计模型的自变量这些自变量可以是数值的或文字的若是文字变量则其长度不可超过十六个字母指令 #3 MODEL 因变量串实验效果选项串删除号 (/)之前的部分(因变量串实验效果) 要求你必须先决定何种统计模型适用于你现在要分析的数据然后根据 26 章 (ANOV A) 第 26.3 节的原则将它写出删除号 (/) 后的选项可分五大类来讨论第一类选项 与截距的界定有关有两个选项(1) NOINT要求 GLM 程序将截距 (常数) 的参数排除在模型之外(2) INT (或 INTERCEPT)要求 GLM 程序印出截距的统计检定第二类选项 与报表的打印有关有三个选项(1) NOUNI此选项抑止有关单变量变异数分析之结果的打印最适用于多变量或重复观察的变异数分析(2) SOLUTION要求 GLM 程序印出常态公式的解 (亦即一般线性模型中参数的估计)当省略CLASS 指令时GLM 程序会自动印出此解(3) TOLERANCE印出容忍量其定义是 1-R2在此 R 2=复相关系数的平方有关容忍量的详细解释请见第 17 章第 17.4 节第31章 一般线性模型统计程序 PROC GLM 77第三类选项 与虚无假设的检定有关有九个选项(1) E要求 GLM 程序印出所有可估计函数 (Estimable Functions)的值(2) E1要求 GLM 程序只印出每一效果的第一型可估计函数值 (Type Estimable Function)(3) E2要求 GLM 程序只印出每一效果的第二型可估计函数值 (Type Estimable Function)(4) E3要求 GLM 程序只印出每一效果的第三型可估计函数值 (Type Estimable Function)(5) E4要求 GLM 程序只印出每一效果的第四型可估计函数值 (Type Estimable Function)(6) SS1要求 GLM 程序只印出每一效果的第一型离差平方的总和 (Type Sum of Squares)(7) SS2要求 GLM 程序只印出每一效果的第二型离差平方的总和 (Type Sum of Squares)(8) SS3要求 GLM 程序只印出每一效果的第三型离差平方的总和 (Type Sum of Squares)(9) SS4要求 GLM 程序只印出每一效果的第四型离差平方的总和 (Type Sum ofSquares)若读者已选用E1E2E3 或E4则 GLM 会自动印出与其相对应的 SS1SS2SS3SS4这一类选项的内设值是 E1E3或 SS1SS3第四类选项下列两个选项控制计算过程的打印(1) XPX要求印出 (X'X)的向量积矩阵(2) INVERSE (或 I)要求印出 (X'X) 的反矩阵或 (X'X) 之通用式反矩阵 (Generalized Inverse Matrix)第五类选项 可用来调整统计的精确性有一个选项(1) ZETA= 极小的正实数ZETA 选项控制第三型与第四型可估计函数值之可估计性检定的敏感度此选项的内设值是 10 的 -8 次方这个内设值足以应付大多数的模型检定第六部分 一般线性模型与四型离差平方和8指令 #4 MEANS 效果名称串选项串此指令的前半部 (删除号之前) 可用来要求 GLM 程序算出某些自变量 (和其交互作用或镶嵌作用) 中各组 (各细格) 的平均数 比方说SEX 表示性别 (下分男女)RACE 表示种族 (下分黑白)则我们可用下列的 SAS 指令算出资料文件中男人女人黑人白人男黑人男白人女黑人及女白人在因变量年薪 (SALARY) 上的平均数PROC ANOVA; CLASS SEX RACE; MODEL SALARY=SEX RACE; MEANS SEX RACE SEX*RACE; 删除号 (/) 之后可用的选项有二十七个前十七个选项是用来对 MEANS 指令中所列的主效果执行不同的显著性考验以前例而言MEANS 指令会比较男与女及黑人与白人之间的年薪差异后十个选项则与统计检定的各项事宜有关(1) BON执行显著性 t 检定其理论基础是班弗尼氏的不等律 (Bonferroni Inequality)(2) DUNCAN执行唐肯氏多范围检定 (Duncan's Multiple-Range Test)(3) DUNNETT (控制组组别)这个选项界定唐那氏的两组平均数之双尾检定唐那氏 (Dunnett) 的检定依据 t 分配而且必须是实验组与控制组平均数的比较因此括号内必须指明控制组的组别请看下面的程序 MEANS A/DUNNETT ('CONTROL');根据这个指令的语法 A 效果的CONTROL 组就是控制组若控制组的组别是以数字来表示的 (如 2)则不必再加单引号如MEANS A/DUNNETT (2);这个选项的控制组一般是设定在一组 (内设值)若控制组不只一组时读者可同时在括号内提及如 MEANS A B C/DUNNETT ('FIRST' 'SECOND' 'THIRD');根据上述指令的语法 A 效果的控制组是第 FIRST B 效果的控制组是第SECOND 组 C 效果则是第 THIRD 组(4) DUNNETT L (控制组组名)这个选项界定唐那氏的两组平均数之单尾检定而且预期的差异必须是负值 (亦即实验组的平均数小于控制组的平均数)因此临界值定在 t 分配的下端有关控制组的内设值以及撰写语法请参见上面 (3) DUNNETT 的说明(5) DUNNETTU (控制组组名)这个选项界定唐那氏的两组平均数之单尾检定而且预期的差异必须是正值 (亦第31章 一般线性模型统计程序 PROC GLM 99即实验组的平均数大于控制组的平均数)因此临界值定在 t分配的上端有关控制组的内设值以及撰写语法请参见上面 (3) DUNNETT 的说明(6) GABRIEL执行贵博氏的多重比较 (Gabriel's Multiple Comparison Procedure)(7) REGWF执行 Ryan-Einot-Gabriel-Welsch 的 F检定(8) REGWQ执行 Ryan-Einot-Gabriel-Welsch 的 t 检定(9) SCHEFFE 执行沙菲氏的多重比较检定(10) SIDAK执行 Sidak 两组平均数比较的 t 检定(11) SMM [或 (12) GT2]执行 Sidak 的独立样本 t 检定当两组人数不等时此法也就是哈氏 (Hochberg)的GT2法(13) SNK执行纽曼-库尔 (Newman-Keuls) 的两组样本平均数差的 t 检定(14) T [或 (15) LSD]执行配对组 t 检定因为 GLM 程序所处理的可能是不平衡的设计故其结果与费契尔的最小显著差 (LSD) 的检定结果不一定完全相同(16) TUKEY执行土其氏的 HSD检定(17) WALLER执行 Waller-Duncan 的 K-ratio 之 t 检定(18) ALPHA=P 界定统计检定的显著程度内设值是 .05当此选项与前述选项 (2) DUNCAN 并用时ALPHA 的值必须是.10.05及 .01 三者之一(19) LINES将读者选用的显著性检定的分析结果 (亦即各平均数) 做由大到小的排列若某一对平均数之间无显著的差异则 SAS将它们印在同一行上并以虚线将它们与其他有显著差异的平均数分开当读者选用 DUNCAN REGWF REGWQ SNK 或 W ALLER 等显著性检定 (或当实验设计是平衡或当实验设计只含两细格时)此选项会自动包括在分析过程内否则读者必须另外附加再者此选项最适用于平衡的实验设计若细格内的人数不等GLM 程序会先计算出各细格人数的调和平均数(Harmonic Mean)并用此调和平均数来比较主效果的平均数差异然而若各细格内的人数差异太大时某些比较的显著结果会过于乐观(20) CLDIFF将 BON GABRIEL SCHEFFE SIDHK SMM GT2T LSD 或 TUKEY 等显著性检定的结果用信赖区间的方式表示当实验设计是一个不平衡的设计时第六部分一般线性模型与四型离差平方和10CLDIFF 选项会自动包括在分析过程内当读者选用 DUNCAN REGWFREGWQ SNK 或 W ALLER 时则必须另外附加此选项(21) CLM将 MEANS 指令中所提到的效果之各组平均数以信赖区间的方式表示此选项必须与BON GABRIEL SCHEFFE SIDAK SMM T 以及 LSD 等联用(22) NOSORT与上述 CLDIFF 或 CLM 选项合用抑止平均数按大小重新作排列(23) E=效果名称此选项界定上述各显著性检定的分母若省略此选项则实验设计的余差均方值(MSResidual) 就自动成为分母(24) DEPONL Y要求 GLM 程序只印出因变量的平均数若省略此选项则 GLM 程序会印出资料文件中所有连续变量的平均数(25) ETYPE=1 (或 2或 3或 4)界定 F 检定中分母矩阵的均方 (Mean Square) 类型内设值是分析检定中最高的一型(26) HTYPE=1 (或 2或 3或 4)与前述 W ALLER 选项并用此选规界定 F 检定中分子矩阵的平均方类型内设值是分析检定中最高的一型(27) KRATIO=正整数与 W ALLER 选项联用这个比例 (第一类型错误第二类型错误) 的值若订为50100与 500则大约与 ALPHA 值 .10.05 与 .01 相对应这个选项的内设值是 100指令 #5 CONTRAST 比较式的名字各组效果的系数选项串请读者仔细阅读下页几个示范的例子以便了解这个指令的格式首先我们假设有一个二因子的主效果实验设计 A 分为五组 B 分为两组MODEL Y= A B;CONTRAST 'A LINEAR & QUADRATIC'A -2 -1 0 1 2A 2 -1 -2 -1 2;CONTRAST 'CONTROL VS OTHERS'A -1 .25 .25 .25 .25;CONTRAST 'ONE VS TWO' B -1 1;由上例我们可以归纳出几点原则比较式的名字必须放在单引号内名字的长度以二十个字母为限命名的方式不拘但不可夹带分号 ( )各组效果系数前必须先注明所要比较的效果这些效果必须是 MODEL 指令中出11现过的如上例中我们不能比较 A*B 的交互效果因为 MODEL 指令中无此效果这些系数的总和必须是 0而且只能是整数或小数 (SAS 不接受任何分数作为系数)各系数之间要以空格隔开若同一个 CONTRAST 指令内含一个以上的比较式则以逗号 将系数串隔开删除号 (/) 后的选项有四(1) E印出线性函数的向量L(2) E= 效果名称界定以 E 的效果为 CONTRAST 指令中 F 检定的分母内设值是误差的平均方(MS Error)(3) ETYPE= 1(或2或3或4)计算选项 E= 效果名称中效果的离差均方之类型(4) SINGULAR=极小的正实数 (如 0.007)这个选项用来检定 CONTRAST 指令所导出的线性函数是否为可估计的(Estimable)其检定的标准如下以 i 代表 L (线性函数之矩阵) 的某一横列H=(X'X)-1X'X如果下式成立则 L i 的值被 SAS 认为不能估计出来若 L i = 0而且 ABS[L i -(LH)i ]> 极小的正实数 (如 0.007)或适当 L i 0而且 ABS[L i -(LH)i ] >ABS(L i )*极小的正实数 (如 0.007)这个选项的内设值等于 10 的 -4 次方指令 #6 ESTIMATE 估计值的名字各组效果的系数选项串这个指令与上述的 CONTRAST 指令类似它们遵循同样的原则但除此之外ESTIMATE 指令还可印出 t 检定的值t 检定的分母 (即平均误差的值)以及其统计显著程度请看下面的例子MODEL Y = A:ESTIMATE 'A1 VS A2' A 1 -1;ESTIMATE '1/3(A1+A2)-2/3 A3' A 1 1 -2/DIVISOR= 3; ESTIMATE '1/3(A1+A2)-2/3 A3' A .33333 .33333 -.66667; 上面第二和第三式的意义完全相同现在让我们来讨论删除号 (/) 后的三个选项(1) DIVISOR= 整数GLM 用此整数当做分母来除删除号前的效果系数(2) E印出线性函数的向量L(3) SINGULAR= 极小的正实数以此数为标准检定 ESTIMATE 指令所导出的线性函数是否为可估计的(Estimable)其检定标准与前述 CONTRAST 指令中同一选项完全一致故不再赘述内设值也等于 10 的 -4 次方指令 #7 LSMEANS 效果名称串选项串LSMEANS 是以最小误差平方法所估计之平均数的代称 (英文称Least SquaresMeans)下页示范 LSMEANS 的语法PROC GLM; CLASS A B; MODEL A B A*B;LSMEANS A A*B;上面的程序指示 SAS 以最小误差平方法估计 A 及 A*B 两效果内各组(或各细格)的矫正平均数好似整个实验设计是一个平衡的设计请注意LSMEANS 指令里所提的效果必须是 MODEL 指令里已经提过的效果删除号 (/) 后的选项有十个分述如下(1) E印出最小误差平方平均数计算过程中所用到的可估计函数值有关 E 的定义在下一章 (第 32 章) 内有详细的说明(2) STDERR印出 t检定 (H0LSM= 0) 的分母与其显著程度(3) TDIFF印出各平均数对比较的 t 值以及其统计显著程度(4) PDIFF印出各平均数对比较后的统计显著程度与上述 (2) STDERR 不同(5) E= 效果名称须与上述 STDERR TDIFF 及 PDIFF 等选项合用作用在于指定某一个效果的平均方做为t 检定的分母若读者选用 STDERR TDIFF 及 PDIFF 选项但省略此选项则 GLM 自动以误差的平均方 (MS Error) 为 t 检定的分母(6) ETYPE=1 (或 2或 3或 4)计算选项 E=效果名称 中效果的离差平均方之类型(7) SINGULAR=极小的正实数以此数为标准检定 LSMEANS 指令所导出的线性函数是否为可估计的(Estimable)其检定标准与前述 CONTRAST 指令中同一选项完全一致故不再赘述内设值也等于 10的 -4 次方(8) OUT= 输出资料文件名称界定一个输出资料文件内含 LSMEANS 指令所导出的矫正平均数平均数的标准误差以及平均数间的共变异数 (如果读者同时界定下一个选项 COV)13(9) COV要求将矫正平均数之间的共变异数纳入上述 OUT= 输出资料文件内此选项必须与 OUT=选项联用而且 LSMEANS 的效果必须只有一个(10) NOPRINT要求 GLM 程序不将分析的结果打印在报表上如果读者撰写 LSMEANS 指令的目的只是为了产生一个 OUT= 的输出资料文件则此选项会十分有用指令 #8 MANOVA H 效果名称 E 效果名称 M 变量的转换式PREFIX 新变量的名称代号MNAMES 新变量的名称串选项串此指令要求多变量变异数分析 (MANOV A)同时也导致一种对遗漏数据的特殊处理法下面分别介绍此指令的各部分(1) H= 效果名称 (或 _ALL_ 或 INTERCEPT)界定多变量变异数分析所检验的假设矩阵H=的效果必须已被包含在 MODEL 指令里当读者有意通盘地对 MODEL 指令中所提到的所有效果执行多变量变异数分析时则可用H=_ALL_ 表示在 GLM 程序中这些效果将经由四种方法进行多变量变异数分析亦即Hotelling-Lawley Trace Pillai's Trace Wilks'Criterion 和 Roy's MaximumRoot Criterion 这四种分析的结果仍依据 F 分配来判断其显著程度当H=INTERCEPT 时表示读者有意对模型中的截距或总平均数 (Grand Mean) 作统计的检定(2) E= 效果名称界定 F 检定的分母若省略此选项则余差的平均方 (MS Residual) 就自动成为分母(3) M=变量的转换式界定因变量的转换式下例示范这个转换式的写法 MODEL Y1-Y5=A B(A);MANOVA H=A E=B(A) M=Y1-Y2, Y2-Y3, Y3-Y4, Y4-Y5PREFIX=DIFF;上列的指令将原有的因变量转换成相邻两平均数的差转换式的格式是M = 转换变量 {±转换变量....}此处的转换变量可以是原始变量或常数乘以原因变量{}中的部分可有可无若含一个以上的转换式则以逗点 ( ) 相隔(4) PREFIX=新变量名称代号在上面的例子中由于有 PREFIX=DIEF 这个选项因此新变量将被命名为DIFF1DIFF2DIFF3 及 DIFF4请注意这个名称代号必须是八个字母以内的名字数字 1 2 等分别与转换式 1 2 等对应(5) MNAMES=新变量名称串这个选项的用途与选项 PREFIX 类似但不同之处是这个选项为选项M= 中转换过的每一个新变量一个不同的名称这些名称之间不以数字 1 2 等相连名称之间仍以空格相隔删除号 (/) 后的选项有下列七个(1) PRINTH印出 F 检定的分子矩阵 (即假设矩阵)(2) PRINTE印出 F 检定分母矩阵与其净相关矩阵(3) HTYPE=1 (或 2或 3或 4)界定假设矩阵的变异数平方值的型态 (可等于 123或 4)内设值是分析过程中所用过最高型的值(4) ETYPE=1 (或 2或 3或 4)界定 F 检定中分母矩阵的变异数平方值的型态 (可等于 123或 4)内设值是分析过程中所用过最高型的值(5) ORTH要求转换式(在选项 M= 中所形成的新变量) 先经过标准化正交 (Orthonormali-zation) 的处理(6) CANONICAL对 F 检定中的分子与分母矩阵进行典型分析此分析的结果与另一统计程序PROCCANDISC 的分析结果应该完全一致(7) SUMMARY印出每一因变量的变异数分析摘要表若曾选用选项 M= 则变异数分析摘要表是根据转换后的因变量所形成的我们现在举两个例子示范 MANOV A 指令的写法例 1PROC GLM;CLASS A B;MODEL Y1-Y5=A B(A);MANOVA H=A E=B(A)/PRINTH PRINTEHTYPE=1 ETYPE=1;MANOVA H=B(A)/PRINTE;MANOVA H=A E=B(A) M=2*Y2-2*Y3, 4*Y4-6*Y5+2*Y1;在MODEL 指令中我们看到有五个因变量(Y1到Y5)故可采用多变量变异数分析第一个 MANOV A 指令中 F 检定的分子是 A 效果矩阵分母则是 B(A) 效果矩阵这两矩阵将分别被印出程序还要求计算出这两个矩阵的第一型离差平方总和在第二及第三个 MANOVA 指令中由于没有规定哪一型的离差平方和因此 GLM15程序会自动计算第一型与第三型的离差平方和第二个 MANOV A指令中没有规定分母的矩阵故 GLM程序会采用余差的均方(MS Residual 亦即选项 E= 的内设值) 为 F 检定的分母第三个 MANOV A 指令请读者注意 M= 选项原因变量经过转换后由于未使用PREFIX=或MNAMES=选项因此 GLM 程序自动称这两个转换过的新变量为 MVAR1及 MV AR2这些新变量与 A 效果之间的关系是由这个MANOV A 指令所检验的例 2PROC GLM;CLASS GROUP;MODEL DOSE1-DOSE4=GROUP;MANOVA H=GROUPM=3*DOSE1-DOSE2+DOSE3+3*DOSE4,DOSE1-DOSE2-DOSE3+DOSE4,-DOSE1+3*DOSE2-3*DOSE3+DOSE4MNAMES=LINEAR QUADRATIC CUBIC/PRINTE; 此例中原因变量经过选项 M= 做线性转换抛物线转换及三次方曲线转换然后新因变量经 NNAMES= 选项命名为线性抛物线性及三次曲线值 选项 PRINTE 指示SAS 印出 F 检定的分母矩阵 (在此例中由于无 E= 选项故分母矩阵即是余差的矩阵)以及多项式值之间的净相关指令 #9 OUTPUT OUT 输出资料文件名称 关键字变量名称串本指令包括两个部分OUT= 与关键字=OUT=输出资料文件名称这个资料文件含原输入资料文件的所有变量以及本指令中所提到的关键字 (如PREDICTED RESIDUAL 等)关键字=变量名称串下页列举十六种关键字及其定义(1) PREDICTED (或 P)= 预测值(2) RESIDUAL (或 R)= 预测误差(3) L95M= 因变量平均数的 95% 信赖区间之下限(4) U95M= 因变量平均数的 95% 信赖区间之上限(5) L95= 因变量预测值的 95% 信赖区间之下限这个值考虑了抽样误差及参数估计值的变异数(6) U95= 因变量预测值的 95% 信赖区间之上限这个值考虑了抽样误差及参数估计值的变异数(7) STDP= 预测值平均数的标准误差(8) KSTDR= 误差的标准误差(9) STDI= 个别预测值的标准误差(10) STUDENT= 经过标准化的误差(11) COOKD= 库格氏影响力的统计值(12) H= 影响力定义是 X i (X'X)-1X i(13) PRESS= 除去一个观察体后所求得的该观察体之预测误差(14) RSTUDENT= 除去一个观察体后所求得的该观察体的标准化误差(15) DFFITS= 将观察体对预测值的影响力加以标准化(16) COVRATIO= 将观察体对回归系数的共变异数之影响力加以标准化指令 #10 RANDOM 效果名称串选项串这个指令可用来指出 MODEL 指令所含的各项效果中哪个 (些)是随机效果从这个界定中GLM 程序会自动印出第三型第四型的变异数平方或平均数比较的平方值读者可在 MODEL 指令之后多次界定 RANDOM 指令若省略 RANDOM 指令则 GLM 程序视 MODEL 指令中所有的效果为固定效果 (Fixed Effects)删除号 (/) 后的选项串(1) Q印出所有固定效果的二次式函数值 (Quadratic Forms)(2) TEST要求 GLM 程序对 RANDOM 指令中所提的各式随机效果执行适当的 F 检定并且 F 检定的分母完全根据各效果变异数均方的期望值 (Expected Mean Squares)而来 唯一值得注意的是若 A B 两主效果被宣告成随机效果这并不代表A*B 一定被 SAS 视为随机效果因此下页两个 RANDOM 指令所得的 F 检定是不一样的 RANDOM A B/TEST;RANDOM A B A*B/TEST;指令 #11 REPEATED 重复变量的名称串组数 (组名) 变量的转换选项串假设有三种实验各种控制在四个不同的时间进行则每一个被试有十二个分数假如这十二个分数分别以 Y1Y12 表示则下面的指令可代表这十二个分数的统计分析REPEATED TRIAL 3(A B C), TIME 4 (T1 T2 T3 T4);这个指令言简意赅地说明了下列的数据结构因变量 Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10 Y11 Y12TRIAL 的值 1 1 1 1 2 2 2 2 3 3 3 3TIME 的值 1 2 3 4 1 2 3 4 1 2 3 4现在让我们用这个例子来解释 REPEATED 指令的写法重复变量的名称即上例中的 TRIAL 及 TIME 重复变量必须与因变量有关重复变量的名称不可与。
SAS_统计图表Chap6_SAS_统计图表ppt课件
TABLE语句的操作符
星号〔* 〕:在维内对操作元素进展交叉衔接,即复合 分组,表示制表项嵌套。
空格:对操作元素进展并排衔接,在列表达式,空格表 示横向并排衔接,在行表达式,空格表示纵向并排衔接。
圆括号〔〕:对操作元素或分组规定先后顺序。 逗号〔,〕:用于区分表达式部分 尖括号〔<>〕:规定分母的定义
so m 348000 a100 r 710 17750 we m 432000 a100 r 780 19500
es l 62500 a100 r 750 18750 ne l 837000 a100 r 800 20000
so l 748000 a100 r 760 19000 we l 93200 a100 r 880 22000
format-n>;
1.PROC TABULATE语句
其普通格式为:PROC TABULATE <option-list>; 该语句中的选择项常用的有: DATA=SAS-data-set:指定所运用的输入数据集,缺省时运
用最新创建的数据集。 FORMAT=format-name〔格式名〕:对每个报表单元规定输
var height;
table (sex age)*height*(mean N*F=6.0);
run;
TABULATE过程实例2
data sales;
input region$ citisize$ pop product$ saletype$ quantity income@@;
cards;
出格式,默许值为BEST12.2。此选项对减少报表中输 出数值的域宽非常有用。 NOSEPS:要求表中不出现程度分隔线。
2.CLASS语句
对应分析和列联表2
33
如果使用因子分析的方法对3个幸福状况进 行降维(同时最大限度地保留原始信息), 则我们能够在2维甚至1维空间上把5个点表 示出来。
把表中婚姻状况的取值看作5维空间的坐标 值,使用因子分析的方法进行降维,也可 以把3个幸福状况在低维空间中表示出来。
15
对应分析图的绘制
如果能够保证两个因子分析中采用相同的 刻度,则可以在同一个坐标系中把幸福状 况的3个点和婚姻状况的5个点绘制出来, 通过图形观察两个变量取值之间的关系。
24
列变量(幸福状况)的坐标
25
对应分析图
26
对应分析图的解释
“婚姻状况”和“幸福状况”取值之间的对 应关系:“已婚”和“非常幸福”最接近;
“离异”、“未婚”和“比较幸福”比较 接近;
“丧偶”、“分居”和“不太幸福”比较 接近。
27
对应分析的一点说明
对应分析是一种探索性的描述统计方法, 并不能保证所有的对应分析结果中两个变 量的取值之间都有如此明确的对应关系。
22
行变量(婚姻状况)各水平的坐标
23
行变量(婚姻状况)各水平的坐标
“质量”对应的英文为“Mass”,译为“密 度”更为确切,反映的是每种婚姻状况的 人数比例。
表中给出了婚姻状况5个水平的坐标:已婚 (-0.531, -0.016),丧偶(0.437, -0.660),离 异 (0.535, 0.168),丧偶 (0.041, 0.979), 未婚 (0.389, 0.257)。
在图12-1的对话框中选择“精确…”,进行相应的 设置后可以得出精确的检验结果。这时所涉及的 不是c2分布,而是超几何分布。
SAS笔记第六章,列联表分析
2014.7.29 编制列联表:列联表主要用于分析离散型分类计数资料,包括在表的基础上进行的拟合优度检验,独立性检验,一致性检验,趋势检验和计算属性变量关联度等。
其一般的语法格式为:procfreq data=SAS数据集;by定义分层分析变量,要求分析数据集事先按by语句指定的变量排序;weight定义观测的加权变量,必须为正;exact使用该语句时需要精确定义统计量的检验或置信度,适用于数据较少时;tables用于定义编制频数分布表;output产生一个包含分析结果输出数据文件,包括tables语句中的定义统计量,有效和遗漏个数;run;注:列联表中的类别变量如下面数据的第一行所表示,而类别数据如观测值。
下面用一个例子来说明,数据如下:1)先用代码装一下;procfreq data=a.aam;tables hair eyes*hair;/*单独一个hair代表一维表,eyes*hair代表二维表,eyes表示行变量,hair表示列变量*/weight count;run;结果如下:一维二维图2)使用assist模块:选择assist | data analysis | elementary | frequency tables | generate n-way crosstabulation table ,弹出如下:单击,选择eyes和hair,注意选择顺序,先选择的为行变量,后选择的为列变量,只选择一个的话则为一维表。
再单击,选择eyes*hair ,二维分析。
最后单击,选择weight column加权变量,选择count变量。
提交。
3)应用analyst模块:选择statistics | descriptive | frequency counts 弹出如下:选择eyes和hair变量,单击tables默认第一个,输出频数,百分数以及他们的累计值。
在单击variables,弹出:选择count。
杨鹏伟-STATA统计分析与应用 第六章 列联分析
tabulate varname [if] [in] [weight]
[, tabulate1_options]
tab2 varlist [if] [in] [weight] [, options]
【例6.4】利用关于肺炎的调查数据byssin1.dta来检验得肺炎概率与 是否抽烟、工作场所空气质量这两个变量之间的独立性(当然,凭借 常识,它们应该是有关系的),即分别对probcat和smokes以及 probcat和workplace做标准的列联分析。
表6-2 table命令可以报告的统计量
freq mean 频数 平均数
sd
semean sum
标准差
标准误 (sd/sqrt(n)) 总和
count、n
max min median p# iqr
观测值个数
最大值 最小值 中位数 各种百分位数 IQR四分位距
下面我们演示如何完成如下两个创建多维表格的任务。 (1)创建一个关于workplace、smokes和race的三维列联表。 (2)创建一个关于workplace、smokes、race和sex的四维列联表 。
6.2.2使用tabulate命令进行列联表分析 1. 一维tabulate命令
本例演示如何利用table命令完成如下两个任务: (1)使用table命令创建关于rep78的频数表,并在表中显示mpg的 观测值个数、平均数、标准差和中位数。 (2)使用table命令创建关于foreign和rep78的二维表格,并在表中 显示mpg的平均数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014.7.29 编制列联表:
列联表主要用于分析离散型分类计数资料,包括在表的基础上进行的拟合优度检验,独立性检验,一致性检验,趋势检验和计算属性变量关联度等。
其一般的语法格式为:
procfreq data=SAS数据集;
by定义分层分析变量,要求分析数据集事先按by语句指定的变量排序;
weight定义观测的加权变量,必须为正;
exact使用该语句时需要精确定义统计量的检验或置信度,适用于数据较少时;
tables用于定义编制频数分布表;
output产生一个包含分析结果输出数据文件,包括tables语句中的定义统计量,有效和遗漏个数;
run;
注:列联表中的类别变量如下面数据的第一行所表示,而类别数据如观测值。
下面用一个例子来说明,数据如下:
1)先用代码装一下;
procfreq data=a.aam;
tables hair eyes*hair;/*单独一个hair代表一维表,eyes*hair代表二维表,eyes表
示行变量,hair表示列变量*/
weight count;
run;
结果如下:
一维
二维图
2)使用assist模块:
选择assist | data analysis | elementary | frequency tables | generate n-way crosstabulation table ,弹出如下:
单击,选择eyes和hair,注意选择顺序,先选择的为行变量,后选择的为列变量,只选择一个的话则为一维表。
再单击,选择eyes*hair ,二维分析。
最后单击,选择weight column加权变量,选择count变量。
提交。
3)应用analyst模块:
选择statistics | descriptive | frequency counts 弹出如下:
选择eyes和hair变量,单击tables默认第一个,输出频数,百分数以及他们的累计值。
在单击variables,弹出:
选择count。
提交。
注:该模块只能输出一维表。
结果如下:
若想用analyst模块输出二维表,则需选择
Statistics | tables anaylsis弹出;
选择eyes作为行变量,hair作为列变量,count作为cell counts(单元格计数)。
再单击tables 弹出:
选择observed(观察值),expected(期望值),deviation(偏差),cell(单元格百分比),row,column(行列百分比)。
提交,结果不再复述。