武汉大学SAS总复习笔记(精品版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第1章SAS基础

1.SAS工作界面与方式

2.常用工作模块

–VIEWTABLE模块

✧Viewtable第一行显示变量的标签

–初识INSIGHT模块

✧表格的列称为变量,表格的行称为观测

✧变量分为:字符型和数值型(按变量的测量水平可分为:区间型变量和列名

型变量)

–初识“分析家”

3.SAS文件的管理方式

✧逻辑库(临时+永久)

✧数据集(描述部分+数据部分-变量、观测)

4.数据集的建立

5.SAS编程初步

第2章SAS的描述统计功能

• 2.1 描述性统计的基本概念

总体:总体是指所研究对象的全体组成的集合。

样本:样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。

参数:参数是用来描述总体特征的概括性值。

统计量:统计量使用来描述样本特征的概括性值。

–表示数据位置的统计量

✧均值:所有观测值得平均值,是描述数据取值中心位置的一个度量。

✧中位数:中位数是描述观测数据中心位置的统计量,大体上其数据大小

为观测值的一半。优点是不受个别极端数据的影响。

✧众数:观测值中出现最多的数称为众数。

✧百分位数:分位数也是描述数据分布和位置的统计量。

–表示数据分散程度的统计量

✧极差与半极差:极差就是数据中的最大值和最小值之间的差。半极差是

上下四分位数之差,描述了中间半数观测值得散布情况。

✧方差与标准差:反映数据对其均值中心的某种离散程度。

✧变异系数:将标准差表示为均值的百分数。

–表示数据分布形状的统计量

✧偏度:刻画数据对称性的指标。(均值对称时为零,左侧数据分散时为负,

右侧时为正)

✧峰度:描述数据向分布尾端散布的趋势。(标准正态分布时为零,尾部较

正态分布分散时为正,集中时为负)

–正态分布

• 2.2 在SAS中计算统计量

• 2.3 统计图形(定量变量和分类变量的图形表示)–什么类型数据适合用什么图形

定量变量:

✧直方图

数值型变量展示变量取值的分布

可以估计总体的概率密度,组距对直方图的形态影响很大。

可以看出数据分布的疏密。

✧盒形图

简洁地表现数据在数轴上的分布及其特点

中间横线是数据的中位数。

封闭盒子的上下两横线(边)分别为上、下四分位数(点)。

盒子的长度是分布的四分位间距。类似标准差

触须线最长可以延伸到四分位间距的1.5倍。异常点考虑剔除

可以大体看出数据集中在什么范围,上下两侧是否对称。

常将分类数据的若干个盒形图放在一个图中比较。

✧散点图

得到的数据有两个变量,希望了解两个变量的关系

回归分析

✧线图

表示变量间的取值变化情况,有单式和复式两种。

常用来描述变量与时间变量的关系。

分类变量:

✧条形图——给出分类变量取每个值的频数。

✧饼图——对分类变量描述其频数取值的比例。

✧马赛克图——针对两个以上分类变量。直观显示两个以上变量每种取值组合

的观测个数和比例。

• 2.4 用SAS绘制统计图形

–图形结果的查看

–过程步语句实现制图

✧Gchart、Gplot、

第3章区间估计与假设检验

1、假设检验的理论依据

✧对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参

数的描述,与此同时存在一个与H0相对立的备选假设H1,H0与H1有且只有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次试验中几乎不可能发生”的理由,怀疑原假设不真,做出拒绝原假设H0,接受H1的决定;

反之,若小概率事件没有发生,就没有理由拒绝H0,从而因做出拒绝H0的决定。

2、均值比较的T检验的一般步骤

✧1、根据问题确立原假设H0和备选假设H1;

✧2、确立一个显著水平α,它是衡量稀有性(小概率事件)的标准,常取为

0.05;

✧3、根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或者不

能拒绝原假设的决定。

–单样本T检验

–独立样本T检验(不匹配)

–配对样本T检验(成对匹配)

3、分布检验

✧分布拟合图

直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。

✧QQ图

一种散点图,横坐标为标准正态分布的分位数,可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。还可获得分布的偏度和峰值的粗略信息。

要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似的在一条直线附近,该直线的斜率为总体的标准差,截距为总体的均值。正态性检验

第4章相关和回归分析

1、什么是相关分析?如何实现相关分析,如何判断是否相关及相关程度.

✧变量之间的关系有函数关系和相关关系,其中相关关系是指变量间的某种非

确定的依赖关系。寻找变量间相关关系的规律称为相关分析。

✧相关分析就是对变量之间的相关关系进行描述与度量,简单相关分析通常指

对两变量见相关关系的研究。

相关文档
最新文档