第五章 统计图表与SAS过程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分母为type的所有水平的output的总和,即 143+186+30.6=359.6 分子为type的每一水平的profit(利润)。
• 参考书P161 • TABULATE过程的应用举例
5.2
统计图与SAS过程
• 统计图用点、线、面等图形直观地反映变 量分布特征、内部结构,变量间关系及其 变化状况。
第一行分母为40=10+30; 第二行分母为60=20+40
(2)列总和百分数
如果只有行维中的分类变量出现在分母中时, 分母值为每列的总和。 如 table a,b*(n pctn<a>);(分母为每列的总和)
第一列分母为30=10+20; 第二列分母为70=30+40
3) 某一变量Y值总和百分比 PCTSUM是SUM 的百分数,必须用于分析变量值的 SUM。 table type,output profit*(sum pctsum<type*output>);
交叉连接是在第一个操作元素的每一个水平内排列 第二个操作元素的所有水平。
如分类变量A和B,A有两个水平,B有三个水平 A*B产生的报表
B*A产生的报表
连接操作是把第二项的所有水平放在第一项的所有 水平之后。
A B 产生的报表
A*B C产生的报表
A*(B C)产生的报表
(3) 统计量
说明:若没有规定分析变量,则N或PCTN可作为统计量使 用。 若规定了分析变量,但没有指定统计量,用SUM作为统计 量。
(1)维表达式:
TABLE语句由一至三个用逗号隔开的维表达式和选项组成。 三维:最左边定义页,中间定义行,右边定义列 两维:左边定义行,右边定义列 一维:定义列 维表达式由分类变量、分析变量、统计量等操作元素和操作符 连接而成。 如: table people, type, amount output profit; table type, amount output profit; table amount output profit;
直方图
product 3 9 15 21 27 33 39 45 0 10 20 30 company 40 50 60 70 FREQ. 4 3 1 3 1 3 2 1 company 7 19 10 50 10 64 35 5
company 60
50
40
30
20
10
0 2000p-3000p 2000pdown 3000p-4000p 4000p-5000p 5000p-6000p 6000pup
TABULATE过程的功能和一般格式
主要功能: • 可以对总体按一个标志进行简单分组汇总。 • 可以对总体按两个或两个以上标志进行复合 分组汇总。 • 可以以比较灵活的方式对每组进行合计,还 可以计算每个分组单元的百分比。
例5.1 某市200家企业2008年产值、利润情况的整理数据资料 存放在数据集cjl.qiye中,包含变量people(企业人数)、type (所有制形式)、amount(企业数)、output(产值)、profit(利润)。 根据以上资料,完成以下问题: (1)按所有制形式对200家企业进行分组。 (2)先对企业人数分组,再按所有制形式进一步细分。
选项: (1)DATA=SAS-DATA-SET; ( 2 )图形坐标轴选项: UNIFORM:对BY组使用一致的刻度。 NOMISS:删去含有丢失值的观测。
(3)图形大小选项:
VPERCENT=percent-list | VPCT=percent-list; 规定产生的图形在垂直方向占一页中的比例。 如:vpct=33, VPCT=50 25 25 HPERCENT=percent-list | HPCT=percent-list; 规定产生的图形在水平方向占一页中的比例。
• • • • • • • • • • • •
data one; set cjl.qiye; keep amount output profit; run; proc sort data=one; by output; run; proc gplot data=one; plot amount*output; plot amount*output=‘A'; plot amount*(output profit); run;
2、CLASS语句 一般格式:CLASS class-variable-list; 该语句规定报表中的分组标志 在TABLE语句中出现的任一个分组标志必须 事先在CLASS语句中予以定义。
3、VAR语句 一般格式:VAR analysis-variable-list;
该语句规定报表中的分析变量(数值型)。
纵行总标目,一般指统计指标; 其子标目为具体统计指标,说明每一列的内容
统计表的种类: 按用途分为调查表、整理表和分析表; 按主词的分组分为简单表、简单分组表和复 合表。
简单表:主词未经任何分组
简单分组表:主词按一个标志进行分组所得到的统计表
复合表:主词按两个或两个以上标志进行分组所得到的统计表
第五章 统计图表与SAS过程
5.1 统计报表与TABULATE过程 5.2 统计图与SAS过程
5.1
统计报表与TABULATE过程
统计表的概念:是以表格的形式简明地反映事物 间数量关系的一种重要的整理成果表达方式. 构成要素:标题、横行栏目、纵行栏目和统计数 字四部分。结构如表
横行总标目,通常为分组标志; 其子标目是其标志值,说明每一行的内容
(2)BY语句 BY variable-list; 根据BY变量定义的观测组分别画出散点图 当使用BY语句时,要求输入数据集已按BY变量排 序的次序排列。 (3)PLOT语句 PLOT request-list</options>;
可以规定任意多个plot语句; 在每个plot语句中可以要求绘制任意多个图形。
proc tabulate data=cjl.qiye; class people type; var amount output profit; table type,amount output profit; table people*type,amount output profit; run;
people
SUM of amount by people
饼图
Biblioteka Baidu
2000pdown 27
2000p-3000p 58
3000p-4000p 32 6000pup 15
4000p-5000p 37
5000p-6000p 31
柱状图
BLOCK CHART OF SUM
58 2000p-3000p
27 2000pdown
(2)操作符
星号(*):在维内对操作元素进行交叉连接,即复 合分组。 如:rigion*citisize
空格:空格对操作元素进行并排连接。 圆括号():对操作元素分组或规定先后顺序 如:Saletype*(quantity income) 逗号(,):当两个操作元素用“,”隔开时, 表示分开表的维数。 < >:规定分母的定义。
(4) 全类变量ALL 表示仅有一个值的特殊分类变量 当ALL嵌入某个交叉时,ALL不考虑分类变量的水 平,而用ALL来生成子集和及总和 • table type all,amount output profit;
•table type,(people all)*amount;
(5) 百分数:PCTN和PCTSUM 一般格式:PCTN或PCTSUM<分母说明> 分母的选取有下面三种:
32 3000p-4000p
37 4000p-5000p
31 5000p-6000p
15 6000pup
people type collective country joint
散点图
散点图、折线图与GPLOT过程
主要功能有:
GPLOT过程用来绘制变量间的散点图、折线图及 曲线图。 • 对图形可做到以下几点: • 绘图符号可以由用户选择; • 坐标轴的刻度间隔及标记可以选择; • 图的大小可以选择,可以控制同一页上图表的数 量。
GPLOT过程的一般格式
PROC GPLOT<option-list>; PLOT request-list</option-list>; BY variable-list; SYMBOL <option-list>;
(1)PROC GPLOT语句: 一般形式:PROCT GPLOT <option- list>;
一般形式:plot request-list</option-list>;
(1)request-list:规定作图变量以及作图字符。 三种形式:
1) 垂直变量*水平变量:依次用A,B,C等作为作图符 号。y*x; 2)垂直变量*水平变量=‘字符’:规定一个字符作为 作图符号。如y*x=‘+’ 3)垂直变量*水平变量=变量:如 y*x=a;
1、PROC TABULATE语句 一般格式: PROC TABULATE <option-list>;
option-list中可以选择: (1)data=data-set (2)noseps:要求表中不出现水平分隔线 (3)fromat=格式名:对每个报表单元规定输出格 式,缺省以BEST12.2代替。
table type,amount output profit;
对所有制形式(type)进行分组求和
table people*type,amount output profit;
先对企业人数分组,再对所有制形式(type)进行分组 求和
TABULATE过程的一般格式:
TABULATE过程常用语句说明:
(2)option-list:
• VAIXS(HAXIS)=tick-value-list <by n>;定义垂直 或水平坐标轴相等间隔的刻度标记值。 • VREF(HREF)=value-list:要求在纵轴或横轴的 一些规定的数上作水平或垂直参照线 • 如果希望两张或多张图重叠,可以选择overlay
• 常见的统计图有:直方图、饼图、柱状图、 盒状图、散点图、折线图、曲线图、星形 图等。
• 直方图:用来表示经统计分组后各组的频数分布 状况,其条形的高度代表各组的频数或频率。 • 饼图:用来反映事物的内部结构,必须用相对数, 饼图的每个扇面代表某一部分占总体的比重。 • 柱状图:用来表示不同总体某一指标的数量特征, 一般用于不同时间、地点的某一指标之间的对比。 • 散点图:用来考察两个变量间的关系,可以形象 的反映出两个连续变量之间有无关系,是直线关 系还是曲线关系。
proc tabulate data=cjl.qiye; class people type; var amount output profit;
table people,type,amount output profit;
table type,amount output profit;
table amount output profit; run;
1)行总和百分数 2)列总和百分数 3)某一变量值总和百分数
• PCTN是频数的百分数,用于没有缺失的分析变 量值的频数或者分类变量的某个交叉的频数。 (1)行总和百分数 如果只有列维中的分类变量出现在分母中式,分母 值为每行的总和。 如 table a,b*(n pctn<b>);(分母为每行的总和)
• • • • • •
• • • • • • •
data one; set cjl.qiye; keep amount output profit; run; proc gplot data=one; plot amount*output/haxis=0 to 50 by 5 vaxis=0 to 40 by 4; run; proc gplot data=one; plot amount*output/href=15 vref=20; run; proc gplot data=one; plot amount*output='1' amount*profit='2'/overlay; run;
所有在TABLE语句中出现的分析变量必须事先在 该语句中定义。
4、TABLE语句 一般格式:
TABLE <page-expression,> <row-expression,> column-expression </option-list>;
输出报表的内容、形式、结构都是通过该语句中的 各表达式通过组合得到。 即通过维表达式、行表达式和列表达式组合得到。