完整版SAS基础与金融计算5.ppt

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.精品课件.
19
(5)Weight语句
Weight variable;
该语句规定一个数值型的变量,它的值表示相 应观测的权数。该变量的值应大于0。若变量值<0 或缺失,假定该值为0。
.精品课件.
20
(6)OUTPUT语句
OUTPUT [OUT=SAS-data-set] [output-
statistics];
.精品课件.
17
(3)BY语句
BY variables;
使用BY语句可以用BY变量定义的观测组分别 计算其相应的描述统计量。当使用BY语句时,要 求输入数据集已按BY变量排序。
(4)CLASS语句
CLASS variables;
该语句和BY语句一样,可用CLASS变量定义的 观测组分别计算其相应的描述统计量。不同点在
统计量,并规定存放这些统计量的变量名。
.精品课件.
21
例 Data student;
input class sex $ age weight height ; cards;
1 f 15 46 156 1 f 14 41 149 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17 58 160 3 m 18 70 180 3 m 17 68 176 ; Run;
SAS基础与金融计算
游家兴 厦门大学经济学院计统系
.精品课件.
1
上节课上机操作(1)
对上节课生成的最终数据集total进行如下操作:
(1)剔除金融业上市公司; (2)剔除每股收益为负的上市公司; (3)由于数据集中年涨跌幅采用百分比表示,建立一
个新的变量,采用小数表示。 (4)建立一个新的变量,表示除第一大股东外其它股
并将结果生成一个新的数据集; (2)以公司规模为权重计算市场平均收益率; (3)将规模分为5组,分别计算各组的平均股票
收益率。
.精品课件.
26
东所持有的股份比例。
.精品课件.
2
(1)剔除金融业上市公司
第一步: 运用substr语句 Data test;
set total; code=substr(code,1,6); Run;
.精品课件.
3
第二步:
Data temp1;
set test;
if code='000562' or code='000001' or code='000563' or code='600015' or code='600016' or code='600030' or code='600036' or code='600816' or code='600000' or code='601998' or code='601328' or code='601166' or code='601318' or code='601398' or code='601628' then delete;
Run;
.精品课件.
4
(2)剔除每股收益为负的上市公司
Data temp2; set temp1; if eps<0 then delete;
Run;
Data temp2; set temp1; if eps>=0 ;
Run;
.精品课件.
5
(3)建立新变量:用小数表示的涨跌幅
Data temp3; set temp2; re2=re/100;
.精品课件.
9
(2)表示分布离散程度的特征量
方差
s2
1 n 1
n i 1
( xi
x )2
标准差 s
1 n 1
n i 1
( xi
x )2
变异系数 Cv s 100 x
标准误 Stdeer s n
.精品课件.
Var Std CV STDEER
10
(3)表示形状的特征量:偏度和峰度
偏度( Skewness ):
CLASS variables;
OUTPUT [OUT=SAS-data-set] [outputstatistics];
Run;
.精品课件.
14
(1)PROC MEANS语句
PROC MEANS [options] [statistic-keywords] [options] :DATA=SAS data set,即用以说明
(2)UNIVARIATE过程(单变量过程)
.精品课件.
13
1. MEANS过程
MEANS过程用来对数据集中的数值变量计算 简单描述统计量。该过程由下列语句控制:
PROC MEANS [options] [statistics-keywords];
VAR variables;
BY variables;
于排序要求,CLASS语句不要求数据集事先已按
CLASS变量排序。
.精品课件.
18
(5)Freq语句
Freq variable;
该语句指定一个数值型的变量,它的值表示输 入数据集中相应观测出现的频数。该变量的值应 为正整数。若变量值<1或缺失,相应的观测不参 加计算统计量。若这个值不是正整数,则取整数 部分。
该语句要求MEANS过程把计算的描述统计
量输出到新的SAS数据集中,并用任选项规定
新数据集的名及所包含的变量名。这里:
OUT=SAS-data-set:给出由MEANS过程产生
的输出数据集的名字,若想创建一个永久数据
集,则必须规定一个两级名字,缺省时,机器
默认的数据集名为data1等。
Output-statistics:规定在新数据集中所要求的
T:检验总体平均值是否为0的T统计量的值
PRT:大于T的概率
Maxdec=n:指定打印统计量的小数位的位数
如省略不写,SAS将固定输入默认的最常见的几个 统计量。
.精品课件.
16
(2)VAR语句
VAR variables 规定要计算描述性统计量的数值变量及顺序。 若省略该句,则对除BY、CLASS语句中列出的 变量之外所有数值变量计算描述性统计量。
Run;
.精品课件.
6
(4)建立新的变量表示其它股东持股比例
Data temp4; set temp3; ratio2=1-ratio/100;
Run;
.精品课件.
7
本节课上机作业(2)
公共信箱下载数据集test1和test2,运用SAS将 test1和test2纵向拼成新的数据test。
根据股票收益率大小将test分成四个组,并形成四 个子数据集:tmp1,tmp2,tmp3,tmp4。
过程分析处理的数据集的名字,若省略,则用最 近操作的SAS数据集;
[statistic-keywords]:在MEANS过程中指出你 需要计算哪些统计量。
.精品课件.
15
该过程可计算如下统计量:
N,MEAN,STD,MIN,MAX,SUM, Variance,CV,STDERR,T,PRT,Range, SKEWNESS,KURTOSIS,CLM,LCLM, UCLM,Maxdec…
在数据集test中,第一大股东持股比例在50%以上 且每股收益超过1元的公司有多少家?
.精品课件.
8
描述统计分析
常见的数据统计描述量及意义 (1)表示分布平均水平和位置的特征量:
均值:数据的平均值—Mean 众数:观测值中出现最频繁的数值—Mode 中位数:观测值排序中处于中间位置的值—Median 百分位数:中位数的推广—P1、P33、P99
.精品课件.
22
观察以下几组程序
Proc means data= student; var age weight height ;
Run;
Proc means data= student maxdec=2; var age weight height ; by sex;
Run;
.精品课件.
23
proc means data= student maxdec=2; var age weight height ; class sex;
run;
proc means data= student maxdec=2; var age weight height ; output out=sta n=num mean=a1 a2 a3
std=b1 b2 b3 max=c1 c2 c3; run;
.精品课件.
24
libname a 'd:\sasdata'; proc means data= student maxdec=2;
n
g1 (n 1)(n 2)
(xi x )3 wenku.baidu.com3
偏度主要用于判断分布形状是否对称:
若g1=0,则对称; 若g1>0,则分布右偏(正偏); 若g1<0,则分布左偏(负偏)。
.精品课件.
11
峰度(Kurtosis):
g2
(n
n(n 1) 1)(n 2)(n
3)
(xi x)4 3(n 1)2 s4 (n 2)(n 3)
var age weight height ; output out=a.sta n=num mean=a1 a2 a3 std=b1
b2 b3 max=c1 c2 c3; run;
.精品课件.
25
本次课上机作业
公共信箱下载数据集finance,进行如下操作: (1)计算市场平均股票收益率及其相应的标准差,
峰度是以正态分布为比较标准。对于正态分布, g2=0;
若g2>0,表示变量分布比正态分布更集中,分布呈 尖峰状态,平均数的代表性较好;
若g2<0,表示变量分布比正态分布更分散,分布呈 平坦峰,平均数的代表性较差。
.精品课件.
12
SAS中可以对数据进行描述统计分析的过程步有 很多,其中两个最常用的过程步是: (1)MEANS过程(均值过程)
相关文档
最新文档