stata课堂笔记
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Biblioteka Baidu
a 值:能够容忍的犯错误的概率。 p 值:犯错误的概率。 A 值:如果在观测点附近有样本:正常取,比如 5%,10%,15% 如果在观测点附近没有样本:低于 0.1% A 值与什么有关:1. Research subject 2. Spread of samples 3. Number of obs 回归不需要常数(或常数为 0 ) : reg price sqrft, noconstant on condition that 房地产(面积为零时价格为零) ;差分方程(常数项相减消失)
4.22.2016 数据的纵向合并 -csv 文件 横向合并: 1. 排序: Sort var1 var2 var3...------ 先将两组数据排序, 先按 var1 排序, 再按 var2 排 2. 合并: merge var1 var2 var3 using C:\stata 数据\5\trade.dta— merge 合并,参 考变量,路径 3. Check _merge 1 表示本文件有合并文件没有 2 本文件没有,合并文件有 3 本文件有合并文件也有 4. Drop _merge 删掉 _merge 变量后继续合并。 交叉项有时也能对 y 产生影响,考虑交差项时,要把交叉项的每一种排列组合情 况, 例: abc—a b c ab ac bc abc 都要参与回归; 如果有完全一样的可以只写一个, 例:aab perfect collinner 完全共线。 1. A b identical 2. A= b c 3. A+b=c 4. C1a+c2b=d abd 是变量,回归后会踢掉一个。 假设性检验(5/5b vote) Step1. Express the hypothesis in terms of paranetors Null hypothsis H 0 alternative hypothsis H1 Step2. Build a text statistic Step3. Find extrual value of Step4. conclusion H0: Beta1=-beta2 Beta1+Beta2=0 H1:!=0 T=(beta1+beta2)/var(beta1+beta2)^0.5 =(beta1+beta2)/var(varbeta1+varbeta2+covbeta1,beta2) (变量的协方差可以用 cor 命令实现,但是系数的协方差要用以下方法进行) estat vce 给出上次回归时系数的协方差 得到 covbeta1,beta2=-0.003 t= -1 <t0.1,n=1.65 fail to reject H0
3 月 25 日 研究问题:失业情况与那些因素有关 F(unemployment)=f(sex age degree) br 显示所有数据 br+ var 显示该变量 tab+var 离散或虚拟变量,制成统计表:
Label list +var 显示变量对应的值 edit + var 修改变量 gen umemp=1 if ajbstat==3 replace umemp=0 if ajbstat!=3 br ajbstat umemp 或者输入:gen umemp=ajbstat==3 后面的条件是真 umemp 等于 1,假的等于 0 Drop if +var <0 删去小于 0 的数据,不可找回了 ~。 ~ 总结:处理数据的过程:sum VAR 和 label list VAR 看是否有需要丢弃的数据 删除用 drop VAR 重新生成变量用 gen VAR+if 条件 同样的方法处理 sex age aqfedhi
第一张要出现的表:统计论述表 sum 数据缺失 分布不均:(均值 - 中位数)/均值 绝对值越大,分布越不均 Sum +var, detail: 可以获得中位数和均值。 Tab +var :显示频率 Correlate +var1 +var2 : 显示两变量相关性 画图,柱状图:graphic---histogram----varible--bwghtlbs graphic---twoway---scatter---creat---y:bwghtlbs x:cigs 散点图和 graph twoway (lfit (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 回归线放在一 个图 加 graph twoway (lfitci (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 散点图和直线 加置信区间
所以再处理一下 age(65 岁以上退休不工作) 截面数据用 OLS 进行回归 Reg unemp sex age degree
F 检验:系数是否显著为 0 R 方:拟合优度
直线回归 二元选择:Probit:变量对 Y=1 的概率的影响,用分布函数把取值固定在 0 和 1 之间。正态函数的积累 F(xi,b)=fai(xi ’b) probit unemp sex age degree 回归 est store probitm(保存名字) 保存结果 Logit:逻辑函数的积累 F(x)=1/(1+exp(-x)) logit unemp sex age degree est store logitm(保存名字) 保存结果 est table probitm logitm, t b(%7.3f) est table probitm logitm, t b(%7.3f) stats(N LL) 显示是否通过 t 检验, 所以显示 t 值, b(%7.3)表示数值保留小数点后三位 ( float 数据类型最大可以储存 10 位剩余 7 位) , 同时显示 N 样本数,LL 是拟合优度。在这里拟合优度没有,因为这里回归的系 数无意义,本身就是一个非线性的方程,以性别和年龄为例在不同的年龄下,系 数是不同的,具有边际效应。而表中展示的系数是变量取平均值时的系数。 mfx 显示 probit 或 logit 回归系数所在的点,默认就是均值处。 mfx, at(1 40 1) 排序离散: 多元离散:
2016.4.1 Y=b0+b1x+u Fare=bo+bi dist +u Predict: y 尖,除了 x 之外的其他因素也影响与,除此之外还有 u Y 尖和真实值之间的差为残差—SSR SSR=
2
residual sum of squares
衡量不能用模型衡量,解释的波动? 1. Measure variation of diference between predict and sample 2. Measure variation that can not explained by model SS—sum of squares 方差 measure variation 波动、变化 2 SST—total sum of squares = 方差和 --- 聚散 2 SSE— explainable sum of squares= Measure variaton that can be explained by model 1-SSR/SST=SSE/SST=R2 d.f: degree of freedom 自由度 取值不受限制的变量个数 stata 中自由度:观测值-1-(未知数 -1) 残差的自由度:增加样本量 1. 增加未知数 2. 运用低速收敛模型 OLS 是告诉收敛,时间序列是低速 什么是好的回归? 仅有 R2 不能判断----引力模型 理论和实证相符 Root MSE ( mse 的开方)衡量回归的波动
2016.4.8 出现异常值的处理:1. 不要删除,可能会产生新的研究方向。 2. 取 ln——既有极大又有极小值时; 舍弃量的概念, 把系数改为变动的百分比。 3. 1. Level-level 2. Level-log 3. Log-level 程度不取 log 4. Log-log 数据 4 斜率 slope 半弹性:目的是使结果更加线性( p 值) 半弹性:Eg:贸易量和开放程度:通常对贸易量取对数,开放 变化的百分比,弹性
Y=7.486-0.032x P 值很小,认为是显著的。 Coef. : 系数 统计意义上:blabla
上面那条线:y=7.146-0.043x 下面:y=7.556-0.021x 置信区间:真值有 95%的概率落在两条线之前
2016.3.18 Uniform distribution---均匀分布 Drop xxx----删除某变量 drop _all /* Drop previous data */ 清空之前的运行结果和内存 preserve 记忆数据,当操作出现错误可以用 restore 进行还原。注意:一个 preserve 对应一个 restore * Define number of observations set obs 10-------样本数据有 10 个观测值 * Generate draws from uniform distribution (b=1, a=0) gen x = (uniform())-------gen 生成一个变量 *List all of the observations *(use list when the number of observations is not large) list x -------把变量等观测值直接打出来 * Calculate summary statistics for x summarize x * Construct histogram for x histogram x, density * Generate draws for Bernoulli distribution P(x=1)=0.5; P(x=0)=0.5 gen y = x <=0.50 可以用 data editor 展示数据, (这时 x>0.5 的被替换为了 1) Gen z=0 Replace z=1 if x<=0.5 list y * Calculate summary statistics for y summarize y * Construct histogram for y set seed 10101 drop _all /* Drop previous data */ * Change this for different sample size set obs 1000000 * Generate N(0,1) using inverse-transformation method gen z = invnorm(uniform())------ 先按照均匀分布抽取随机数,对应分布函数,再转 换成密度函数。 list z summarize z histogram z *Generate normal random variables with different means and varisances using z gen z2 = 2 + z list z z2 summarize z z2 *Construct overlaping histograms of Z and Z2
有无常数项方程存在自由度的区别(87,88)
数据:4 1. Log(wage)=a0+a1educ+u 2. IQ=d0+d1educ+v 3. Log(wage)=b0+b1educ+b2IQ+e 如果自变量存在相关性时,如果 x 不是研究重点,可以不予理会,如果是重点可 以考量后删除一个。 如果自变量和误差项间存在相关性:使用工具变量,除非: 平衡面板:把所有的都列出来。 Cor 的正负不能代表系数前的符号(因为会存在不平衡面板)
twoway histogram z, blcolor(blue)|| histogram z2, blcolor(red) X~N(a,c^2) Y~N(b,d^2) X+x~N(a+x,c^2) Y*y~N(by,Y^2d^2) X+Y~N(a+b,a^2+b^2+2cov(X,Y)) 常用函数: Y=ln(X) gen y= Y=eX gen y= exp(x) Y=xa gen y=x^a
回归方程:y=a+bx+e
解释各个变量,及误差项服从的分布
回归方程 OLS:reg var1(y) var2.....(x) R-squared 大于 1%一般认为是正常的 _cons:constant 常数 系数 系数的标准差 t 值:与观测样本有关,与置信区间的选择有关 p 值:假设为真,拒绝假设的概率
a 值:能够容忍的犯错误的概率。 p 值:犯错误的概率。 A 值:如果在观测点附近有样本:正常取,比如 5%,10%,15% 如果在观测点附近没有样本:低于 0.1% A 值与什么有关:1. Research subject 2. Spread of samples 3. Number of obs 回归不需要常数(或常数为 0 ) : reg price sqrft, noconstant on condition that 房地产(面积为零时价格为零) ;差分方程(常数项相减消失)
4.22.2016 数据的纵向合并 -csv 文件 横向合并: 1. 排序: Sort var1 var2 var3...------ 先将两组数据排序, 先按 var1 排序, 再按 var2 排 2. 合并: merge var1 var2 var3 using C:\stata 数据\5\trade.dta— merge 合并,参 考变量,路径 3. Check _merge 1 表示本文件有合并文件没有 2 本文件没有,合并文件有 3 本文件有合并文件也有 4. Drop _merge 删掉 _merge 变量后继续合并。 交叉项有时也能对 y 产生影响,考虑交差项时,要把交叉项的每一种排列组合情 况, 例: abc—a b c ab ac bc abc 都要参与回归; 如果有完全一样的可以只写一个, 例:aab perfect collinner 完全共线。 1. A b identical 2. A= b c 3. A+b=c 4. C1a+c2b=d abd 是变量,回归后会踢掉一个。 假设性检验(5/5b vote) Step1. Express the hypothesis in terms of paranetors Null hypothsis H 0 alternative hypothsis H1 Step2. Build a text statistic Step3. Find extrual value of Step4. conclusion H0: Beta1=-beta2 Beta1+Beta2=0 H1:!=0 T=(beta1+beta2)/var(beta1+beta2)^0.5 =(beta1+beta2)/var(varbeta1+varbeta2+covbeta1,beta2) (变量的协方差可以用 cor 命令实现,但是系数的协方差要用以下方法进行) estat vce 给出上次回归时系数的协方差 得到 covbeta1,beta2=-0.003 t= -1 <t0.1,n=1.65 fail to reject H0
3 月 25 日 研究问题:失业情况与那些因素有关 F(unemployment)=f(sex age degree) br 显示所有数据 br+ var 显示该变量 tab+var 离散或虚拟变量,制成统计表:
Label list +var 显示变量对应的值 edit + var 修改变量 gen umemp=1 if ajbstat==3 replace umemp=0 if ajbstat!=3 br ajbstat umemp 或者输入:gen umemp=ajbstat==3 后面的条件是真 umemp 等于 1,假的等于 0 Drop if +var <0 删去小于 0 的数据,不可找回了 ~。 ~ 总结:处理数据的过程:sum VAR 和 label list VAR 看是否有需要丢弃的数据 删除用 drop VAR 重新生成变量用 gen VAR+if 条件 同样的方法处理 sex age aqfedhi
第一张要出现的表:统计论述表 sum 数据缺失 分布不均:(均值 - 中位数)/均值 绝对值越大,分布越不均 Sum +var, detail: 可以获得中位数和均值。 Tab +var :显示频率 Correlate +var1 +var2 : 显示两变量相关性 画图,柱状图:graphic---histogram----varible--bwghtlbs graphic---twoway---scatter---creat---y:bwghtlbs x:cigs 散点图和 graph twoway (lfit (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 回归线放在一 个图 加 graph twoway (lfitci (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 散点图和直线 加置信区间
所以再处理一下 age(65 岁以上退休不工作) 截面数据用 OLS 进行回归 Reg unemp sex age degree
F 检验:系数是否显著为 0 R 方:拟合优度
直线回归 二元选择:Probit:变量对 Y=1 的概率的影响,用分布函数把取值固定在 0 和 1 之间。正态函数的积累 F(xi,b)=fai(xi ’b) probit unemp sex age degree 回归 est store probitm(保存名字) 保存结果 Logit:逻辑函数的积累 F(x)=1/(1+exp(-x)) logit unemp sex age degree est store logitm(保存名字) 保存结果 est table probitm logitm, t b(%7.3f) est table probitm logitm, t b(%7.3f) stats(N LL) 显示是否通过 t 检验, 所以显示 t 值, b(%7.3)表示数值保留小数点后三位 ( float 数据类型最大可以储存 10 位剩余 7 位) , 同时显示 N 样本数,LL 是拟合优度。在这里拟合优度没有,因为这里回归的系 数无意义,本身就是一个非线性的方程,以性别和年龄为例在不同的年龄下,系 数是不同的,具有边际效应。而表中展示的系数是变量取平均值时的系数。 mfx 显示 probit 或 logit 回归系数所在的点,默认就是均值处。 mfx, at(1 40 1) 排序离散: 多元离散:
2016.4.1 Y=b0+b1x+u Fare=bo+bi dist +u Predict: y 尖,除了 x 之外的其他因素也影响与,除此之外还有 u Y 尖和真实值之间的差为残差—SSR SSR=
2
residual sum of squares
衡量不能用模型衡量,解释的波动? 1. Measure variation of diference between predict and sample 2. Measure variation that can not explained by model SS—sum of squares 方差 measure variation 波动、变化 2 SST—total sum of squares = 方差和 --- 聚散 2 SSE— explainable sum of squares= Measure variaton that can be explained by model 1-SSR/SST=SSE/SST=R2 d.f: degree of freedom 自由度 取值不受限制的变量个数 stata 中自由度:观测值-1-(未知数 -1) 残差的自由度:增加样本量 1. 增加未知数 2. 运用低速收敛模型 OLS 是告诉收敛,时间序列是低速 什么是好的回归? 仅有 R2 不能判断----引力模型 理论和实证相符 Root MSE ( mse 的开方)衡量回归的波动
2016.4.8 出现异常值的处理:1. 不要删除,可能会产生新的研究方向。 2. 取 ln——既有极大又有极小值时; 舍弃量的概念, 把系数改为变动的百分比。 3. 1. Level-level 2. Level-log 3. Log-level 程度不取 log 4. Log-log 数据 4 斜率 slope 半弹性:目的是使结果更加线性( p 值) 半弹性:Eg:贸易量和开放程度:通常对贸易量取对数,开放 变化的百分比,弹性
Y=7.486-0.032x P 值很小,认为是显著的。 Coef. : 系数 统计意义上:blabla
上面那条线:y=7.146-0.043x 下面:y=7.556-0.021x 置信区间:真值有 95%的概率落在两条线之前
2016.3.18 Uniform distribution---均匀分布 Drop xxx----删除某变量 drop _all /* Drop previous data */ 清空之前的运行结果和内存 preserve 记忆数据,当操作出现错误可以用 restore 进行还原。注意:一个 preserve 对应一个 restore * Define number of observations set obs 10-------样本数据有 10 个观测值 * Generate draws from uniform distribution (b=1, a=0) gen x = (uniform())-------gen 生成一个变量 *List all of the observations *(use list when the number of observations is not large) list x -------把变量等观测值直接打出来 * Calculate summary statistics for x summarize x * Construct histogram for x histogram x, density * Generate draws for Bernoulli distribution P(x=1)=0.5; P(x=0)=0.5 gen y = x <=0.50 可以用 data editor 展示数据, (这时 x>0.5 的被替换为了 1) Gen z=0 Replace z=1 if x<=0.5 list y * Calculate summary statistics for y summarize y * Construct histogram for y set seed 10101 drop _all /* Drop previous data */ * Change this for different sample size set obs 1000000 * Generate N(0,1) using inverse-transformation method gen z = invnorm(uniform())------ 先按照均匀分布抽取随机数,对应分布函数,再转 换成密度函数。 list z summarize z histogram z *Generate normal random variables with different means and varisances using z gen z2 = 2 + z list z z2 summarize z z2 *Construct overlaping histograms of Z and Z2
有无常数项方程存在自由度的区别(87,88)
数据:4 1. Log(wage)=a0+a1educ+u 2. IQ=d0+d1educ+v 3. Log(wage)=b0+b1educ+b2IQ+e 如果自变量存在相关性时,如果 x 不是研究重点,可以不予理会,如果是重点可 以考量后删除一个。 如果自变量和误差项间存在相关性:使用工具变量,除非: 平衡面板:把所有的都列出来。 Cor 的正负不能代表系数前的符号(因为会存在不平衡面板)
twoway histogram z, blcolor(blue)|| histogram z2, blcolor(red) X~N(a,c^2) Y~N(b,d^2) X+x~N(a+x,c^2) Y*y~N(by,Y^2d^2) X+Y~N(a+b,a^2+b^2+2cov(X,Y)) 常用函数: Y=ln(X) gen y= Y=eX gen y= exp(x) Y=xa gen y=x^a
回归方程:y=a+bx+e
解释各个变量,及误差项服从的分布
回归方程 OLS:reg var1(y) var2.....(x) R-squared 大于 1%一般认为是正常的 _cons:constant 常数 系数 系数的标准差 t 值:与观测样本有关,与置信区间的选择有关 p 值:假设为真,拒绝假设的概率