课程介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章课程介绍
这门课的英文名字我们应该叫做Statistical Computing and Software Package.统计计算不仅是统计学本科专业的一门重要基础课程,而且越来越多的理工学院、商学院、经济学院、医学院等某些专业本科及研究生也都选修此课程.近些年,随着计算机的快速发展和统计方法的丰富,统计计算方法已得到了很快的发展和重视,产生了许多实用的且得到广泛应用的统计计算方法,如EM算法、Bootstrap方法、MCMC方法等.本门课程包含当今统计计算和计算统计中所涉及的广泛且十分有用的多个内容.力求让学生们理解现有方法的机理及有用的原因,并让大家能有效地利用这些现代统计方法和统计软件进行更深层次的理论研究和应用工作.该门课的主要内容实际上包扩如下三个方面:
•统计计算-Statistical Computing
–计算机的储存与运算系统(computer number systems)
–算法与编程(algorithms and programming)
–数值近似(numerical approximation)
–数值线性代数分析(numerical linear algebra analysis)
–非线性方程数值解及优化方法solution of nonlinear equations and optimization
–随机数的生成(generation of random numbers).
•计算统计-Computational Statistics
–蒙特卡洛模拟方法(Monte Carlo Methods)
–EM算法(EM algorithm)
–Bootstrap方法
–函数估计(Estimation of Functions)
–参数及非参数的密度函数估计(Parametric and Nonparametric Estimation of Proba-
bility Density Functions)
•统计软件-Statistical Software
–R语言简介包括:数据输入输出,控制流,矩阵运算及常用函数
–数据描述性统计分析,参数估计及假设检验
–R作图
–线性模型
–多元分析
·1·
2第1章课程介绍
例1:极大似然估计极大似然估计是统计推断的核心,学习MLE 的理论表现和其解析形式的导出都需要若干时间,然而,当面临没有解析形式的复杂似然时,多数人都不知如何处理.对
于极大似然估计,对数似然函数l ,x 对应着参数向量θ.如果ˆθ
是MLE,则它最大化其对数似然,即ˆθ
是得分方程l (θ)=0
(1.1)的解,其中l (θ)= d l (θ)d θ1,...,d l (θ)d θn T ,0是元素为0的列向量.
例2:LASSO
考虑如下的多重线性回归模型
y i =Z i β+εi ,for i =1,2,...,n,
其中y i ,Z i ,and β分别为响应变量,协变量,回归系数,而εi 为i.i.d.服从N (0,σ2)的随机误差.为估计β如下的惩罚最小二乘估计现在颇为流行:
g (β)=n
i =1(y i −Z i β)2+n p j =1γ|β(j )|,
其中β(j )表示β的j -th 个元素. β
=arg min βg (β).由于后面的惩罚项在零点不可导,标准的牛顿法此时无法使用.然而我们可将这样的方程转化为带有约束的非线性最优化问题,我们将介绍对这样问题的通用的解决方法.
例3:自助法(Bootstrap )
令θ=T (F )为我们所感兴趣的关于分布函数F 的某一特征,被表示为F 的一函数.比如,T (F )= zdF (z )是分布的期望.令x 1,...,x n 为观测数据,其可看作为随机变量X 1,...,X n ∼
i .i .d .F 的实现.统计推断的问题通常是根据T ( F
)或某个R (X ,F )提出来的,这里R (X ,F )是依赖于数据和它们的未知分布函数F 的统计函数.举例来说,一个一般的检验统计量可以
为R (X ,F )=[T ( F
)−T (F )]/S ( F ),其中S 为一估计T ( F )的标准差的函数.随机变量R (X ,F )的分布可能难以处理或者根本就是未知的.这个分布也许也依赖于未知分布F .bootstrap 方法提供了关于R (X ,F )的分布的一种近似,其是由观测数据的经验分布函数(本身是F 的估计)所导出的.
例4:Monte Carlo 模拟指数加权移动平均法假设X i ,i =1,...,为一列同分布的随机变量.指数加移动平均(exponentially weighted moving average)法定义为
Z i =(1−λ)Z i −1+λX i ,
其中Z 0=E (X i ).我们通常关心的是所谓的run-length 及其抽样性质
RL =inf t
{t :Z t >h }.
课程介绍3
其中E (RL )和var(RL )很多时候非常重要.然而,它们的精确的性质往往非常难以得到,这个时候我们就求助于Monte Carlo 模拟来帮助我们获得RL 的分布信息.
例5:局部线性光滑方法
−20020
406080
0.00.10.20.30.4
Temperature D i s s i p a t i o n F a c t o
r 图1.1:Three AEC curves (lines connecting points with three different symbols)and the estimate (solid curve)of the population profile function.
简单的非参数回归模型:
y ij =g (x ij )+εij ,i =1,2,3,j =1,...,n i
其中εij 为误差项.我们可使用样条或局部线性多项式方法用已有数据来估计未知函数g (·).并且我们还将学习如何将很复杂的函数及高维数据有效地直观地用图形表示出来.
参考书:
薛毅,陈立萍(2007),统计建模与R 软件,清华大学出版社.
Ross,S.M.(2006).Simulation ,4th ed.Academic Press (王兆军、陈广雷、邹长亮译,人民邮
电出版社,2007)
Givens,G.H.and Hoeting,J.A.(2005),Computing Statistics (王兆军、刘民千、邹长亮、杨
建峰译,人民邮电出版社,2009)
Gentle,J.E.(2009),Computational Statistics ,Springer,New York.
Dalgaard,P.(2009),Introductory Statistics with R ,Springer,New York.