统计学习[The Elements of Statistical Learning]第八章习题
统计学习[The Elements of Statistical Learning]第七章习题
m∈L,m>l
α10−l < 2π
10m−l 10−l +
2
2
m∈L
10m−l 1
10m−l 10−l
= 2π
++
+
22
2
2
m∈L,m>l
m∈L,m<l
10m−l 1 ∞ 10−i
< 2π
++
(7)
22
2
m∈L,m>l
i=1
10m−l 1 1
1
< 2π
+ + = 2π(k + )
(8)
2 22
2
m∈L,m>l
≥0
⇒ 0 ≤ Sii < 1
yi
−
fˆ−i(xi)
=
yi − fˆ(xi) 1 − Sii
≥ yi − fˆ(xi)
// from (1)(4)
3. If the recipe for producing ˆf from y does not depend on y itself and S depends only on the xi and λ, we can just replace yi with fˆ−i(xi) in y (y → y ) without S being changed in the
// from (3)
=
xTi A−1
+
SiixTi A−1 1 − Sii
(XT y − xiyi)
(4)
=
xTi A−1XT y
−
xTi A−1xiyi
+
统计学习方法统计学习方法pdf
统计学习方法统计学习方法pdf统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习的目的就是考虑学习什么样的模型和如何学习模型。
(1)得到一个有限的训练数据集合;(2)确定包含所有可能的模型的假设空间,即学习模型的集合;(3)确定模型选择的准则,即学习的策略;(4)实现求解最优模型的算法,即学习的算法;(5)通过学习方法选择最优模型;(6)利用学习的最优模型对新数据进行预测或分析。
监督学习监督学习从训练数据中学习模型,对测试数据进行预测,训练集通常表示为人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
监督学习假设输入与输出的随机变量某和Y遵循联合概率分布P(某,Y),P(某,Y)表示分布函数,或分布密度函数。
统计学习假设数据存在一定的统计规律,某和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|某)或决策函数Y=f(某)表示,随具体学习方法而定。
监督学习分为学习和预测两个过程,由学习系统与预测系统组成,如下图:学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P(Y|某)或决策函数Y=f(某)。
预测过程中,预测系统对于给定的测试样本集中的输入统计学习三要素统计学习=模型+策略+算法3.1模型统计学习中,首先要考虑学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数,由决策函数表示的模型为非概率模型,由条件概率分布表示的模型为概率模型。
3.2策略有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。
机器学习经典书目汇总
机器学习经典书目汇总本文总结了机器学习的经典书籍,包括数学基础和算法理论的书籍。
入门书单《数学之美》作者吴军大家都很熟悉。
以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。
《Programming Collective Intelligence》(《集体智慧编程》)作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。
这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。
目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。
还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。
《Algorithms of the Intelligent Web》(《智能web算法》)作者Haralambos Marmanis、Dmitry Babenko。
这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。
不足的地方在于里面的配套代码是BeanShell而不是python或其他。
总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代码,了解算法主要思想就行了。
《统计学习方法》作者李航,是国内机器学习领域的几个大家之一,曾在MSRA 任高级研究员,现在华为诺亚方舟实验室。
书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。
每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。
《Machine Learning》(《机器学习》)作者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。
统计学的含义 研究对象 特点,统计学的基本方法
统计学的含义研究对象特点,统计学的基本方法Statistics refers to the discipline that involves collecting, analyzing, interpreting, and presenting data.It plays a crucial role in various fields such as economics, social sciences, healthcare, and engineering. The main goal of statistics is to provide reliable information and make informed decisions based on data analysis.统计学是指涉及收集、分析、解释和呈现数据的学科。
它在经济学、社会科学、医疗保健和工程等各个领域起着至关重要的作用。
统计学的主要目标是根据数据分析提供可靠的信息并做出明智的决策。
In terms of research objects, statistics deals with quantitative data rather than qualitative information. It focuses on numerical measurements or observations that can be categorized or analyzed systematically. Thisdistinguishes it from other branches of social science that may rely more on qualitative methods.就研究对象而言,统计学处理的是定量数据而不是定性信息。
它侧重于可以被系统地归类或分析的数字度量或观察结果。
这使之与其他社会科学分支有所区别,后者可能更多地依赖定性方法。
统计学习[The Elements of Statistical Learning]第五章习题
4.
N
N
L(yi, g˜(xi)) + λJ(g˜) ≥ L(yi, g(xi)) + λJ(g)
i=1
i=1
with equality iff ρ(x) = 0.
1
Proof 1.
2.
3.
K(·, xi), f
HK
= ∞ ci i=1 γi
K(·, xi), φi(·)
=
∞ i=1
ci γi
[γi
(5)
β
i=1
N
= min
(yi
−
βT
1
VDγ2
φ(xi))2
+
λβT
β
β
i=1
N
= min
(yi
−
cT
φ(xi))2
+
λ(VD−γ
1 2
c)T
VDγ−
1 2
c
c
i=1
//
Let
c
=
1
Dγ2
VT β
N
= min
c
(yi − cT φ(xi))2 + λcT cD−γ 1
i=1
N
= min
{cj }∞ 1 i=1
m=1
Let gkm = hm(x)φk(x)dx and calculate ·, φ (y) , then
M
gkmhm(y) = γkφk(y)
(4)
m=1
M
gkm( hm(y)φ (y)dy) = γk φk(y)φ (y)dy
m=1
M
gkmg m = γkδk,
m=1
3
where
统计学习理论及其研究进展
统计学习理论及其研究进展作者:王华丽来源:《科技创新导报》2011年第29期摘要:本文主要介绍统计学习理论的基本思想,特点和研究发展现状,以引起国内学者的进一步关注。
关键词:机器学习统计学习理论推广性能中图分类号:G64 文献标识码:A文章编号:1674-098X(2011)10(b)-0000-00Abstract: This paper introduces the basic ideas of statistical learning theory, the major characteristics and some current research trends to attract further attention of the domestic scholars.Keywords: Learning machine; statistical learning theory; generalization performance1 前言统计学习理论(Statistical Learning Theory,简称SLT[1])是一种专门研究小样本情况下机器学习规律的理论,它为人们系统研究有限样本情况下的学习机器问题提供了有力的理论基础。
统计学习理论系统地研究了经验风险和实际风险之间的关系,也即推广性的界。
2 基本概念机器学习的问题就是从给定的函数集中选择出能够最好地逼近训练器响应的函数。
机器学习问题可形式化地表示为:根据个独立同分布的观测样本,在一组函数中求出一个最优函数对训练器的响应进行估计,使期望风险最小,即其中,是未知的概率分布函数,为损失函数。
对于未知的概率分布,若要最小化风险函数,只有样本的信息可以利用,这导致了定义的期望风险是无法直接计算和最小化的问题。
根据概率论中大数定理的思想,人们用算术平均代替数学期望,于是定义了经验风险泛函:来逼近期望风险。
用使经验风险最小的函数来代替使期望风险最小的函数,就是所谓的经验风险最小化(Empirical Risk Minimization,简称ERM)[1]原则。
统计学习方法豆瓣
统计学习方法豆瓣篇一:统计学习方法豆瓣统计学习方法——cart, bagging, random forest, boosting ? cart(classification and regression tree)breiman, friedman, olshen & stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形优点:可以进行变量选择,可以克服missing data,可以处理混合预测缺点:不稳定 example:3.数据之美一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。
难易程度:易。
4.集体智慧编程学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。
作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的python代码。
难易程度:中。
5.machine learning in action难易程度:中。
6.推荐系统实践这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
难易程度:中上。
7.数据挖掘导论最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐jiawei han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。
难易程度:中上。
8.the elements of statistical learning 这本书有对应的中文版:统计学习基础 (豆瓣)。
书中配有r包,非常赞!可以参照着代码学习算法。
难易程度:难。
9.统计学习方法李航老师的扛鼎之作,强烈推荐。
难易程度:难。
10.pattern recognition and machine learning经典中的经典。
11.machine learning去年出版的新书,作者kevin murrphy 教授是机器学习领域中年少有为的代表。
这书是他的集大成之作,写完之后,就去google了,产学研结合,没有比这个更好的了。
统计学习方法PDF
统计学习方法PDF统计学习方法——cart, bagging, random forest, boosting ? cart(classification and regression tree)breiman, friedman, olshen & stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形优点:可以进行变量选择,可以克服missing data,可以处理混合预测缺点:不稳定example: 对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red class:x1^2+x2^2>=4.6green class: otherwise 经过不断分割可以得到最后的分类树:篇二:如何合理选择统计方法——常用统计学方法汇总01如何选择合适的统计学方法?1连续性资料1.1 两组独立样本比较1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.3 资料方差不齐,(1)采用satterthwate 的t’检验;(2)采用非参数检验,如wilcoxon检验。
1.2 两组配对样本的比较1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。
如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法,tukey法,scheffe法,snk法等。
1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的kruscal-wallis法。
如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然后用成组的wilcoxon检验。
1.4 多组随机区组样本比较1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。
统计学习理论
是很特殊的,通常只需要有某一合理数量的观测就可以解 决。
6.0 引言
平方误差损失函数: L( y, f ( x,θ )) = ( y − f ( x,θ ))2
ε 不敏感损失函数:
L( y, f ( x,θ )) =| y − f ( x,θ ) |ε ={ 0 | y − f ( x,θ ) |≤ ε | y − f ( x,θ ) | 其他
Θ = ℜ d × ℜ.
损失函数:
L( y, f ( x,θ )) = ( y − f ( x,θ )) = ( y − w x − b) .
2 T 2
6.0 引言
学习:从学习函数集中挑一个“最优”的。 什么是“最优”?
统计推断:期望风险最小化( RM ) 期望风险
∆
R(θ ) = R( f (•,θ )) = ∫ L( y, f ( x,θ ))dF ( x, y )
经验风险和期望风险
期望风险
经验风险 n
6.1 一致性与一致收敛
经验风险和期望风险都是学习函数集的 函数(泛函)。 学习的目的:通过求使经验风险最小化 的学习函数来逼近使期望风险最小化的 函数。 注意: ERM原则一致性的充分必要条件 取决于学习函数集中最差函数的性能。
6.1 一致性与一致收敛
期望风险和经验风险都是 θ 的函数,概率论中的大数定理只 说明了当样本趋于无穷多时经验风险将在概率意义上趋近 于期望风险,并没有保证两个风险的 θ 是同一点,更不能保 证经验风险能够趋近于期望风险。 即使有办法使这些条件在样本数无穷大时得到保证, 也无 法认定在这些前提下得到的经验风险最小化方法在样本数 有限时仍能得到好的结果。
统计学习[The Elements of Statistical Learning]第二章习题
Proof “If there are multiple observation pairs xi, yi , = 1, . . . , Ni at each value of xi, the risk
is limited.”(Page 32) We should estimate the parameters θ in fθ by minimizing the residual sum-of-
squares, i.e. calculate argminθ
i
Ni =1
(fθ
(xi
)
−
yi
)2,
while
Ni
Ni
argmin
(yi − fθ(xi))2 = argmin
(yi2 − 2yi fθ(xi) + fθ(xi)2)
θ
i =1
θ
i =1
= argmin
θ
i
Ni
yi2 − 2Ni
=1
Ni =1
1
P (X = x|(mk)i, Gk) = 10 f (x; (mk)i, I/5)
(5)
10 1
P (X = x|mk, Gk) = 10 f (x; (mk)i, I/5)
(6)
i=1
The values of mk is unknown, so we should marginalize them out.
(3)
1
where
f (x; µ, σ2) = √ 1 e−(x−µ)2/(2σ2)
(4)
2πσ2
Then for each class 100 observations are generated as follows: for each observation, an (mk)i at random with probability 1/10 is picked, and then generated a N ((mk)i; I/5), thus leading to a mixture of Gaussian clusters for each class. So we have
统计学习[The Elements of Statistical Learning]第六章习题
0
li (x0 ) = 1
When j ∈ {1, 2, . . . , k }, we have vector-valued function b(x)T = (1, x, x2 , . . . , xk ) and B = [1, x, x2 , . . . , xk ]. From (1), we similarly have
li (x0 )xa i (−1)b xj 0 // (2)
= bj (x0 ) =
i=1 b b a (−1) x0 x0 = N
(xi − x0 )j li (x0 )
i=1 N 2j
=
i=1 n=1
(−1)bn xj 0 li (x0 ) = 0
1
Hence we have the bias
The Element of Statistical Learning – Chapter 6
oxstar@SJTU January 6, 2011
Ex. 6.2 Show that i=1 (xi − x0 )li (x0 ) = 0 for local linear regression. Define bj (x0 ) = i=1 (xi − x0 )j li (x0 ). Show that b0 (x0 ) = 1 for local polynomial regression of any degree (including local constants). Show that bj (x0 ) = 0 for all j ∈ {1, 2, . . . , k } for local polynomial regression of degree k . What are the implications of this on the bias? Proof By the definition of vector-valued function, b(x)T = (1, x) and B = [1, x], so we have b(x0 )T = b(x0 )T (BT W(x0 )B)−1 BT W(x0 )B (1, x0 ) = b(x0 )T (BT W(x0 )B)−1 BT W(x0 )[1, x0 ] 1 b(x0 )T (BT W(x0 )B)−1 BT W(x0 )1 = = x0 b(x0 )T (BT W(x0 )B)−1 BT W(x0 )x0 =
统计学习理论简介-课件PPT
G (n)lnm Zn a N (x Zn)
• VC熵、退火的VC熵与生长函数三者之间的关系
H an (n n ) ln E (N (Z n))
13
2. 生长函数的性质与VC维(Vapnik Chervonenkis dimension)
由VC维的创立者在1968年发现了下面的规律:
• 函数集的生长函数或者与样本数成正比,即
训训练练样样本本数数1 等号成立的样本称为支
持向量,
1 因为它支撑了最优分类
面。
②求函数 ( w) 1 || w || 2 1 ( w w) 最小
2
2
这就是使置信范围最小
。
• VC维对于一个指示函数集,表示函数能打散的最
大样本数。若其生长函数是线性的,VC维为无穷
大;若以 h 的对数函数为上界,则VC维等于h。
也就是说,如果存在h个样本的样本集能够被函 数集打散,而不存在有h+1个样本能被打散, 则函数集的VC维就是h。
• 指示函数集的VC维就是用 这个函数集中的函数能够 打散的最大的样本数目表示。
• 学习过程一致的充要条件 是函数集的VC维有限。
VC维 h=d+1=2+1=3 指示函数为线性函数
16
• 根据VC维的定义,d维空间中的线性分类器中
9
• 换句话讲,如果经验风险最小化方法能提供一
个函数序列{f(x,w)},使得Remp(w)和R (w)都收
敛于最小可能的风险值R (w0) ,则这个经验风 险最小化学习过程是一致的。 • 这两个条件说明 ①式保证了所达到的风险收敛于最好的可能值。 ②式保证了可以在经验风险的取值基础上估计 最小可能的实际风险。 • 存在一种可能,预测函数集中有某个特殊的函 数满足上述条件。为此定义了非平凡一致性概 念,即预测函数集中的所有子集都满足条件。
统计学习[The-Elements-of-Statistical-Learning]第四章习题
xT Σˆ −1(µˆ2
− µˆ1)
>
1 2 (µˆ2
+ µˆ1)T Σˆ −1(µˆ2
− µˆ1)
+ log(π1)
− log(π2)
=
1 2
µˆT2
Σˆ −1µˆ2
−
1 2
µˆT1
Σˆ −1
µˆ1
+
log
N1 N
− log
N2 N
2. Let β = (β, β0)T and compute the partial deviation of the RSS(β ), then we have
+
µ1)T Σ−1(µ2
−
µ1)
+
xT Σ−1(µ2
+
µ1)
When it > 0, the LDA rule will classify x to class 2, meanwhile, we need to estimate the parameters of the Gaussian distributions using our training data
= N (µˆ2 − µˆ1) // y1 = N/N1, y2 = N/N2
(8)
2
We also have
2
(N − 2)Σˆ =
(xi − µˆk)(xi − µˆk)T
k=1 gi=k
2
=
(xixTi − 2xiµˆTk + µˆkµˆTk ) // xTi µˆk = xiµˆTk
k=1 gi=k
The Element of Statistical Learning – Chapter 4
统计学习那些事儿stories-about-statistical-learning1
统计学习那些事*杨灿†在港科大拿到PhD,做的是Bioinformatics方面的东西。
Bioinformatics这个领域很乱,从业者水平参差不齐,但随着相关技术(比如Microarray,Genotyping)的进步,这个领域一直风风光光。
因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical Learning)的魅力。
正如本科时代看过的一本网络小说《悟空传》所写的:“你不觉得天边的晚霞很美吗?只有看着她,我才能坚持向西走。
”离校前闲来无事,觉得应该把自己的一些感受写下来,和更多的爱好者分享。
1学习经历先介绍一下我是如何发现这个领域的。
我本科学自动化,大四时接触到一点智能控制的东西,比如模糊系统,神经网络。
研究生阶段除了做点小硬件和小软件,主要的时间花在研究模糊系统上。
一个偶然的机会,发现了王立新老师的《模糊系统与模糊控制教材》。
我至今依然认为这是有关模糊系统的最好的书,逻辑性非常强。
它解答了我当年的很多困惑,然而真正令我心潮澎湃的是这本书的序言,读起来有一种“飞”的感觉。
后来我终于有机会来到港科大,成为立新老师的PhD学生,时长一年半(因为立新老师离开港科大投身产业界了)。
立新老师对我的指导很少,总结起来可能就一句话:“你应该去看一下Breiman和Friedman的文章。
”立新老师在我心目中的位置是高高在上的,于是我就忠实地执行了他的话。
那一年半的时间里,我几乎把他们的文章看了好几遍。
开始不怎么懂,后来才慢慢懂了,甚至有些痴迷。
于是,我把与他们经常合作的一些学者的大部分文章也拿来看了,当时很傻很天真,就是瞎看,后来才知道他们的鼎鼎大名,Hastie,Tibshirani,Efron等。
文章看得差不多了,就反复看他们的那本书“The Elements of Statistical Learning”(以下简称ESL)。
R包的分类介绍
R的包分类介绍1.空间数据分析包1)分类空间数据(Classes for spatial data)2)处理空间数据(Handling spatial data)3)读写空间数据(Reading and writing spatial data)4)点格局分析(Point pattern analysis)5)地质统计学(Geostatistics)6)疾病制图和地区数据分析(Disease mapping and areal dataanalysis)7)生态学分析(Ecological analysis)2.机器学习包1)神经网络(Neural Networks)2)递归拆分(Recursive Partitioning)3)随机森林(Random Forests)4)Regularized and Shrinkage Methods5)Boosting6)支持向量机(Support Vector Machines)7)贝叶斯方法(Bayesian Methods)8)基于遗传算法的最优化(Optimization using Genetic Algorithms)9)关联规则(Association Rules)10)模型选择和确认(Model selection and validation)11)统计学习基础(Elements of Statistical Learning)3.多元统计包1)多元数据可视化(Visualising multivariate data)2)假设检验(Hypothesis testing)3)多元分布(Multivariate distributions)4)线形模型(Linear models)5)投影方法(Projection methods)6)主坐标/尺度方法(Principal coordinates / scaling methods)7)无监督分类(Unsupervised classification)8)有监督分类和判别分析(Supervised classification anddiscriminant analysis)9)对应分析(Correspondence analysis)10)前向查找(Forward search)11)缺失数据(Missing data)12)隐变量方法(Latent variable approaches)13)非高斯数据建模(Modelling non-Gaussian data)14)矩阵处理(Matrix manipulations)15)其它(Miscellaneous utitlies)4.药物(代谢)动力学数据分析5.计量经济学1)线形回归模型(Linear regression models)2)微观计量经济学(Microeconometrics)3)其它的回归模型(Further regression models)4)基本的时间序列架构(Basic time series infrastructure)5)时间序列建模(Time series modelling)6)矩阵处理(Matrix manipulations)7)放回再抽样(Bootstrap)8)不平等(Inequality)9)结构变化(Structural change)10)数据集(Data sets)1.R分析空间数据(Spatial Data)的包主要包括两部分:1)导入导出空间数据2)分析空间数据功能及函数包:1)分类空间数据(Classes for spatial data):包sp(/web/packages/sp/index.html)为不同类型的空间数据设计了不同的类,如:点(points),栅格(grids),线(lines),环(rings),多边形(polygons)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ ˆ f ∗b (x) = f ∗ (x)stimated from a parametric bootstrap sample is f ∗ (x) and it has distribution ˆ ˆ ˆ f ∗ (x) ∼ N (f (x), h(x)T (HT H)−1 h(x)ˆ 2 ) = N (f (x), σ ∗2 ) σ ˆ Hence we have ˆ ˆ E(f ∗ (x)) = f (x) ˆ Var(f ∗ (x)) = σ ∗2 ˆ
The Element of Statistical Learning – Chapter 8
oxstar@SJTU January 6, 2011
Ex. 8.1 Let r(y) and q(y) be probability density functions. Jensen’s inequality states that for a random variable X and a convex function φ(x), E[φ(X)] ≥ φ[E(X)]. Use Jensen’s inequality to show that Eq log[r(Y )/q(Y )] is maximized as a function of r(y) when r(y) = q(y). Hence show that R(θ, θ) ≥ R(θ , θ) as stated below equation (8.46). Proof. − log(x) is a convex function, so from Jensen’s inequality we have Eq − log[r(Y )/q(Y )] ≥ − log[Eq (r(Y )/q(Y ))] = − log[ = − log[ r(y) q(y)dy] q(y) r(y)dy]
Hence we have R(θ, θ) ≥ R(θ , θ) and iff. Pr(Zm |Z, θ ) = Pr(Zm |Z, θ), the equation is satisfied. ˆ Ex. 8.4 Consider the bagging method of Section 8.7. Let our estimate f (x) be the B-spline smoother µ(x) of Section 8.2.1. Consider the parametric bootstrap of equation (8.6), applied to ˆ ˆ this estimator. Show that if we bag f (x), using the parametric bootstrap to generate the bootstrap ˆ (x) converges to the original estimate f (x) as B → ∞. ˆ samples, the bagging estimate fbag Proof. According to the definition of bagging estimate 1 ˆ fbag (x) = B we have ˆ ˆ ˆ E(fbag (x)) = E(f ∗ (x)) = E(f ∗ (x)) ˆ Var(f ∗ (x)) ˆ ˆ Var(fbag (x)) = Var(f ∗ (x)) = B (1) (2)
= − log 1 = 0 In other words, Eq log[r(Y )/q(Y )] ≤ 0, and iff. r(y) = q(y) it get its maximum. R(θ , θ) − R(θ, θ) = E[ 1 (θ ; Zm |Z)|Z, θ] − E[ 1 (θ; Zm |Z)|Z, θ] = EPr(Zm |Z,θ) [log Pr(Zm |Z, θ )] − EPr(Zm |Z,θ) [log Pr(Zm |Z, θ)] = EPr(Zm |Z,θ) (log Pr(Zm |Z, θ ) )≤0 Pr(Zm |Z, θ)
2
B→∞
(3) (4) σ ˆ =0 B
∗2
ˆ lim Var(fbag (x)) = lim
B→∞
// from (1)-(4)
ˆ ˆ so the bagging estimate fbag (x) converges to its expected value, i.e., the original estimate f (x)