统计学习[The Elements of Statistical Learning]第四章习题
统计学习[The Elements of Statistical Learning]第七章习题
m∈L,m>l
α10−l < 2π
10m−l 10−l +
2
2
m∈L
10m−l 1
10m−l 10−l
= 2π
++
+
22
2
2
m∈L,m>l
m∈L,m<l
10m−l 1 ∞ 10−i
< 2π
++
(7)
22
2
m∈L,m>l
i=1
10m−l 1 1
1
< 2π
+ + = 2π(k + )
(8)
2 22
2
m∈L,m>l
≥0
⇒ 0 ≤ Sii < 1
yi
−
fˆ−i(xi)
=
yi − fˆ(xi) 1 − Sii
≥ yi − fˆ(xi)
// from (1)(4)
3. If the recipe for producing ˆf from y does not depend on y itself and S depends only on the xi and λ, we can just replace yi with fˆ−i(xi) in y (y → y ) without S being changed in the
// from (3)
=
xTi A−1
+
SiixTi A−1 1 − Sii
(XT y − xiyi)
(4)
=
xTi A−1XT y
−
xTi A−1xiyi
+
统计学习StatisticalLearning
samples (large l/h)
Large l/h induces a small which
decreases the the upper bound on risk
Small samples? Small empirical risk doesn’t guarantee anything! …we need to minimise both terms of the RHS of the risk bounds
统计方法是从事物的外在数量上的表现去推断该事物可 能的规律性。科学规律性的东西一般总是隐藏得比较深, 最初总是从其数量表现上通过统计分析看出一些线索, 然后提出一定的假说或学说,作进一步深入的理论研究。 当理论研究 提出一定的结论时,往往还需要在实践中加 以验证。就是说,观测一些自然现象或专门安排的实验 所得资料,是否与理论相符、在多大的程度上相符、偏 离可能是朝哪个方向等等问题,都需要用统计分析的方 法处理。
For given z1,…,zl and an admissible structure S1S2…Sn… S, SRM chooses function Q(z,lk) minimising Remp in Sk for which the
Problem: how rich class of classifications q(x;θ) to use.
underfitting
good fit
overfitting
Problem of generalization: a small emprical risk Remp does not
Vapnik V N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag, New York
统计学习方法PDF
统计学习方法——cart, bagging, random forest, boosting? cart(classification and regression tree)breiman, friedman, olshen & stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形优点:可以进行变量选择,可以克服missing data,可以处理混合预测缺点:不稳定example:对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red class: x1^2+x2^2&gt;=4。
6green class: otherwise经过不断分割可以得到最后的分类树:篇二:如何合理选择统计方法——常用统计学方法汇总01如何选择合适的统计学方法?1连续性资料1.1 两组独立样本比较1.1。
1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1。
1。
3 资料方差不齐,(1)采用satterthwate 的t’检验;(2)采用非参数检验,如wilcoxon检验。
1。
2 两组配对样本的比较1。
2。
1 两组差值服从正态分布,采用配对t检验.1.2。
2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验.1.3 多组完全随机样本比较1。
3。
1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。
如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni 法,tukey法,scheffe法,snk法等。
1。
3。
2资料不符合正态分布,或各组方差不齐,则采用非参数检验的kruscal-wallis法。
如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni 法校正p值,然后用成组的wilcoxon检验。
1。
4 多组随机区组样本比较1。
4。
1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。
统计学习[The Elements of Statistical Learning]第五章习题
4.
N
N
L(yi, g˜(xi)) + λJ(g˜) ≥ L(yi, g(xi)) + λJ(g)
i=1
i=1
with equality iff ρ(x) = 0.
1
Proof 1.
2.
3.
K(·, xi), f
HK
= ∞ ci i=1 γi
K(·, xi), φi(·)
=
∞ i=1
ci γi
[γi
(5)
β
i=1
N
= min
(yi
−
βT
1
VDγ2
φ(xi))2
+
λβT
β
β
i=1
N
= min
(yi
−
cT
φ(xi))2
+
λ(VD−γ
1 2
c)T
VDγ−
1 2
c
c
i=1
//
Let
c
=
1
Dγ2
VT β
N
= min
c
(yi − cT φ(xi))2 + λcT cD−γ 1
i=1
N
= min
{cj }∞ 1 i=1
m=1
Let gkm = hm(x)φk(x)dx and calculate ·, φ (y) , then
M
gkmhm(y) = γkφk(y)
(4)
m=1
M
gkm( hm(y)φ (y)dy) = γk φk(y)φ (y)dy
m=1
M
gkmg m = γkδk,
m=1
3
where
概率论与数理统计专业硕士研究生培养方案070103
概率论与数理统计专业硕士研究生培养方案(070103)Probability and Mathematical Statistics一、培养目标和要求(一)掌握马克思主义、毛泽东思想的基本原则和邓小平理论。
坚持党的基本路线,热爱祖国,遵纪守法,学风严谨,品德良好,适应社会主义市场经济发展的要求,积极为社会主义现代化建设服务。
(二)掌握坚实宽广的理论基础和系统深入的专门知识,具有独立从事科学研究工作的能力和社会管理方面的适应性,在科学和管理上能做出创造性的研究成果。
(三)积极参加体育锻炼,身体健康。
(四)硕士应达到的要求:①掌握本学科的基础理论和相关学科的基础知识,有较强的自学能力,及时跟踪学科发展动态。
②具有项目组织综合能力和团队工作精神,具有一定的公关能力及和谐的人际关系。
③具有良好的和职业道德、很强的责任心和敬业精神。
④广泛获取各类相关知识,对科技发展具有敏感性。
⑤有扎实的英语基础知识,能流利阅读专业文献,有较好的听说写译综合技能。
(五)本专业主要学习概率论与数理统计的基础理论与方法,加强应用现代统计方法解决社会、经济和自然科学等领域中有关数据收集和推断的实际问题的基本技能的训练。
毕业生可在高等院校、科研机构、政府机构和其他企事业单位从事统计分析与数据处理工作。
二、学习年限学制3年,学习年限最长不超过5年。
三、研究方向本学科专业主要研究方向有:试验设计与分析、面板(纵向)数据分析、可靠性统计与生存分析等。
主要导师有:岳荣先、吴鑑洪、王蓉华、吴月琴、许佩蓉等教授和副教授。
每年招生导师和研究方向,详见招生简章。
(一)试验设计与分析主要研究基于线性模型、非线性模型、广义线性模型及混合效应模型的最优设计与稳健设计等。
(二)面板(纵向)数据分析主要研究高维因子分析,面板(纵向)数据模型的随机效应和序列相关性检验,高维纵向数据的特征筛选和变量选择,基于这些数据的模型检验等。
(三)可靠性统计与生存分析可靠性统计主要研究寿命试验与加速寿命试验在全样本和不完全样本场合下产品性能参数的点估计、区间估计以及拟合检验等问题。
统计学习理论
是很特殊的,通常只需要有某一合理数量的观测就可以解 决。
6.0 引言
平方误差损失函数: L( y, f ( x,θ )) = ( y − f ( x,θ ))2
ε 不敏感损失函数:
L( y, f ( x,θ )) =| y − f ( x,θ ) |ε ={ 0 | y − f ( x,θ ) |≤ ε | y − f ( x,θ ) | 其他
Θ = ℜ d × ℜ.
损失函数:
L( y, f ( x,θ )) = ( y − f ( x,θ )) = ( y − w x − b) .
2 T 2
6.0 引言
学习:从学习函数集中挑一个“最优”的。 什么是“最优”?
统计推断:期望风险最小化( RM ) 期望风险
∆
R(θ ) = R( f (•,θ )) = ∫ L( y, f ( x,θ ))dF ( x, y )
经验风险和期望风险
期望风险
经验风险 n
6.1 一致性与一致收敛
经验风险和期望风险都是学习函数集的 函数(泛函)。 学习的目的:通过求使经验风险最小化 的学习函数来逼近使期望风险最小化的 函数。 注意: ERM原则一致性的充分必要条件 取决于学习函数集中最差函数的性能。
6.1 一致性与一致收敛
期望风险和经验风险都是 θ 的函数,概率论中的大数定理只 说明了当样本趋于无穷多时经验风险将在概率意义上趋近 于期望风险,并没有保证两个风险的 θ 是同一点,更不能保 证经验风险能够趋近于期望风险。 即使有办法使这些条件在样本数无穷大时得到保证, 也无 法认定在这些前提下得到的经验风险最小化方法在样本数 有限时仍能得到好的结果。
统计学习[The Elements of Statistical Learning]第二章习题
Proof “If there are multiple observation pairs xi, yi , = 1, . . . , Ni at each value of xi, the risk
is limited.”(Page 32) We should estimate the parameters θ in fθ by minimizing the residual sum-of-
squares, i.e. calculate argminθ
i
Ni =1
(fθ
(xi
)
−
yi
)2,
while
Ni
Ni
argmin
(yi − fθ(xi))2 = argmin
(yi2 − 2yi fθ(xi) + fθ(xi)2)
θ
i =1
θ
i =1
= argmin
θ
i
Ni
yi2 − 2Ni
=1
Ni =1
1
P (X = x|(mk)i, Gk) = 10 f (x; (mk)i, I/5)
(5)
10 1
P (X = x|mk, Gk) = 10 f (x; (mk)i, I/5)
(6)
i=1
The values of mk is unknown, so we should marginalize them out.
(3)
1
where
f (x; µ, σ2) = √ 1 e−(x−µ)2/(2σ2)
(4)
2πσ2
Then for each class 100 observations are generated as follows: for each observation, an (mk)i at random with probability 1/10 is picked, and then generated a N ((mk)i; I/5), thus leading to a mixture of Gaussian clusters for each class. So we have
统计学习理论导论(清华大学张学工讲义)-1
• How to decide the structure of the MLP?
(How many hidden layers and nodes?)
– Ask God, or guess then pray
• How to choose the neuron function?
– Usually Sigmoid (S-shaped) function
– the effort to approach mathematic models for natural nervous systems
– the effort to implement man-made intelligence
• Three types of NN:
– Feedforward NN – Feedback NN – Competitive Learning (Self-organizing) NN
Xuegong Zhang
27
Tsinghua University
学习过程的应用分析与理论分析学派
• 关于感知器学习能力的若干结论: – 关于收敛性的结论 – 关于收敛以后的测试错误率(推广能力)的结论
[Novikoff, 1962] [Aizerman, Braverman, and Rozonoer, 1964]
• 学习过程的应用分析学派:
– 最小化训练错误数是不言而喻的归纳原则,学习的主要问题在于 寻找同时构造所有神经元的系数的方法,使所形成的分类面能达
到最小的训练错误率,(这样即可得到好的推广性)
• 学习过程的理论分析学派:
Xuegong Zhang
14
Tsinghua University
统计学习[The-Elements-of-Statistical-Learning]第四章习题
xT Σˆ −1(µˆ2
− µˆ1)
>
1 2 (µˆ2
+ µˆ1)T Σˆ −1(µˆ2
− µˆ1)
+ log(π1)
− log(π2)
=
1 2
µˆT2
Σˆ −1µˆ2
−
1 2
µˆT1
Σˆ −1
µˆ1
+
log
N1 N
− log
N2 N
2. Let β = (β, β0)T and compute the partial deviation of the RSS(β ), then we have
+
µ1)T Σ−1(µ2
−
µ1)
+
xT Σ−1(µ2
+
µ1)
When it > 0, the LDA rule will classify x to class 2, meanwhile, we need to estimate the parameters of the Gaussian distributions using our training data
= N (µˆ2 − µˆ1) // y1 = N/N1, y2 = N/N2
(8)
2
We also have
2
(N − 2)Σˆ =
(xi − µˆk)(xi − µˆk)T
k=1 gi=k
2
=
(xixTi − 2xiµˆTk + µˆkµˆTk ) // xTi µˆk = xiµˆTk
k=1 gi=k
The Element of Statistical Learning – Chapter 4
python 300本电子书合集
Rapid+GUI+Programming+with+Python+and+Qt.pdf
quantsp研究计划书.pdf
Qt5_Python_GUI_Programming_Cookbook.pdf
PYTHON自然语言处理中文翻译 NLTK 中文版.pdf
Python编程导论第2版_2018(#).pdf
Python编程初学者指南.pdf
Python编程:从入门到实践.pdf
Python_文本处理指南[经典].pdf
Python_Web开发实战.pdf
Python_Web开发:测试驱动方法.pdf
Python_Testing_Cookbook.pdf
Python机器学习实践指南(中文版带书签)、原书代码、数据集
python官方文档
Python编程(第4版 套装上下册)
linux
征服PYTHON-语言基础与典型应用.pdf
与孩子一起学编程_中文版_详细书签.pdf
用Python做科学计算.pdf
用Python写网络爬虫.pdf
用Python进行自然语言处理(中文翻译NLTK).pdf
面向对象的思考过程.pdf
码农 第8期.pdf
码农 第7期.pdf
码农 第6期.pdf
码农 第5期.pdf
流畅的python.pdf
零基础学python.pdf
量化投资以Python为工具.pdf
利用Python进行数据分析(###).pdf
可爱的Python(哲思社区.插图版_文字版).pdf
统计学习那些事儿stories-about-statistical-learning1
统计学习那些事*杨灿†在港科大拿到PhD,做的是Bioinformatics方面的东西。
Bioinformatics这个领域很乱,从业者水平参差不齐,但随着相关技术(比如Microarray,Genotyping)的进步,这个领域一直风风光光。
因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical Learning)的魅力。
正如本科时代看过的一本网络小说《悟空传》所写的:“你不觉得天边的晚霞很美吗?只有看着她,我才能坚持向西走。
”离校前闲来无事,觉得应该把自己的一些感受写下来,和更多的爱好者分享。
1学习经历先介绍一下我是如何发现这个领域的。
我本科学自动化,大四时接触到一点智能控制的东西,比如模糊系统,神经网络。
研究生阶段除了做点小硬件和小软件,主要的时间花在研究模糊系统上。
一个偶然的机会,发现了王立新老师的《模糊系统与模糊控制教材》。
我至今依然认为这是有关模糊系统的最好的书,逻辑性非常强。
它解答了我当年的很多困惑,然而真正令我心潮澎湃的是这本书的序言,读起来有一种“飞”的感觉。
后来我终于有机会来到港科大,成为立新老师的PhD学生,时长一年半(因为立新老师离开港科大投身产业界了)。
立新老师对我的指导很少,总结起来可能就一句话:“你应该去看一下Breiman和Friedman的文章。
”立新老师在我心目中的位置是高高在上的,于是我就忠实地执行了他的话。
那一年半的时间里,我几乎把他们的文章看了好几遍。
开始不怎么懂,后来才慢慢懂了,甚至有些痴迷。
于是,我把与他们经常合作的一些学者的大部分文章也拿来看了,当时很傻很天真,就是瞎看,后来才知道他们的鼎鼎大名,Hastie,Tibshirani,Efron等。
文章看得差不多了,就反复看他们的那本书“The Elements of Statistical Learning”(以下简称ESL)。
从理论到应用浅谈lasso模型
从理论到应用——浅谈lasso模型【摘要】回归模型是我们在处理数据中常用的方法。
其中,Lasso模型是一种适用于多重共线性问题,能够在参数估计的同时实现变量的选择的回归方法。
本文从lasso模型的概念谈起,Rtois【key words】Lasso ridge regression lar R language目录一、定义及基本信息.................................. - 2 -二、起源与原理...................................... - 2 -三、模型的思想...................................... - 2 -八、参考资料....................................... - 11 -一、定义及基本信息Lasso模型是由Robert Tibshirani在1996年JRSSB上的一篇文章Regression shrinkage and selection via the lasso所提出的一种能够实现指标集合精简的估计方法。
在参数估计的同时实现变量的选择(可以解决回归分析中的多重共线性问题)。
全称:Least Absolute Shrinkage and Selection Operator读音:[læ‵su:] 而不是[‵læso]何参数为0,没办法得出简单的可解释的模型。
lasso模型就此提出,The least absolute shrinkage and selection operator,同时缩小(shrinkage)和设置成参数为0(selection),保持了子集选择和岭回归的良好特征。
[2]三、模型的思想lasso是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。
R包的分类介绍
R的包分类介绍1.空间数据分析包1)分类空间数据(Classes for spatial data)2)处理空间数据(Handling spatial data)3)读写空间数据(Reading and writing spatial data)4)点格局分析(Point pattern analysis)5)地质统计学(Geostatistics)6)疾病制图和地区数据分析(Disease mapping and areal dataanalysis)7)生态学分析(Ecological analysis)2.机器学习包1)神经网络(Neural Networks)2)递归拆分(Recursive Partitioning)3)随机森林(Random Forests)4)Regularized and Shrinkage Methods5)Boosting6)支持向量机(Support Vector Machines)7)贝叶斯方法(Bayesian Methods)8)基于遗传算法的最优化(Optimization using Genetic Algorithms)9)关联规则(Association Rules)10)模型选择和确认(Model selection and validation)11)统计学习基础(Elements of Statistical Learning)3.多元统计包1)多元数据可视化(Visualising multivariate data)2)假设检验(Hypothesis testing)3)多元分布(Multivariate distributions)4)线形模型(Linear models)5)投影方法(Projection methods)6)主坐标/尺度方法(Principal coordinates / scaling methods)7)无监督分类(Unsupervised classification)8)有监督分类和判别分析(Supervised classification anddiscriminant analysis)9)对应分析(Correspondence analysis)10)前向查找(Forward search)11)缺失数据(Missing data)12)隐变量方法(Latent variable approaches)13)非高斯数据建模(Modelling non-Gaussian data)14)矩阵处理(Matrix manipulations)15)其它(Miscellaneous utitlies)4.药物(代谢)动力学数据分析5.计量经济学1)线形回归模型(Linear regression models)2)微观计量经济学(Microeconometrics)3)其它的回归模型(Further regression models)4)基本的时间序列架构(Basic time series infrastructure)5)时间序列建模(Time series modelling)6)矩阵处理(Matrix manipulations)7)放回再抽样(Bootstrap)8)不平等(Inequality)9)结构变化(Structural change)10)数据集(Data sets)1.R分析空间数据(Spatial Data)的包主要包括两部分:1)导入导出空间数据2)分析空间数据功能及函数包:1)分类空间数据(Classes for spatial data):包sp(/web/packages/sp/index.html)为不同类型的空间数据设计了不同的类,如:点(points),栅格(grids),线(lines),环(rings),多边形(polygons)。
数字人文研究方法与工具书目
甲骨学知识图谱构建方法研究 电影产业数据挖掘 . = Movie industry data mining
K877.1 X638 J90-05 W415
矢量图形特征的空间数据挖掘及其应用 . = Spatial Data mining of vector features K878-39 B762 and its application
Financial modeling in Excel /
GIS与考古学空间分析实践教程 IBM SPSS Modeler数据与文本挖掘实战 IBM SPSS Modeler 18.0数据挖掘权威指南 IBM SPSS for introductory statistics : use and interpretation /
F274-39 B687A2
数据挖掘 : 客户关系管理的科学与艺术 . = Mastering data mining : the art and science of customer relationship management 数据挖掘与教育 . = Data mining and education
C819 Z196A2C2 C819-43 Z730 C819-43 C528 H0-39 L863
Python : 数据科学的手段 Python : 统计人的视角 Python统计可视化之Altair探索分析实践指南 Python计算传播学实战
C819 W899A3 C819 W899A2 C819 L600 G206-39 L761
社会网络数据分析 . = Social network data analytics
社会网络的动态分析与仿真实验 : 理论与应用 . = Theory and application of social network dynamic analysis and simulation experiments
统计学习理论简介-课件PPT
G (n)lnm Zn a N (x Zn)
• VC熵、退火的VC熵与生长函数三者之间的关系
H an (n n ) ln E (N (Z n))
13
2. 生长函数的性质与VC维(Vapnik Chervonenkis dimension)
由VC维的创立者在1968年发现了下面的规律:
• 函数集的生长函数或者与样本数成正比,即
训训练练样样本本数数1 等号成立的样本称为支
持向量,
1 因为它支撑了最优分类
面。
②求函数 ( w) 1 || w || 2 1 ( w w) 最小
2
2
这就是使置信范围最小
。
• VC维对于一个指示函数集,表示函数能打散的最
大样本数。若其生长函数是线性的,VC维为无穷
大;若以 h 的对数函数为上界,则VC维等于h。
也就是说,如果存在h个样本的样本集能够被函 数集打散,而不存在有h+1个样本能被打散, 则函数集的VC维就是h。
• 指示函数集的VC维就是用 这个函数集中的函数能够 打散的最大的样本数目表示。
• 学习过程一致的充要条件 是函数集的VC维有限。
VC维 h=d+1=2+1=3 指示函数为线性函数
16
• 根据VC维的定义,d维空间中的线性分类器中
9
• 换句话讲,如果经验风险最小化方法能提供一
个函数序列{f(x,w)},使得Remp(w)和R (w)都收
敛于最小可能的风险值R (w0) ,则这个经验风 险最小化学习过程是一致的。 • 这两个条件说明 ①式保证了所达到的风险收敛于最好的可能值。 ②式保证了可以在经验风险的取值基础上估计 最小可能的实际风险。 • 存在一种可能,预测函数集中有某个特殊的函 数满足上述条件。为此定义了非平凡一致性概 念,即预测函数集中的所有子集都满足条件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ = (N − 2)Σ
k=1 gi =k 2
(xi − µ ˆk )(xi − µ ˆk )T (xi xT ˆT ˆk µ ˆT i − 2 xi µ k +µ k)
k=1 gi =k 2
(9)
=
// xT ˆ k = xi µ ˆT i µ k
(10)
=
k=1 N gi =k
xi xT ˆk µ ˆT i − Nk µ k
(5)
=
k=1
Nk µ ˆk
N yk − (N1 y1 + N2 y2 ) N
x i = Nk µ ˆk
(6) (7) (8)
N1 N2 (y2 − y1 )(ˆ µ2 − µ ˆ1 ) N = N (ˆ µ2 − µ ˆ1 ) // y1 = N/N1 , y2 = N/N2 =
2
We also have
//
gi =k
x i = Nk µ ˆk
(11)
=
i=1 N
xi xT ˆ1 µ ˆT ˆ2 µ ˆT i − (N1 µ 1 + N2 µ 2)
2
(12)
xi x ¯T =
i=1 k=1 gi =k
xk
2 k=1
gi =k
xk
T
N
(13) (14)
= Meanwhile
N N
1 (N1 µ ˆ 1 + N2 µ ˆ2 )(N1 µ ˆ 1 + N2 µ ˆ2 )T N
1
ˆ0 , and hence the predicted values f ˆ= β ˆ0 + β ˆT x. Consider the following 5. Find the solution β rule: classify to class 2 if y ˆi > 0 and class 1 otherwise. Show this is not the same as the LDA rule unless the classes have equal numbers of observations. (Fisher, 1936; Ripley, 1996) Proof 1. Consider the log-ratio of each class density (equation 4.9 in text book) log π2 1 Pr(G = 2|X = x) = log − (µ2 + µ1 )T Σ−1 (µ2 − µ1 ) + xT Σ−1 (µ2 + µ1 ) Pr(G = 1|X = x) π1 2
N1 N2 N (y2
(17) (18)
(19) (20) (21)
4. By replacing N with ˆ= β
− y1 ) (from (7) and (8)) and from (20), we still have
N1 N2 ˆ −1 (ˆ ˆ −1 (ˆ (y2 − y1 ) − (ˆ µ2 − µ ˆ1 )T β Σ µ2 − µ ˆ1 ) ∝ Σ µ2 − µ ˆ1 ) N (N − 2)
When it > 0, the LDA rule will classify x to class 2, meanwhile, we need to estimate the parameters of the Gaussian distributions using our training data 1 ˆ −1 (ˆ ˆ −1 (ˆ µ2 + µ ˆ 1 )T Σ µ2 − µ ˆ1 ) + log(π1 ) − log(π2 ) xT Σ µ2 − µ ˆ1 ) > (ˆ 2 1 T ˆ −1 1 T ˆ −1 N1 N2 = µ ˆ Σ µ ˆ2 − µ ˆ Σ µ ˆ1 + log − log 2 2 2 1 N N 2. Let β = (β, β0 )T and compute the partial deviation of the RSS(β ), then we have ∂ RSS(β ) = −2 (yi − β0 − β T xi ) = 0 ∂β0 i=1 ∂ RSS(β ) = −2 xi (yi − β0 − β T xi ) = 0 ∂β i=1 We can also derive that β0 =
1
a = W− 2 b,
1
aT = bT W− 2
1
Hence the generalized eigenvalue problem max(aT Ba) = max(bT W− 2 BW− 2 b)
a b
1 1
subject to
aT Wa = bT W− 2 WW− 2 b = 1 So the problem is transformed to a standard eigenvalue problem. Ex. 4.2 Suppose we have features x ∈ Rp , a two-class response, with class sizes N1 , N2 , and the target coded as −N/N1 , N/N2 . 1. Show that the LDA rule classies to class 2 if 1 T ˆ −1 N1 1 T ˆ −1 N2 ˆ −1 (ˆ ˆ2 Σ µ ˆ2 − µ ˆ1 Σ µ ˆ1 + log xT Σ µ2 − µ ˆ1 ) > µ − log , 2 2 N N and class 1 otherwise. 2. Consider minimization of the least squares criterion
N
N
xi [β (xi − x ¯)] =
i=1 i=1
T
xi [(xi − x ¯) β ] =
i=1
T
xi xT i
−
i=1
xi x ¯T β
(15)
1 ˆ + (N1 µ = (N − 2)Σ ˆ1 µ ˆT ˆ2 µ ˆT (N1 µ ˆ 1 + N2 µ ˆ2 )(N1 µ ˆ 1 + N2 µ ˆ2 )T β // from (12)(14) 1 + N2 µ 2)− N (16) ˆ + N1 N2 (ˆ µ2 µ ˆT ˆ1 µ ˆT ˆ2 µ ˆT ˆ1 µ ˆT = (N − 2)Σ 2 −µ 2 −µ 1 +µ 1) β N ˆ B β = N (ˆ ˆ + N1 N2 Σ µ2 − µ ˆ1 ) // from (8) = (N − 2)Σ N 3. ˆ B β = (ˆ Σ µ2 − µ ˆ1 )(ˆ µ2 − µ ˆ 1 )T β ˆ B β is in the direction (ˆ (ˆ µ2 − µ ˆ1 )T β is a scalar, therefore Σ µ2 − µ ˆ1 ), and ˆ= β N1 N2 ˆ 1 ˆ −1 Σ N (ˆ µ2 − µ ˆ1 ) − ΣB β // from (18) N −2 N 1 N1 N2 ˆ −1 (ˆ = N− (ˆ µ2 − µ ˆ 1 )T β Σ µ2 − µ ˆ1 ) N −2 N ˆ −1 (ˆ ∝Σ µ2 − µ ˆ1 )
The Element of Statistical Learning – Chapter 4
oxstar@SJTU January 6, 2011
Ex. 4.1 Show how to solve the generalized eigenvalue problem max aT Ba subject to aT Wa = 1 by transforming to a standard eigenvalue problem. Answer W is the common covariance matrix, and it’s positive-semidefinite, so we can define b = W 2 a,
ˆ µ ˆy k = ˆ µ ˆy = gi =k
y ˆi y ˆi
Nk
gi =
= =
gi =k
ˆ T xi B
gi =
Ni ˆ T xi B
ˆTµ =B ˆx k ˆTµ =B ˆx
N N N(1)(2) Nhomakorabea1 N
N
N
(yi − β T xi )
i=1
// from (1)
(3)
xi [β T (xi − x ¯)] =
i=1 i=1 2
xi yi −
1 N
N
yj
j =1
// from (2)(3)
(4)
=
k=1 gi =k 2
xi yk −
N1 y1 + N2 y2 N //
gi =k
Compare (24) with (25), we can find that they are the same rule. But when N1 = N2 , these rules are obviously different. ˆ via linear regression. In detail, let Ex. 4.3 Suppose we transform the original predictors X to Y T −1 T ˆ ˆ Y = X(X X) X Y = XB, where Y is the indicator response matrix. Similarly for any input ˆ T x ∈ RK . Show that LDA using Y ˆ is identical to LDA x ∈ Rp , we get a transformed vector y ˆ=B in the original space. ˆ T x, so we have Proof Transformed vector y ˆ=B