PRML第三章习题答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PRML第三章习题答案
Chapter 3. Linear Models for Regression
⽬录
更新⽇志（截⾄20210710）
习题简述
线性回归
3.1：\text{tanh}可由\sigma线性变换得到
3.2：最⼩⼆乘解为正交投影
：加权最⼩⼆乘对应数据依赖的噪声或重复数据
：带噪声的输⼊相当于权重正则，类别神经⽹络的数据增强
：带权重正则的最⼩⼆乘等同于带约束优化
：多元线性回归的极⼤似然估计
3.7：权重的最⼤后验估计
：线性回归的序列学习
：利⽤⾼斯线性模型证明3.8
：计算预测分布
：证明后验⽅差随数据量增⼤⽽减⼩
3.12：权重分布的共轭先验
：证明基于 Gaussian-gamma 先验的权重分布的预测分布是 Student's t 分布
：正交基函数诱导的等价核的性质
经验贝叶斯
-3.19：evidence 的对数似然
：推导\alpha的优化过程
：利⽤⾏列式对数的导数优化\alpha
：推导\beta的优化过程
：计算 evidence 的边际分布
：⽤贝叶斯公式重新推导 3.23
习题详解
Exercise 3.3
Hint.
\begin{aligned} E_D(\mathbf{w}) &=\frac{1}{2}\sum^N_{n=1}r_n\|\mathbf{t}_n-W^T\phi(\mathbf{x}_n)\|^2_2\\ &=-\sum^N_{n=1}\ln\mathcal{N} (\mathbf{t}_n|W^T\phi(\mathbf{x}_n),r_n^{-1}I)+\text{const.} \end{aligned}
第⼀个等号可以把r_n理解为样本权重，第⼆个等号可以把r_n理解为样本噪声的精度（precision）。

Comment.
Exercise 3.4
Solution.
由于样本独⽴，噪声与输⼊独⽴，只需考虑⼀个样本的情形。

\begin{aligned} \underset{\epsilon}{\mathbb{E}}\left[(w^T(x+\epsilon)-t)^2\right] &= \underset{\epsilon}{\mathbb{E}}\left[((w^Tx-
t)+w^T\epsilon)^2\right]\\ &=\underset{\epsilon}{\mathbb{E}}\left[(w^Tx-t)^2\right] + \underset{\epsilon}{\mathbb{E}}\left[(w^T\epsilon)
(\epsilon^Tw)\right] + \underset{\epsilon}{\mathbb{E}}\left[ (w^Tx-t)w^T\epsilon\right]\\ &=(w^Tx-t)^2 + w^T\underset{\epsilon}
{\mathbb{E}}\left[\epsilon\epsilon^T\right]w + (w^Tx-t)w^T\underset{\epsilon}{\mathbb{E}}\left[ \epsilon\right]\\ &=(w^Tx-t)^2 + \sigma^2 w^T w \end{aligned}
Comment.
该结论对多元输出的情形亦成⽴，只需⽤迹技巧展开 F-范数。

Exercise 3.5
Hint.
带约束的优化问题
\begin{aligned} \min_{\mathbf{w}}&\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2\\ \text{s.t.}&\,\|\mathbf{w}\|^q_q\leq \eta. \end{aligned}
⽤拉格朗⽇乘⼦法等价转为⽆约束优化问题
\min_{\mathbf{w}}\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2+\frac{\lambda}{2}(\|\mathbf{w}\|^q_q- \eta)
记最优解为\mathbf{w}^*_\lambda，若\lambda >0，则由 KKT 条件有等式约束满⾜，即\eta=\|\mathbf{w}^*_\lambda\|^q_q，即\eta对应最优解的q-范数。

Comment.
Exercise 3.6
Solution.
\begin{aligned} \mathcal{L} &=-\sum^N_{n=1}\ln\mathcal{N}(\mathbf{t}_n|\mathbf{W}^T\phi(\mathbf{x}_n),\Sigma)\\ &=\frac{N}
{2}\ln|\Sigma|+\frac{1}{2}\sum^N_{n=1}(\mathbf{W}^T\phi(\mathbf{x}_n)-\mathbf{t}_n)^T\Sigma^{-1}(\mathbf{W}^T\phi(\mathbf{x}_n)-
\mathbf{t}_n)+\text{const.}\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}((\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}(\Phi \mathbf{W}-
\mathbf{T})^T)+\text{const.}\\ &=\frac{N}{2}\ln|\Sigma|+\frac{1}{2}\text{tr}(\Sigma^{-1}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-
\mathbf{T}))+\text{const.} \end{aligned}
计算梯度得
\begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{W}} &=\Phi^T(\Phi \mathbf{W}-\mathbf{T})\Sigma^{-1}=0\\ \frac{\partial \mathcal{L}} {\partial \Sigma^{-1}}&=-\frac{N}{2}\Sigma+\frac{1}{2}(\Phi \mathbf{W}-\mathbf{T})^T(\Phi \mathbf{W}-\mathbf{T})=0 \end{aligned}
故\mathbf{W}_{\text{ML}}=(\Phi^T\Phi)^\dagger\Phi^T\mathbf{T},\Sigma_{\text{ML}}=(\Phi \mathbf{W}_{\text{ML}}-\mathbf{T})^T(\Phi
\mathbf{W}_{\text{ML}}-\mathbf{T})。

Comment.
求解过程中发现，对于线性回归问题，噪声的协⽅差矩阵不影响权重矩阵的优化。

Exercise 3.8
Solution.
记\Phi_N=[\phi_1^T;\dots;\phi_N^T],\mathbf{t}_N=[t_1,\dots,t_N]^T，则已知N个样本的后验估计可以表⽰为
\begin{aligned} \mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_N\mathbf{t}_N)\\ \mathbf{S}_N^{-
1}&=\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N \end{aligned}
记\Phi_{N+1}=[\Phi_N;\phi_{N+1}],\mathbf{t}_{N+1}=[\mathbf{t}_N^T,t_{N+1}]^T，则
\begin{aligned} \Phi^T_{N+1}\Phi_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[ \begin{matrix} \Phi_N\\\phi_{N+1} \end{matrix}
\right]=\Phi^T_N\Phi^T_N+\phi_{N+1}\phi_{N+1}^T\\ \Phi^T_{N+1}\mathbf{t}_{N+1}&=[\Phi_N^T,\phi_{N+1}]\left[ \begin{matrix}
\mathbf{t}_N\\t_{N+1} \end{matrix} \right]=\Phi^T_{N}\mathbf{t}_{N}+t_{N+1}\phi_{N+1} \end{aligned}
故
\begin{aligned} \mathbf{S}_{N+1}^{-1} &=\mathbf{S}_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\ &=\mathbf{S}_0^{-
1}+\beta\Phi^T_{N}\Phi_{N}+\beta\phi_{N+1}\phi_{N+1}^T\\ &=\mathbf{S}_{N}^{-1}+\beta\phi_{N+1}\phi_{N+1}^T \end{aligned}
另外
\begin{aligned} \mathbf{m}_{N+1}&=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N+1}\mathbf{t}_{N+1})\\
&=\mathbf{S}_{N+1}(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T_{N}\mathbf{t}_{N}+\beta t_{N+1}\phi_{N+1})\\ &=\mathbf{S}_{N+1}
(\mathbf{S}_{N}^{-1}\mathbf{m}_N+\beta t_{N+1}\phi_{N+1}) \end{aligned}
即得到了增加第N+1个样本时的更新公式。

可以看到，递推式和通项公式形式上⼗分接近。

Exercise 3.9
Solution.
将序列估计写为⾼斯线性模型为
\begin{aligned} p(\mathbf{w})&=\mathcal{N}(\mathbf{w}|\mathbf{m}_N,(\mathbf{S}_N^{-1})^{-1})\\ p(t_{N+1}|\mathbf{w})&=\mathcal{N}
(\mathbf{w}|\phi_{N+1}^T\mathbf{w},(\beta I)^{-1}) \end{aligned}
由⾼斯线性模型的结论，
\begin{aligned} p(\mathbf{w}|t_{N+1}) &=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\phi_{N+1}\beta I t_{N+1}+\mathbf{S}_N^{-
1}\mathbf{m}_N),\mathbf{S}_{N+1})\\ &=\mathcal{N}(\mathbf{w}|\mathbf{S}_{N+1}(\mathbf{S}_N^{-
1}\mathbf{m}_N+\beta\phi_{N+1}t_{N+1}),\mathbf{S}_{N+1}) \end{aligned}
其中\mathbf{S}_{N+1}=(\mathbf{S}_{N}+\beta\Phi_{N+1}\phi_{N+1}^T)^{-1}，结果与上题结论⼀致。

Comment.
本题提供了线性回归序列更新的⼀个重要观点，即将其视为线性⾼斯模型。

Exercise 3.10
Solution.
p(t|\mathbf{w},\beta)=\mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1}),p(\mathbf{w}|\mathbf{t},\alpha,\beta)=\mathcal{N}
(\mathbf{w}|\mathbf{m}_N,\mathbf{S}_N)可视为⾼斯线性模型t=\phi^T\mathbf{w}，已知t|\mathbf{w},\mathbf{w}的分布，求t的分布。

套⽤⾼斯线性模型的结论有
p(t|\mathbf{t},\alpha,\beta)=\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}+\phi^T\mathbf{S}_N\phi).
Exercise 3.11
Hint.
记\Phi_N = [\phi^T_0;\dots;\phi^T_N]
\begin{aligned} S_{N+1}^{-1} &=S_0^{-1}+\beta\Phi^T_{N+1}\Phi_{N+1}\\ &=S_0^{-1}+\beta [\Phi_N^T,\phi_{N+1}] \left[ \begin{matrix}
\Phi_N\\ \phi^T_{N+1} \end{matrix} \right]\\ &=S_0^{-1}+\beta(\Phi_N^T\Phi_N + \phi_{N+1}\phi^T_{N+1})\\ &=S_N^{-1}+v
v^T\quad(v=\sqrt{\beta}\phi_{N+1}) \end{aligned}
根据提⽰(M+v v^T)^{-1}=M^{-1}-\frac{(M^{-1}v)(v^T M^{-1})}{1+v^T M^{-1}v}，(M+v v^T)^{-1}\preceq M^{-1}，令M=S_N^{-1}，则
有S_{N+1}\preceq S_N，则有\sigma^2_{N+1}\leq \sigma^2_{N}。

Exercise 3.12
Solution.
由正⽂公式3.10，
\ln p(\mathbf{t}|\mathbf{w},\beta) = \frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2
故对于\beta，
p(\mathbf{t}|\mathbf{w},\beta) \propto \beta^{N/2}e^{-\frac{1}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\beta}
即关于\beta的共轭先验为 gamma 分布；
对于\mathbf{w}，
p(\mathbf{t}|\mathbf{w},\beta) \propto e^{-\frac{1}{2}(\mathbf{w}-\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})^T(\beta\Phi^T\Phi)(\mathbf{w}-
\sqrt{\Phi^T\Phi}^{-1}\mathbf{t})}
即关于\mathbf{w}的共轭先验为⾼斯分布，因此，关于\mathbf{w},\beta的共轭先验为 normal-gamma 分布，记作
p(\mathbf{w},\beta)=\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)
其后验分布
\begin{aligned} \ln p(\mathbf{w},\beta|\mathbf{t}) &= p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)+\text{const.}\\ &=\frac{N}{2}\ln \beta-\frac{N}{2}\ln 2\pi -\frac{\beta}{2}\|\Phi\mathbf{w}-\mathbf{t}\|^2_2\\ &\quad\,\, +\frac{M}{2}\ln \beta-\frac{1}{2}\ln |\mathbf{S}_0|-\frac{\beta}{2} (\mathbf{w}-\mathbf{m}_0)\mathbf{S}^{-1}_0(\mathbf{w}-\mathbf{m}_0)\\ &\quad\,\, +a_0\ln b_0 + (a_0-1)\ln \beta-b_0\beta+\text{const.}\\
&=\left(\frac{N+M}{2}+(a_0-1)\right)\ln\beta\\ &\quad\,\, -\frac{\beta}{2}\mathbf{w}^T(\mathbf{S}_0^{-
1}+\Phi^T\Phi)\mathbf{w}+\beta(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})^T\mathbf{w}-\frac{\beta}{2}
(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0+2b_0)+\text{const.} \end{aligned}
其中，三个等号右边的\text{const.}均代表与\beta,\mathbf{w}⽆关的常数项，未必相等。

注意到\ln p(\mathbf{w},\beta|\mathbf{t})=\ln p(\mathbf{w}|\beta,\mathbf{t})+\ln p(\beta|\mathbf{t})，下⾯分别考虑\mathbf{w}|\beta和\beta。

对于\mathbf{w}|\beta，由最后⼀个等号可知
p(\mathbf{w}|\beta,\mathbf{t})=\mathcal{N}(\mathbf{w}|(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}(\mathbf{S}_0^{-
1}\mathbf{m}_0+\Phi^T\mathbf{t}),\beta^{-1}(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1})
即
\begin{aligned} \mathbf{m}_N&=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\Phi^T\mathbf{t})\\ \beta\mathbf{S}_N^{-
1}&=\beta(\mathbf{S}_0^{-1}+\Phi^T\Phi) \end{aligned}
z则
\begin{aligned} \ln p(\beta|\mathbf{t}) &=\ln p(\mathbf{w},\beta|\mathbf{t})-\ln p(\mathbf{w}|\beta,\mathbf{t})\\ &=\left(\frac{N}{2}+(a_0-
1)\right)\ln\beta-\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}^{-
1}_N\mathbf{m}_N+2b_0)+\text{const.} \end{aligned}
记
\begin{aligned} a_N&=a_0+\frac{N}{2}\\ b_N&=b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}^{-1}_0\mathbf{m}_0-
\mathbf{m}_N^T\mathbf{S}^{-1}_N\mathbf{m}_N) \end{aligned}
则
p(\beta|\mathbf{t})=\text{Gam}(\beta|a_N,b_N)
Comment.
1. 通过似然函数可以得到共轭先验的函数形式，通过⽐对相关项得出分布的参数
2. 后验分布为\mathbf{w},t的联合分布，拆分成条件分布易于确定分布参数
Exercise 3.13
Solution.
\begin{aligned} p(t|\mathbf{t}) &=\int\int p(t|\mathbf{w},\beta)p(\mathbf{w},\beta|\mathbf{t})\text{d}\,\mathbf{w}\,\text{d}\,\beta\\ &=\int\int
\mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}
(\beta|a_N,b_N)\text{d}\,\mathbf{w}\,\text{d}\,\beta\\ &=\int\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\int \mathcal{N}(t|\mathbf{w}^T\phi,\beta^{-1})\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{d}\,\mathbf{w}\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-
1}+\beta\phi^T\mathbf{S}_N\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-
1}+\phi^T(\beta\mathbf{S}_0^{-1}+\beta\Phi^T_N\Phi_N)^{-1}\phi)\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\quad(\beta\mathbf{S}^{-
1}_N=\beta(\mathbf{S}^{-1}_0+\Phi^T_N\Phi_N))\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}(1+\phi^T(\mathbf{S}_0^{-
1}+\Phi^T_N\Phi_N)^{-1}\phi))\text{Gam}(\beta|a_N,b_N)\text{d}\,\beta\\ &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\beta^{-1}s)\text{Gam} (\beta|a_N,b_N)\text{d}\,\beta\quad(s=(1+\phi^T(\mathbf{S}_0^{-1}+\Phi^T_N\Phi_N)^{-1}\phi))\\ &=\int\mathcal{N}
(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\quad(\gamma=\beta s^{-1})\\ \end{aligned}
其中第 5 个等号由习题 3.12 的结论得到。

注意到
\begin{aligned} \text{Gam}(\gamma s|a,b) &=\frac{1}{\Gamma(a)}b^a(\gamma s)^{a-1}e^{-b\gamma s}\\ &=\frac{1}{s\Gamma(a)}
(bs)^a(\gamma)^{a-1}e^{-(bs)\gamma}\\ &=\frac{1}{s}\text{Gam}(\gamma|a,bs) \end{aligned}
故
\begin{aligned} p(t|\mathbf{t}) &=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma s|a_N,b_N)\text{d}\,\gamma s\\
&=\int\mathcal{N}(t|\phi^T\mathbf{m}_N,\gamma^{-1})\text{Gam}(\gamma|a_N,sb_N)\text{d}\,\gamma\\ &=\text{St}
(t|\phi^T\mathbf{m}_N,\frac{a_N}{sb_N},2a_N) \end{aligned}
Comment.
本题⽤到了 gamma 分布的概率密度函数的以下性质
\text{Gam}(\lambda s|a,b)=\frac{1}{s}\text{Gam}(\lambda|a,bs).
Exercise 3.14
Solution.
正交性条件即矩阵\Psi的列构成⼳正基，在样本数N⼤于特征维度M的前提下，若\Phi列线性⽆关，则可列正交化，进⼀步可以归⼀化。

设\Phi经变换P得到正交矩阵\Psi，即\Psi = \Phi P，且\Psi^T\Psi=I。

线性回归的等价核
\begin{aligned} k(x,x') &=\beta\phi(x)^T S_N \phi(x')\\ &=\beta\phi(x)^T(\beta\Phi^T\Phi)^{-1}\phi(x')\quad(\alpha=0)\\
&=\phi(x)^T(P^T\Psi^T\Psi P)^{-1}\phi(x')\quad(\Psi=\Phi P)\\ &=\phi(x)^T P^{-1} {P^{-1}}^T\phi(x')\\ &=({P^{-1}}^T\phi(x))^T({P^{-
1}}^T\phi(x'))\\ &=\psi(x)^T\psi(x')\quad({P^{-1}}^T\phi(x)=\psi(x)) \end{aligned}
核即样本空间上的内积，上述过程给出了其在正交基下的表⽰。

\begin{aligned} \sum^N_{n=1}k(x,x_n) &=\sum^N_{n=1}\psi(x)^T\psi(x_n)\\ &=\mathbf{1}^T\Psi \psi(x) \end{aligned}
假设\psi_0为常数函数，由于||\psi_0(X)||_2=1，故\psi_0(x)\equiv \frac{1}{\sqrt{N}}，⽽题⽬假设\psi_0(x)\equiv 1违反了规范性约束。

故\mathbf{1}^T\Psi \psi(x) = \sqrt{N}\,\psi_0(X)^T\Psi\psi(x)=\sqrt{N}\,\mathbf{e}_0^T\psi(x)=\sqrt{N}\,\psi_0(x)=1。

Comment.
核的和约束来⾃于线性回归的常数项。

Exercise 3.15
Hint.
注意理解本题的意思，是基于经验贝叶斯框架优化得到的\alpha,\beta，E(\mathbf{m}_N)为常数，⼀般⽽⾔其⾮常数。

由公式3.92，\alpha^*=\frac{\gamma}{\mathbf{m}_N^T\mathbf{m}_N}，由公式3.95，(\beta^*)^{-1}=\frac{1}{N-\gamma}\|\Phi\mathbf{m}_N-\mathbf{t}\|^2_2，代⼊E(\mathbf{m}_N)的表达式即可得到结果。

Exercise 3.16
Solution.
p(\mathbf{t}|\mathbf{w},\beta)=\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N),p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|0,\alpha^{-1}I_M)，对于随机变量\mathbf{w},\mathbf{t}|\mathbf{w}由⾼斯线性模型有
p(\mathbf{t}|\alpha,\beta)=\mathcal{N}(\mathbf{t}|0,\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)
下⾯证明其与公式3.86相等，需要建⽴\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T与\alpha I_M+\beta\Phi^T\Phi的联系。

⼀⽅⾯
\begin{aligned} |\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T| &=\beta^{-N}|I_N+\alpha^{-1}\beta\Phi\Phi^T|\\ &=\beta^{-N}|I_M+\alpha^{-
1}\beta\Phi^T\Phi|\\ &=\alpha^{-M}\beta^{-N}|\alpha I_M+\beta\Phi^T\Phi| \end{aligned}
其中，第 2 个等号是由公式C.14得到。

另⼀⽅⾯，由公式C.7，
\begin{aligned} (\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1} &=\beta I_N - \beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T \end{aligned}故
\begin{aligned} \frac{1}{2}\mathbf{t}^T(\beta^{-1}I_N+\alpha^{-1}\Phi\Phi^T)^{-1}\mathbf{t} &=\frac{1}{2}\mathbf{t}^T(\beta I_N -
\beta^{2}\Phi(\alpha I_M +\beta\Phi^T\Phi)^{-1}\Phi^T)\mathbf{t}\\ &=\frac{\beta}{2}(\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{m}_N)\quad(\mathbf{m}_N=\beta(\alpha I_M+\beta\Phi^T\Phi)^{-1}\Phi^T\mathbf{t})\\ &=\frac{\beta}{2}
(\mathbf{t}^T\mathbf{t}-2\mathbf{t}^T\Phi\mathbf{m}_N+\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{m}_N-
\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}
(\beta\mathbf{t}^T\Phi\mathbf{m}_N-\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-
\Phi\mathbf{m}_N\|^2_2+\frac{1}{2}(\mathbf{m}_N^T(\alpha I_M+\beta\Phi^T\Phi)\mathbf{m}_N-
\beta\mathbf{m}_N^T\Phi^T\Phi\mathbf{m}_N)\\ &=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}
{2}\mathbf{m}_N^T\mathbf{m}_N \end{aligned}
结合上⾯两个结果可以恢复公式3.86。

Comment.
直接使⽤⾼斯线性模型可以得到p(\mathbf{t}|\alpha,\beta)更简洁的表达式，为什么不就此进⾏直接优化？
Exercise 3.20
Hint.
\mathcal{L}(\alpha,\beta,\mathbf{m}_N) =\frac{M}{2}\ln\alpha +\frac{N}{2}\ln \beta-E(\mathbf{m}_N)-\frac{1}{2}\ln|A|+\text{const.}
其中，E(\mathbf{m}_N)=\frac{\beta}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2+\frac{\alpha}{2}\mathbf{m}_N^T\mathbf{m}_N,A=\alpha
I+\beta\Phi^T\Phi。

下⾯计算\frac{\partial \ln |A|}{\partial \alpha}。

记\Phi^T\Phi的特征值矩阵为\Lambda，则|A|=|\alpha
I+\beta\Lambda|=\prod_{i=1}^M (\alpha+\beta\lambda_i)，故
\frac{\partial \ln |A|}{\partial \alpha}=\sum^M_{i=1}\frac{1}{\alpha+\beta\lambda_i}.
故
\frac{\partial \mathcal{L}}{\partial \alpha}=\frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^T\mathbf{m}_N-\frac{1}{2}\sum^M_{i=1}\frac{1}
{\alpha+\beta\lambda_i},
令\frac{\partial \mathcal{L}}{\partial \alpha}=0，移项有
\alpha\mathbf{m}_N^T\mathbf{m}_N=M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}
故有关于\alpha的隐式⽅程
\alpha=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N}
实际求解中迭代更新进⾏求解，即
\alpha_{\text{new}}=\frac{M-\sum^M_{i=1}\frac{1}{1+\alpha_{\text{old}}^{-1}\beta\lambda_i}}{\mathbf{m}_N^T\mathbf{m}_N}.
Comment.
迭代求解的收敛性未予以证明。

Exercise 3.21
Hint.
把⾏列式按代数余⼦式展开，求微分得到\text{d}\,|A|=\text{tr}(A^*\text{d}\,A)，其中A^*=|A|A^{-1}为伴随矩阵。

故
\text{d}\,\ln |A|=\frac{1}{|A|}\text{tr}(|A|A^{-1}\text{d}\,A)=\text{tr}(A^{-1}\text{d}\,A).
Solution.
\begin{aligned} \frac{\partial \ln |A|}{\partial \alpha} &=\text{tr}(A^{-1}\frac{\partial A}{\partial \alpha})\\ &=\text{tr}(A^{-1}I)\\ &=\text{tr}(A^{-1})\\ &=\sum\lambda(A^{-1})\\ &=\sum\lambda(A)^{-1}\\ \end{aligned}
即得到了与习题3.20⼀致的结论。

Exercise 3.22
Hint.
\begin{aligned} \frac{\partial \mathcal{L}}{\partial \beta} &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}
{2}\sum^M_{i=1}\frac{\lambda_i}{\alpha+\beta\lambda_i}\\ &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2-\frac{1}
{2}\sum^M_{i=1}\frac{1}{\beta}\left(1-\frac{\alpha}{\alpha+\beta\lambda_i}\right)\\ &=\frac{N}{2\beta}-\frac{1}{2}\|\mathbf{t}-
\Phi\mathbf{m}_N\|^2_2-\frac{1}{2\beta}\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)\\ \end{aligned}
令\frac{\partial \mathcal{L}}{\partial \beta}=0，移项整理得到关于\beta的隐式⽅程,
\beta=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2}
由此定义迭代更新规则
\beta_{\text{new}}=\frac{N-\left(M-\sum^M_{i=1}\frac{1}{1+\alpha^{-1}\beta_{\text{old}}\lambda_i}\right)}{\|\mathbf{t}-\Phi\mathbf{m}_N\|^2_2} Exercise 3.23
Hint.
\begin{aligned} p(\mathbf{t})& =\int p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)\text{d}\,\mathbf{w}\text{d}\,\beta\\ &=\int \mathcal{N} (\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}
(\beta|a_0,b_0)\text{d}\,\mathbf{w}\text{d}\,\beta\\ &=\int \text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\int \mathcal{N}
(\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{d}\,\mathbf{w}\\ &=\int \mathcal{N} (\mathbf{t}|\Phi\mathbf{m}_0,\beta^{-1}(I_N+\Phi\mathbf{S}_0\Phi^T))\text{Gam}(\beta|a_0,b_0)\text{d}\,\beta\\ &=\frac{b_0^{a_0}}
{(2\pi)^{N/2}\Gamma(a_0)|I_N+\Phi\mathbf{S}_0\Phi^T|^{1/2}}\\ &\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2} (\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\ \end{aligned}
注意到
\begin{aligned} |I_N+\Phi\mathbf{S}_0\Phi^T| &=|I_M+\mathbf{S}_0\Phi^T\Phi|\\ &=|\mathbf{S}_0(\mathbf{S}_0^{-1}+\Phi^T\Phi)|\\
&=|\mathbf{S}_0\mathbf{S}^{-1}_N|\\ \end{aligned}
另外，
\begin{aligned} &\quad\,(\mathbf{t}-\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=(\mathbf{t}-
\Phi\mathbf{m}_0)^T(I_N-\Phi(\mathbf{S}_0^{-1}+\Phi^T\Phi)^{-1}\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=(\mathbf{t}-
\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\mathbf{t}-\Phi\mathbf{m}_0)\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+(\Phi\mathbf{m}_0)^T(I_N-\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)-2\mathbf{t}^T(I_N-
\Phi\mathbf{S}_N\Phi^T)(\Phi\mathbf{m}_0)\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi-\Phi^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-
2(\mathbf{t}^T\Phi-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\Phi^T\Phi)(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0-
2\mathbf{t}^T\Phi(I_M-\mathbf{S}_N\Phi^T\Phi)\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T(\mathbf{S}_N^{-1}-\mathbf{S}_0^{-1})\mathbf{S}_N\mathbf{S}_0^{-
1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_0^T\mathbf{S}_0^{-
1}\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-
\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-(\mathbf{S}_N^{-1}\mathbf{m}_N-
\Phi^T\mathbf{t})^T\mathbf{S}_N(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t})-2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-
1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}-\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-
1}\mathbf{m}_N+\mathbf{t}^T\Phi\mathbf{S}_N\Phi^T\mathbf{t}+2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0-
2\mathbf{t}^T\Phi\mathbf{S}_N\mathbf{S}_0^{-1}\mathbf{m}_0\\ &=\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-1}\mathbf{m}_N\\ \end{aligned}
故
\begin{aligned} &\quad\,\int \beta^{N/2+a_0-1}e^{-b_0\beta}\exp\left\{ -\beta\times \frac{1}{2}(\mathbf{t}-
\Phi\mathbf{m}_0)^T(I_N+\Phi\mathbf{S}_0\Phi^T)^{-1}(\mathbf{t}-\Phi\mathbf{m}_0)\right\}\text{d}\,\beta\\ &\quad\,\int \beta^{a_N}\exp\left\{ -\beta\times \left(b_0+\frac{1}{2}(\mathbf{t}^T\mathbf{t}+\mathbf{m}_0^T\mathbf{S}_0^{-1}\mathbf{m}_0-\mathbf{m}_N^T\mathbf{S}_N^{-
1}\mathbf{m}_N)\right)\right\}\text{d}\,\beta\\ &=\int \beta^{a_N}e^{-b_N\beta}\text{d}\,\beta\\ &=\Gamma(a_N)b_N^{-a_N} \end{aligned}
故
p(\mathbf{t})=p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}
{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}.
Comment.
上述⽅法基于⾼斯线性模型的结论来做，但是后期推导⼗分繁琐且不直观，可能直接积分计算更简便。

Exercise 3.24
Solution.
\begin{aligned} p(\mathbf{t}) &=\frac{p(\mathbf{t}|\mathbf{w},\beta)p(\mathbf{w},\beta)}{p(\mathbf{w},\beta|\mathbf{t})}\\ &=\frac{\mathcal{N} (\mathbf{t}|\Phi\mathbf{w},\beta^{-1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)\text{Gam}(\beta|a_0,b_0)}{\mathcal{N} (\mathbf{w}|\mathbf{m}_N,\beta^{-1}\mathbf{S}_N)\text{Gam}(\beta|a_N,b_N)}\\ &=\frac{\mathcal{N}(\mathbf{t}|\Phi\mathbf{w},\beta^{-
1}I_N)\mathcal{N}(\mathbf{w}|\mathbf{m}_0,\beta^{-1}\mathbf{S}_0)}{\mathcal{N}(\mathbf{w}|\mathbf{m}_N,\beta^{-
1}\mathbf{S}_N)}\frac{\text{Gam}(\beta|a_0,b_0)}{\text{Gam}(\beta|a_N,b_N)}\\ &=\frac{1}{(2\pi)^{N/2}}\beta^{N/2}\frac{|\mathbf{S}_N|^{1/2}} {|\mathbf{S}_0|^{1/2}}\exp\left\{-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}
(\mathbf{w}-\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)\right)\right\}\\
&\quad\,\times\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}{b_N^{a_N}}\beta^{a_0-a_N}e^{(b_N-b_0)\beta} \end{aligned}
指数部分
\begin{aligned} &\quad\,-\frac{\beta}{2}\left(\|\mathbf{t}-\Phi\mathbf{w}\|^2_2+(\mathbf{w}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\mathbf{w}-
\mathbf{m}_0)-(\mathbf{w}-\mathbf{m}_N)^T\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)+2(b_N-b_0)\right)\\ &=-\frac{\beta}
{2}\left(\mathbf{w}^T(\Phi^T\Phi+\mathbf{S}_0^{-1}-\mathbf{S}_N^{-1})\mathbf{w}+2(\mathbf{S}_N^{-1}\mathbf{m}_N-\Phi^T\mathbf{t}-
\mathbf{S}_0^{-1}\mathbf{m}_0)^T\mathbf{w}\right)\\ &=0 \end{aligned}
其中，两个等号的依据来源于习题3.12中关于b_n,\mathbf{S}_N的结论。

注意到a_N-a_0=\frac{N}{2}，故关于\beta的指数项抵消，所以有
p(\mathbf{t})=\frac{1}{(2\pi)^{N/2}}\frac{|\mathbf{S}_N|^{1/2}}{|\mathbf{S}_0|^{1/2}}\frac{\Gamma(a_N)}{\Gamma(a_0)}\frac{b_0^{a_0}}
{b_N^{a_N}}
Comment.
本题需要利⽤a_0,a_n,b_0,b_N,\mathbf{m}_0,\mathbf{m}_N,\mathbf{S}_0,\mathbf{S}_0间的关系式。

Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js。