4凸优化初步详解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如:Bernoulli分布和高斯分布
75/85
Bernoulli分布属于指数族
76/85
强调
注意在推导过程中,出现了Logistic方程!
77/85
Gaussian分布也属于指数族分布
78/85
统计参数
均值(期望,一阶) 方差(二阶) 变异系数(Coefficient of Variation)
标准差与平均数的比值称为变异系数,记为C· V
偏度Skew(三阶) 峰度Kurtosis(四阶)
79/85
偏度
在机率论和统计学中,偏度衡量实数随机变量概率 分布的不对称性。偏度的值可以为正,可以为负或 者甚至是无法定义。在数量上,偏度为负(负偏态) 就意味着在概率密度函数左侧的尾部比右侧的长, 绝大多数的值(包括中位数在内)位于平均值的右 侧。偏度为正(正偏态)就意味着在概率密度函数 右侧的尾部比左侧的长,绝大多数的值(包括中位 数在内)位于平均值的左侧。偏度为零就表示数值 相对均匀地分布在平均值的两侧,但不一定意味着 其为对称分布。
57/85
二项分布
58/85
二项分布
59/85
考察Taylor展式
60/85
泊松分布
61/85
泊松分布Poisson distribution
在实际事例中,当一个随机事件,以固定的平均瞬时速率λ(或 称密度)随机且独立地出现时,那么这个事件在单位时间(面 积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。 因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中 都占有重要的地位。 某一服务设施在一定时间内到达的人数 电话交换机接到呼叫的次数 汽车站台的候客人数 机器出现的故障数 自然灾害发生的次数 一块产品上的缺陷数 显微镜下单位分区内的细菌分布数 某放射性物质单位时间发射出的粒子数
50/85
对偶问题
一般优化问题的Lagrange乘子法
Lagrange函数
对固定的x,Lagrange函数L(x,λ,v)为关于λ和v的 仿射函数
51/85
Lagrange对偶函数(dual function)
Lagrange对偶函数
若没有下确界,定义:
根据定义,显然有:对∀λ>0,∀v,若原优化问题 有最优值p*,则 进一步:Lagrange对偶函数为凹函数。
凸函数的非负加权和 凸函数与放射变换的复合 凸函数的逐点最大值
31/85
保持函数凸性的算子
复合运算
最小值算子 透视算子
32/85
பைடு நூலகம்
凸优化
优化问题的基本形式
33/85
优化问题的基本形式
优化问题的域
可行点(解)(feasible)
x∈D,且满足约束条件
可行域(可解集)
也被称为超值峰度(excess kurtosis)。
“减3”是为了让正态分布的峰度为0。
66/85
指数分布的无记忆性
指数函数的一个重要特征是无记忆性(遗失 记忆性,Memoryless Property)。
如果一个随机变量呈指数分布,当s,t≥0时有 P(T>s+t|T>t)=P(T>s)。即,如果T是某一元件的 寿命,已知元件使用了t小时,它总共使用至少 s+t小时的条件概率,与从开始使用时算起它使 用至少s小时的概率相等。
重点:用凸优化的思想解释最小二乘问题 为支持向量机SVM提供理论保证
5/85
仿射集(Affine set)
直线
y=θx1 + (1-θ)x2, θ∈R
线段
y=θx1 + (1-θ)x2, θ∈[0,1]
定义:过集合C内任意两点的直线均在集合 C内,则称集合C为仿射集。 仿射集的例子:直线、平面、超平面
古典概型
排列组合
概率密度函数Probability Density Function 累计分布函数
54/85
分布
复习各种常见分布本身的统计量 在复习各种分布的同时,重温积分、Taylor 展式等前序知识 常见分布是可以完美统一为一类分布的
55/85
两点分布
56/85
二项分布 Bernoulli distribution
67/85
正态分布
68/85
正态分布
69/85
正态分布
70/85
二元正态分布
71/85
总结
72/85
指数族
73/85
指数族
指数族概念的目的,是为了说明广义线性模 型Generalized Linear Models 凡是符合指数族分布的随机变量,都可以用 GLM回归分析
74/85
25/85
支撑超平面
设集合C,x0为C边界上的点。若存在a≠0, 满足对任意x∈C,都有 成立,则称 超平面 为集合C在点x0处的支 撑超平面。 凸集边界上任意一点,均存在支撑超平面。 若一个闭的非中空集合,在边界上的任意一 点存在支撑超平面,则该集合为凸集。
26/85
凸函数
若函数f的定义域domf为凸集,且满足
27/85
一阶可微
若函数f的定义域domf为开集,且函数f一阶 可微,则函数f为凸函数当前仅当dom为凸集, 且
如何证明?
考察割线
28/85
二阶可微
若函数f的定义域domf为开集,且函数f二阶 可微,则函数f为凸函数当前仅当dom为凸集, 且
29/85
凸函数举例
30/85
保持函数凸性的算子
10/85
凸集
11/85
凸包
包含集合C的最下凸集叫做集合C的凸包。
12/85
凸包
13/85
锥(Cones)
14/85
锥
15/85
锥包
16/85
半正定矩阵集
试证明:n阶半正定矩阵集为凸锥。
考察半正定矩阵的定义
17/85
超平面和半空间
超平面hyperplane
半空间halfspace
凸优化问题
等价于
还记得s的称谓吗?
带负权的有向图求给定两点间的最短路径
47/85
附:带负权的最短路径Bellman-ford算法
本质:动态规划 适用:单源结点到其他所有结点的最短路径 若u->v是有向边,则d[v]<=d[u] + dis(u,v) 这个操作被成为松弛操作。 优点:对边权无要求,可以发现负环。
52/85
线性方程的最小二乘问题
原问题
Lagrange函数 Lagrange对偶函数
对L求x的偏导,带入L 对g求v的偏导
关于该问题,在支持向量机中将继续探讨
53/85
概率论
对概率的认识:P∈[0,1]
P=0
事件出现的概率为0→事件不会发生?
将位于[0,1]的函数y=f(x)看成x对应y事件的概率
特殊情况:非约束凸优化问题中,f0(x)可微。 则x*为最优解当且仅当下式成立。
44/85
凸优化问题的等价形式
如何凸优化问题仅有等式约束
则x为最优解当且仅当x∈X,且存在向量v满 足
Lagrange乘子法
45/85
凸优化问题的等价形式
凸优化问题
等价于
其中
46/85
凸优化问题的等价形式
超平面:Ax=b
6/85
仿射包
仿射包:包含集合C的最小仿射集。
仿射维数:仿射包的维数。
三角形的仿射维数为2 线段的仿射维数为1 球的仿射维数为3
7/85
仿射包
8/85
凸集
集合C内任意两点间的线段均在集合C内, 则称集合C为凸集。
9/85
仿射集和凸集的关系
因为仿射集的条件比凸集的条件强,所以, 仿射集必然是凸集。
38/85
优化问题的等价问题
原优化问题与以下优化问题等价
s:松弛变量
39/85
优化问题的等价问题
设 满足等式 , j=1,…p 成立,当且仅当 则原优化问题与以下优化问题等价
40/85
优化问题的等价问题
原优化问题与以下优化问题等价
41/85
凸优化问题的基本形式
18/85
超平面和半空间
19/85
欧式球和椭球
欧式球
椭球
20/85
范数球和范数锥(欧式空间的推广)
范数
范数球
范数锥
21/85
多面体
22/85
多面体
23/85
保持凸性的运算
集合交运算 仿射变换 透视函数变换 线性分式函数变换
24/85
分割超平面
设C和D为两不相交的凸集,则存在超平面P, P可以将C和D分离。
凸优化与概率初步
邹博
2014年10月19日
历史遗留问题
Ax的偏导
跳表查询时间复杂度下限
f (k ) k N
1 k 1 k
1 k
1 f ' (k ) N k N ln N 2 k
EM中参数θ是未知的确定量
2/85
EM的推导
将观测变量记做Y,待估计参数记做θ(π,p, q) P(y|θ)=Σz P(y,z|θ)= ΣzP(z|θ)P(y|z, θ) =P(z=0|θ)P(y|z=0, θ)+P(z=1|θ)P(y|z=1, θ) =πpy(1-p)1-y+ (1-π)qy(1-q)1-y 应用极大似然估计
48/85
附: Bellman-ford算法
49/85
附: Bellman-ford算法分析
图的任意一条最短路径既不能包含负权回路,也不会包含正权 回路,因此它最多包含|v|-1条边。 从源点s可达的所有顶点如果存在最短路径,则这些最短路径构 成一个以s为根的最短路径树。Bellman-Ford算法的迭代松弛操 作,实际上就是按顶点距离s的层次,逐层生成这棵最短路径树 的过程。 在对每条边进行第1遍松弛的时候,生成了从s出发,层次至多 为1的那些树枝。也就是说,找到了与s至多有1条边相联的那些 顶点的最短路径;对每条边进行第2遍松弛的时候,生成了第2 层次的树枝,就是说找到了经过2条边相连的那些顶点的最短路 径。因为最短路径最多只包含|v|-1条边,所以,只需要循环|v|-1 次。 略做优化:如果第k次松弛操作后,最短路径没有得到更新,显 然,后面仍然无法得到更新,可提前退出。并且,如果k<n-1, 一定不存在负环。
62/85
泊松分布
63/85
均匀分布
64/85
指数分布
65/85
指数分布
其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的 区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作: X~ Exponential(λ)。 指数分布可以用来表示独立随机事件发生的时间间隔,比如旅 客进机场的时间间隔、软件更新的时间间隔等等。 许多电子产品的寿命分布一般服从指数分布。有的系统的寿命 分布也可用指数分布来近似。它在可靠性研究中是最常用的一 种分布形式。
80/85
偏度公式
其中μ3是三阶中心矩,σ是标准差。E是期望 算子。等式的最后以三阶累积量与二阶累积 量的1.5次方的比率来表示偏度。这和用四阶 累积量除去二阶累积量的平方来表示峰度的 方法向类似。 偏度有时用Skew[X]来表示。
81/85
峰度
在更通常的情况下,峰度被定义为四阶累积量除以 二阶累积量的平方,它等于四阶中心矩除以概率分 布方差的平方再减去3:
所有可行点的集合
最优化值
最优化解
34/85
局部最优问题
35/85
优化问题的等价问题
若 则原优化问题与以下优化问题等价
36/85
优化问题的等价问题
设函数φ是一一对应 且 则原优化问题与以下优化问题等价
37/85
优化问题的等价问题
设ψ0为严格单调递增函数 ψ1,… ,ψm满足 当且仅当u≤0 ω1,…,ωp满足 当且仅当u = 0 则原优化问题与以下优化问题等价
其中,fi(x)为凸函数,hj(x)为仿射函数 凸优化问题的重要性质 1、凸优化问题的可行域为凸集 2、凸优化问题的局部最优解即为全局最优解
思考:为什么?
42/85
例
43/85
凸优化问题最优解的微分条件
定理:设X为凸优化问题的可行域,f0(x)可 微。则x为最优解当且仅当下式成立。
如何解释?
P(Y|θ)=Π πpyi(1-p)1-yi+ (1-π)qyi(1-q)1-yi
3/85
本次目标
概率论中,掌握各种分布的性质 了解指数族分布 引出充分统计量和广义线性模型GLM的概念 了解凸集和凸优化的一般过程和概念
4/85
理解“凸优化”的四个步骤
凸集 凸函数 凸优化 对偶问题