低秩矩阵分解与逼近
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习
10.低秩矩阵分解
主要内容
低秩矩阵分解问题
L2VS L1
主要问题:缺失+噪音 CWM
MoG
主要内容
低秩矩阵分解问题
L2VS L1
主要问题:缺失+噪音 CWM
MoG
已知数据:
计算两个低秩矩阵
目标:使低秩矩阵乘积尽可能重目标使低秩矩阵乘积尽可能重建原矩阵
大量应用:
运动中的结构检测社交网络/推荐系统(E.g.,Eriksson and Hengel ,2010)人脸建模信息提取(E.g.,Cheng et al., 2012)
(E.g., Candes et al.,2012)(E.g. Deerwester et al. 1990)
关键问题:
☐如何度量原数据与重建数据偏差?
性能?
最常见误差函数选择:最常见误差函数选择
主要内容
低秩矩阵分解问题 L2VS L1
主要问题:缺失+噪音 CWM
MoG
各自优劣?
L2模型的解为?加正交约束有无影响?
L2范数模型L1 范数模型 SVD
Y oung diagram (CVPR, 2008)
T orre&Black (ICCV , 2001) R1PCA (ICML, 2006) L2 Wiberg (IJCV , 2007)
LM_S/LM_M (IJCV , 2008)
SALS (CVIU, 2010)
LRSDP (NIPS, 2010)
PCAL1 (PAMI, 2008) ALP/AQP (CVPR, 2005) L1Wiberg (CVPR, 2010, best paper award) RegL1ALM (CVPR, 2012) Damped Wiberg (ICCV , 2011)
Weighted SVD (T echnometrics, 1979) WLRA (ICML, 2003)
Damped Newton (CVPR, 2005) CWM (AAAI, 2013)
Reg-ALM-L1 (CVPR, 2013)
L2范数模型
L1 范数模型
SVD
Y oung diagram (CVPR, 2008) T orre&Black (ICCV , 2001) R1PCA (ICML, 2006) L2 Wiberg (IJCV , 2007) LM_S/LM_M (IJCV , 2008) SALS (CVIU, 2010) LRSDP (NIPS, 2010)
PCAL1 (PAMI, 2008) ALP/AQP (CVPR, 2005)
L1Wiberg (CVPR, 2010, best paper award) RegL1ALM (CVPR, 2012)
Damped Wiberg (ICCV , 2011)
Weighted SVD (T echnometrics, 1979) WLRA (ICML, 2003)
Damped Newton (CVPR, 2005) CWM (AAAI, 2013)
Reg-ALM-L1 (CVPR, 2013)
L2范数模型
L1 范数模型
优点: 光滑模型
优点: 对极端异常点表现稳健算法速度快
在无缺失前提下有全局极优
缺点: 对异常点与强噪音点表现不稳
缺点: 非光滑模型
算法速度慢
健
在高斯噪音下表现不佳
R b t P bl 为什么?!
Robust Problem
为什么
对于大误差
点的惩罚
Mean vs Median 误差分布假设
主要内容
低秩矩阵分解问题 L2VS L1
主要问题:缺失+噪音 CWM MoG
数据缺失
强噪音
{01}⨯d n ,{0,1},∈∈ij W R w 为Hardamard 乘积算子
L1低秩矩阵分解模型对异常点与强噪音表现稳健!
✓Ke and Kanade, CVPR, 2005
✓Eriksson and van den Hengel, CVPR, 2010✓Kwak TPAMI 2008Kwak, TPAMI, 2008✓Wright et al., NIPS, 2009✓Zheng et al., CVPR, 2012✓…
L1 Low-Rank
i i i
Matrix Factorization
典型方法:
✓ALP: Ke and Kanade, CVPR. 2005
Wib L1E ik d d H l CVPR2010✓WibergL1: Eriksson and van den Hengel, CVPR. 2010.
✓PCAL1: Kwak, TPAMI. 2008.
✓Robust PCA: Wright et al., NIPS. 2009.
✓RegL1ALM: Zheng et al., CVPR. 2012
✓…
优点
✓对异常点表现稳健
缺点
✓非光滑非凸模型
✓算法速度慢
主要内容
低秩矩阵分解问题 L2VS L1
主要问题:缺失+噪音 CWM MoG
CWM
Coordinate D t
动机在很多其它机器学习问题中坐标下降算法
Descent : 在很多其它机器学习问题中,坐标下降算法已经成为非常有效的计算方法之一
Lasso
Ridge Regression
Elastic Net. (Friedman et al., 2007; 2010)
坐标下降:将原问题分解为针对每个变量元素优化
的子问题,然后顺序求解,对L1 LRMF 问题而言:
每个子问题均是凸的
每个子问题均可通过加权均值滤子快速准确求解
算法复杂度与数据大小与维度呈近似线性增长
Cyclic Weighted Median
W X UV
T
()
L
1
难点?
CWM
L1 LRMF 模型可按如下两种方式进行分解
11()
()
-=-∑T
T
j j j L L W X UV W X u v 1
1
()
()
=-=-∑T
i i i i j j
i L L j
W E u v w e u ij v 1
1
()
()-=-∑T
i j j
i L L W X UV w
e v ij u j
T i j j j i E X u v ≠=-∑, j w 与 j w
分别为W 的第j 列和行, i j e 与i j e 分别为i E 的第j 列和行,ij u 与ij v 分别为i u 与i v 的第j 个元素.
Cyclic Weighted Median
-T
W X UV 1
()
L VS
VS.1
()
-i j j
i L w e u ij v 1
-i j j
j i L w e w u ij
v ()-i j j
i w e v ij u -i j j
j i w e w v ij u 1
L 1
L
Cyclic Weighted Median
L1 LRMF 关于U,V的子关于每个变量元素的子问题问题
Cyclic Weighted Median
每个子问题转换为一个标准的加权均值问题!
Cyclic Weighted Median
L1 LRMF 目标函数在迭代过程中单调递减!
Cyclic Weighted Median
计算复杂度:
稠密数据:O(d logd)
稀疏数据:O(s logs)
稠密数据:O(n logn)
稀疏数据:O(s logs)
s 为数据矩阵每列/行的本质稀疏度
当数据矩阵高度稀疏时, CWM 计算复杂度仅为
O((n+d)s), 少于现有最快的算法复杂度O(dn).
O((+d)) O(d)
Cyclic Weighted Median
人工: 100个矩阵,每个大小为7×12,秩为3.
Cyclic Weighted Median
人脸数据
人脸数据:Yale B dataset
✓Facedata1 & Facedata2:每组包含64张脸,每个脸大小包含一定程度的缺失与
24×21,包含定程度的缺失与椒盐噪声点。
Cyclic Weighted Median
Facedata3 & Facedata14: 每组包含2563-8数据椒盐噪声量逐渐增张脸,数据椒噪声渐大,9-14数据缺失数据量逐渐
Cyclic Weighted Median
Facedata8 Facedata14
相关文献
WLRA : Srebro, N., and Jaakkola, T. 2003. Weighted low-rank approximations. In ICML .
WibergL2: Okatani, T., and Deguchi, K. 2007. On theWiberg algorithm for matrix factorization in the presence of missing components. IJCV 72:329–337.
ALP : Ke, Q., and Kanade, T. 2005. Robust l1 norm factorization in the presence of outliers and missing data by alternative convex programming. In CVPR .
WibergL1: Eriksson, A., and van den Hengel, A. 2010. Efficient computation of robust low-rank matrix approximations in the presence of missing data using the l1 norm. In CVPR .
PCAL1: Kwak, N. 2008. Principal component analysis based on l1-norm maximization. IEEE Trans. P AMI 30:1672–1680. Robust PCA : Wright, J.; Peng, Y .; Ma, Y .; Ganesh, A.; and Rao, S. 2009. Robust g g principal component analysis: Exact recovery of corrupted low-rank matrices by convex optimization. In NIPS .
主要内容
低秩矩阵分解问题
L2VS L1
主要问题:缺失+噪音 CWM
MoG
L2范数模型L1 范数模型优点: 光滑模型算法速度快在无缺失前提下有全局极优优点: 对极端异常点表现稳健缺点: 非光滑模型算法速度慢缺点: 对异常点与强噪音点表现不稳健在高斯噪音下表现不佳
L2范数模型L1 范数模型
✓最大似然角度的理解:
✓i.i.d.Likelihood 尝试推导误差为高斯的函数
L2 模型在高斯噪音下最优
L1 模型仅在拉普拉斯噪音下最优
但实际噪音一般两者均不是!
但实际噪音般两者均不是!
Y ale B faces:…
过饱和/阴影噪音
影像噪音
一种解决方案:混合高斯!!混合高斯
MoG 的万有逼近性
任意连续分布MoG
如:拉普拉斯分布可被等价表达为一个尺度化后的MoG (Maz’ya and Schmidt, 1996)
(Andrews and Mallows, 1974)
最大似然模型:似然模
EM 算法!
E 步:
M 步:
MoG
三种噪音类型
高斯
稀疏
混合
6种误差度量L2 与L1方法实际优化的种误度
目标函数
估计真实subspace 更合适的度量
L2 方法L1 方法
我们的方法
Gaussian noise experiments
MoG 与L2 方法表现相当, 优于L1方法
Sparse noise experiments
方当方
MoG 与L1 方法表现相当, 优于L2方法
Mixture noise experiments
MoG 比L2与L1方法显著表现更好
为何MoG 对异常点能够表现稳健? L1 方法能够对异常点表现稳健本质在于其厚尾 用两个高斯来拟合噪音,获现稳健,本质在于其厚尾性质!得的混合高斯分布亦为厚尾分布!
人脸实验
解释:
过饱和与阴影镜像噪声噪声
背景提取
背景提取。