周宗伟
DESCRIPTION
周宗伟. Robust PCA 简介和解决算法. PCA. 在一些实际应用中,给定的数据 M 往往都是低秩的或者是近似低秩的,为了恢复矩阵的低秩结构,我们将矩阵 M 分解为两个矩阵的和: M=L+N 其中 L 是低秩矩阵, N 是一个小的干扰矩阵。 传统的 PCA 就是在 2 范数上寻找最优的低秩矩阵 L ,即下面的最优化问题: min ||M-L|| , s.t. rank(L) ≦k , - PowerPoint PPT PresentationTRANSCRIPT
周宗伟
Robust PCA 简介和解决算法
PCA
• 在一些实际应用中,给定的数据 M 往往都是低秩的或者是近似低秩的,为了恢复矩阵的低秩结构,我们将矩阵 M 分解为两个矩阵的和:
• M=L+N • 其中 L 是低秩矩阵, N 是一个小的干扰矩阵。• 传统的 PCA 就是在 2 范数上寻找最优的低秩矩阵 L ,即下面
的最优化问题:• min ||M-L|| , • s.t. rank(L) k≦ ,• M=L+N 。• 当噪声干扰矩阵 N 中元素都很小且各自相互独立的服从高斯分
布时,上述问题能够通过求解矩阵的奇异值得到理想的结果。• 但是,如果 N 不能够满足上述条件时,如何恢复低秩结构
呢???
Robust PCA
在实际应用,比如图像处理、网络数据分析、生物信息学,中,经常会由于采样、环境或者传感器的多种原因导致获得的数据与真
实数据有很大出入。 而传统的 PCA 在处理大误差是很脆弱,不具有鲁棒性,甚至仅仅因为一个元素的测量错误就会导致 PCA 得到的 L 与真实 L 相差
很大。 所以,近些年来许多 PCA 的鲁棒方法被提出。 Robust PCA : min (rank(L),||S||0)
s.t. M=L+S (1)
上述双目标最优化问题中, L 是低秩矩阵, S 是稀疏的大 噪声矩阵。转化为 单目标优化问题。
min rank(L)+λ‖S‖0, s.t. M=L+S (2)
Robust PCA 的松弛表达 (1)
• (2) 式给出的优化问题是一个 NP 问题,于是我们需要对该问题进行凸松弛。
• 矩阵的核范数是矩阵秩的包络,矩阵的 0 范数与矩阵的 1 范数在一定条件下是等价的。于是, (2) 中优
化问题松弛到如下的凸优化问题: min ‖L‖*+ λ‖S‖ 1 ,
s.t. M=L+S. (3)
• 对问题进行凸松弛之后是否能够准确的恢复出低秩矩阵 L 呢? 低秩矩阵 L 的秩是多低呢?稀疏矩阵 S
的元素分布是否由要求呢?
Robust PCA 的松弛表达 (2)
• 很显然,并不是所有的 M=L+S 都能够通过求解( 3 )中的凸优化问题得到合适的解。比如, M=ee‘, (e=[a,0,…,0]’) 那么M 就是一个低秩又稀疏的矩阵,无论如何我们都不可能恢复出矩阵 L和 S 。因此,从实用性方面,我们要对 L和 S 做
出一些假设。比如 L 是非稀疏矩阵。• 定义 1 :如果一个矩阵 A 的左奇异矩阵和右奇异矩阵中的列向量都是相互正交的,且是独立同分布的, r=rank(A), 那
么我们称 A 服从秩为 r 的随机正交模型分布。 • 定义 2 : 如果对于一个误差矩阵 S 而言, S 的每个元素的符号独立服从伯努利分布的,即每个元素为 0 的概率为 1-ρs ,为正和负的概率均为 ρs/2, 那么我们称 S 服从参数为 ρs 的伯
努利符号分布模型。
Robust PCA 的松弛表达 (3)
• 结论 1 :对于任意 p>0, 存在一组常数(C*>0,p*>0,m*) 满足:
m>m* 时, 中 L* 服从秩为 r
的随机
正交模型分布 ( ) ;S* 服从参数为p0 p*≦ 的伯努
利符号分布模型,那么,通过求解 下式:
获得唯一且精确的解 (L*,S*) 的概率高达 !• 也就是说,服从随机正交模型分布的矩阵 L* 有极大地可能通过求解( 3 )式中的凸优化问题而从服从伯努利符号分布模型的误差矩阵中恢复出
来。
mmmm RRS )( *,L*
)log(*
m
mCr
*S*LSL..1
min1*
tsSm
L
pCm 1
Robust PCA 的松弛表达 (4)
• 结论 2 :存在这样一组常数
使矩阵 ( m>m0 )服从秩为 r 的随机正交分布模
型 ,且令
)( 0,0,0,0 **0 Cm sr
mmRA 0
mr r* ,][][ mm
且最小解唯一。
的可能通过求解:,那么我们有至少
的伯努利随机变量,均是服从中对于点对
),(,),(),(..minarg
)(exp-1
-1,),(
0*
*
s
jijiAjiAtsA
Cm
jiji
ss
Robust PCA松弛表达的求解— APG (1)•梯度算法
2
1
2
111
1
2
11111
1
))(1
(2
)(minarg
)(2
)(,minarg
),(minarg
)(2
)(,)(:),(
)1(
Lipschiz
,)(
),(,)()()(
)3()()(:)(
kx
kkkk
kLx
k
kkkkkL
k
n
xfL
xxL
xg
xgxxL
xfxxx
xxQx
xgxxL
xfxxxfxxQ
x
L
xg
RyxyxLyfxfxf
xgxfxF
点二次逼近:在我们对常数。是
是连续不光滑的凸函数的连续可微凸函数,
是满足其中,
Robust PCA松弛表达的求解— APG (2)• 软阈值迭代算法
)4()))((
))((2
1min
)sgn()|(|)(
))(2(
)(min
11
1
2
11
'1
1
2
kkktk
kkkk
x
iiia
ktk
x
xftxx
xxftxxt
xaxx
bAxtAxx
xbAxxF
k
迭代过程为:
其中,迭代过程:
问题:
Robust PCA松弛表达的求解— APG (3)• PG: proximal gradient. 近端梯度算法
min ‖L‖*+ λ‖S‖ 1 , s.t. M=L+S. (5)
2
1* 2
1Lmin
FSLMSuu
2
~,
~2
11
2
~,
~2
*1
2
F
)4
1~(minarg
)4
1~(minarg
)~
,~
(S-L-M
FSLFSkk
FSLFLkk
kk
kk
kk
SLMSSSuS
SLMLLLuL
SL
得到:处分别进行二次逼近,在点集对
Robust PCA松弛表达的求解— APG (4)
•
•
))~~
(2
1~(
, ,0
, ,
, ,
)(
))~~
(2
1~(S
2
1
11
MSLSS
otherwise
xifx
xifx
x
MSLSSl
kkkuk
kkkk
的软阈值计算的。是由范数时,的最优
'.)(,'G
)~~
(2
1~G
))~~
(2
1~(
2
1
1
VULVU
MSLL
MSLLLL
uk
kkk
kkkk
那么如果
令行软阈值处理得到的:
的奇异值矩阵进是由对的核范数时,最优矩阵
Robust PCA松弛表达的求解— APG (5)• 具体算法:设 D=A+E, A 为低秩矩阵, E 为大噪声
稀疏矩阵
Robust PCA松弛表达的求解— APG (6)
•算法收敛条件
• 参数选择:
)S,1max(2~
-~
-
),1max(2~~
111
111
FkF
kkkk
FkF
kkkk
SSLL
LSSLL
))(max(,110 7- Msizemm
,
Robust PCA松弛表达的求解— APG (7)
Robust PCA松弛表达的求解— ALM (1)
•ALM: Augmented Lagrange Multiplier.增广拉格朗日乘数法。• ALM 相对于 APG 的优势: 1.更高的精度、更少的迭代次数,在很多问题上更加的稳定; 2.更重要的一点是:实验表明, ALM 的迭代次数经常不超过获得的最低秩矩阵的秩的大小,而 APG算法不具有这种现象。
Robust PCA松弛表达的求解— ALM (2)
• 仅含等式约束的非线性优化问题 (NEP):
设 x*是 (4) 的最优解,其 Lagranage函数为
• 定理:
)4(),...,2,1(0)(..)(min lixhtsxf i
。应的拉格朗日乘子向量
相是其中, xxhxhxhxh
xhxfxL
ll ]',...,,[,)]'(),...,(),([)(
)5()(')(),(
2121
0*)(
)(*)(
xf
xfRxxf n 的一个极小值点,则有是可微,设
Robust PCA松弛表达的求解— ALM (3)
• 如果能够找到 ,那么 NEP 问题就可以转
化为解决一个无约束优化问题。但是 往往是不存在的,
因此我们构造增广的 Lagrange函数
•
*),( 的最小解xL*
)6()'()(21)(')(),,( xhxhxhxfx
的最优解相同。和值时,即,取合适
值,有的条件下,取合适的在
)5()6(
,0*)(*)'()*,*,(
0*)*,(
xhxhx
xL
x
x
Robust PCA松弛表达的求解— ALM (4)
• 如何迭代计算 呢?•
*
)(-~
)(-*
)9()8()7(
)9(*),(lim
)8(0**)'(*)(*)*,(
)5(*),*,(
)7(0)]([)'()(
)()'()'()(),,(
),,(
*
xh
xh
xx
xhxfxL
x
xhxhxf
xhxhxhxfx
x
x
x
的迭代公式为:所以,乘子
式可以得到:、、比较
另外:
的最优解,所以也是目标最优解表示为
那么有结果为假设某一次得到的计算
Robust PCA松弛表达的求解— ALM (5)
• Robust PCA 松弛表达为: min rank(L)+λ‖S‖0, s.t. M=L+S
表示成拉格朗日乘子形式有:
其中 Y 为拉格朗日乘子。• 由前一页知道 Y 的迭代公式为:
(10) 式就等价于重复计算 直到 时,我们认为得到了最优解。
)10(2
,),,(2
1* FSLM
uSLMYSLYSLl
)(1 kkkk SLMuYY
),,(minarg),( , kSLkk YSLlSL
** SLM
Robust PCA松弛表达的求解— ALM (6)•
•
• ALM 算法中的参数给定
][S),,(minarg
)0-|max(|)sgn(][S: S1
/ YuLMYSLlS
xxxRR
uS
的迭代公式为:那么,
,表示软阈值算子令
)(),,(minarg
L,',')()(
X)(
1/1 YuSMDYSLl
VUXVUSXD
XD
uL
的迭代公式为:所以其中
,即的奇异值得软阈值处理表示矩阵类似的,以
7
F
21
121
10,S-L-M
),max(
1)4/(
FM
nn
Mnnu
迭代终止条件
Robust PCA松弛表达的求解— ALM (7)
• ALM 算法
Robust PCA松弛表达的求解— ALM (8)