relative attributes
TRANSCRIPT
2011/11/27 CV勉強会@関東
ICCV2011祭り 発表資料
takmin
紹介する研究
“Relative Attributes”
Devi Parikh (Toyota Technological Institute Chicago)
Kristen Grauman (University of Texas at Austin)
画像の属性認識
従来研究の属性判定は有/無の2値のみ判定
A B C
D E F
画像の属性認識
従来研究の属性判定は有/無の2値のみ判定
これらはどう判定する?
A B C
D E F
画像の属性認識
この研究では、他の対象との比較で表す。
A B C
D E F
BはCよりNatural、BはAよりNaturalでない。
EはFよりSmiling、EはDよりSmilingでない。
画像の属性認識
属性はそもそも全てが2値で表現できるものばかりではない。
属性を他の対象との比較で表したほうが、より表現として豊かなのでは?
Relative Attributes
(関連属性)の提案
発表の流れ
Relative Attributesの学習方法
教師データのないカテゴリの画像を学習する方法(Zero-Shot Learning)
新しい画像/カテゴリの表現方法
実験と結果
まとめ
Relative Attributesの学習法
学習データ
:mO,
・・・
:mS , ・・・
属性mのおける学習画像間の強弱関の係集合
属性mが同じ強さを持つ学習画像ペアの集合
Relative Attributesの学習法
j
T
mi
T
mmOji xwxw :),(
i
T
mimr xwx )(
j
T
mi
T
mmSji xwxw :),(
属性mのランキングスコアを算出するための重みwmを学習する。
画像iから抽出した
特徴ベクトル
以下の条件を満たすように!
ランキングスコア
Relative Attributesの学習法
i
T
mimr xwx )(
属性mのランキングスコアを算出するための重みwmを学習する。
画像iから抽出した
特徴ベクトル
以下の条件を満たすように!
ランキングスコア
ijj
T
mi
T
mmOji 1:),( xwxw
ijj
T
mi
T
mmSji xwxw:),(
マージン
0ij
0ij
Relative Attributesの学習法
サポートベクターマシン(SVM)
以下の条件を満たすように!
ijji
T
mmOji 1)(:),( xxw
ijji
T
mmSji )(:),( xxw
0ij
0ij
222*
2
1minarg ijijmm Cm
www
Relative Attributesの学習法
Binary Attributesの場合 Relative Attributesの場合
サポートベクターマシン(SVM)
Zero-Shot Learning From Relationships
学習画像データの無いカテゴリを学習!
)()( u
q
s
p cc )()()( s
r
u
q
s
p ccc )()( s
r
u
q cc
USN 全カテゴリ数 学習画像有り
カテゴリ数
学習画像無し
カテゴリ数
S(Seen)カテゴリ: • 画像+カテゴリ間の各m個のAttributesの相対関係
• ex. 「ライオンは犬より大きく、虎と同じくらい。象より小さい」
U(Unseen)カテゴリ: • Sカテゴリとの各Attributesの相対関係
Attribute mについて
UカテゴリqはSカテゴリpより小さくSカテゴリrより大きい
UカテゴリqはSカテゴリpより大きい
UカテゴリqはSカテゴリpより小さい
Zero-Shot Learning From Relationships
Seenカテゴリ及びUnseenカテゴリの分
布をガウス分布で近似する。
Zero-Shot Learning From Relationships
学習の手順(Seenカテゴリ)
1. 各Seenカテゴリについて、Relative Attributesを学習
i
T
mimr xwx )(学習
Zero-Shot Learning From Relationships
学習の手順(Seenカテゴリ)
1. 各Seenカテゴリについて、Relative Attributesを学習
2. 各Seenカテゴリの画像から、属性ベクトルを算出
i
T
mimr xwx )(学習
TiMimii rrr )(,),(,),(~1 xxxx
Zero-Shot Learning From Relationships
学習の手順(Seenカテゴリ)
1. 各Seenカテゴリについて、Relative Attributesを学習
2. 各Seenカテゴリの画像から、属性ベクトルを算出
3. Seenカテゴリの分布をガウス分布で近似
),( )()()( s
p
s
p
s
p Nc Σμ
i
T
mimr xwx )(学習
TiMimii rrr )(,),(,),(~1 xxxx
に属する の平均 )(s
pcix~ に属する の共分散 )(s
pcix~
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
の時、
の時、
それ以外(関連が記述されない場合)
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
)()( u
q
s
p cc
m
s
pm
u
qm dμμ )()(
)()( s
r
u
q cc
m
s
rm
u
qm dμμ )()(
Si
im
u
qm rS
μ )(1)(
x
S
i
s
i
u
jS 1
)()( 1ΣΣ
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
属性mについてカテゴリpの平均とカテゴリrの平均の中間
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
の時、
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
)()( u
q
s
p cc
m
s
pm
u
qm dμμ )()(
Si
s
pmimm μrS
d )()(1
x
属性mの強さについて、Seenカテゴリの全画像とカテゴリpの平均との距離の平均
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
の時、
の時、
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
)()( u
q
s
p cc
m
s
pm
u
qm dμμ )()(
)()( s
r
u
q cc
m
s
rm
u
qm dμμ )()(
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
の時、
の時、
それ以外
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
)()( u
q
s
p cc
m
s
pm
u
qm dμμ )()(
)()( s
r
u
q cc
m
s
rm
u
qm dμμ )()(
Si
im
u
qm rS
μ )(1)(
x 属性mの強さについて、Seenカテゴリの全画像の平均
Zero-Shot Learning From Relationships
学習の手順(Unseenカテゴリ)
4. 各Unseenカテゴリの分布を以下に従いガウス分布で近似
の時、
の時、
の時、
それ以外
)()()( s
r
u
q
s
p ccc
)(2
1 )()()( s
rm
s
pm
u
qm μμμ
)()( u
q
s
p cc
m
s
pm
u
qm dμμ )()(
)()( s
r
u
q cc
m
s
rm
u
qm dμμ )()(
Si
im
u
qm rS
μ )(1)(
x
S
i
s
i
u
jS 1
)()( 1ΣΣ
全Seenカテゴリの共分散行列の平均
Zero-Shot Learning From Relationships
認識
1. 入力画像から各属性の強さを算出し、属性ベクトルを算出
2. 最も尤度の高いカテゴリを選ぶ
),|~(maxarg
,,1
*
ppiNp
Pc Σμx
i
T
mimr xwx )(
TiMimii rrr )(,),(,),(~1 xxxx
Zero-Shot Learning From Relationships
認識
x
クエリー画像
Describing Images in Relative Terms
Relative Attributesを用いた画像表現方法の提案
入力画像Aに対して、「属性mについて、画像Bよりも大きく、画像Cより小さい」という表現を行う。
入力画像Aと近すぎず、遠すぎない、適切な画像Bと画像Cを選ぶ。
•AB間とAC間にそれぞれデータセットの1/8が入るように
Describing Images in Relative Terms
実験
1. 屋外シーン画像の実験
データセット: Outdoor Scene Recognition (OSR) Dataset
2688枚 / 8種類の屋外シーン画像
特徴量: 512次元gist特徴(Spatial Envelope)
2. 顔画像での実験
データセット: Public Figure Face Database (PubFig)
800枚 / 8人の顔画像
特徴量: gistと45次元Labカラーヒストグラムをつなげたもの
データセットとAttributes
T: tall-building
I : inside-city
S: street
H: highway
C: coast
O: open-country
M: mountain
F: forest
A: Alex Rodriguez
C: Clive Owen
H: Hugh Laurie
J : Jared Leto
M: Miley Cyrus
S : Scarlett Johansson
V: Viggo Mortensen
Z: Zac Efron
Attributes認識結果
線形SVMで、Binary Attributesおよび、Relative Attributes
をそれぞれ学習/認識
Binary
Attributes
Relative
Attributes
OSR 80% 89%
PubFig 67% 82%
Zero-Shot Learning結果
ベースライン
Direct Attribute Prediction (DAP) model
C. H. Lampert et al., “Learning To Detect Unseed Object Class by Between-Class Attribute Transfer”, CVPR2009
Score-based Relative Attributes (SRA)
二値の属性に対して学習した をスコアとし、あとは本手法と同じ
学習方法
Seenカテゴリ数:6、Unseenカテゴリ数:2
Seenカテゴリから4つのペアを用いて属性のランクを学習
Unseenカテゴリは各属性の近傍2つのSeenカテゴリを選択して学習
訓練画像: 各カテゴリ30枚
i
T
mxw
Zero-Shot Learning結果
Unseenカテゴリ数を変化させた時の認識率の変化
(Seen + Unseen = 8)
提案手法が最も良い。Unseenカテゴリ数を増やすと認識率低下。
Zero-Shot Learning結果
Seenカテゴリの学習ペアを増やしていった時の結果
学習ペアが2つ以降は、ほぼ安定
Zero-Shot Learning結果
Unseenカテゴリの属性ラベルの数を減らしていった場合
DAPよりも認識率低下は緩やか
Zero-Shot Learning結果
Unseenカテゴリにラベルを付けるとき、Seenカテゴリの属性の大きさが、より離れたものを使った場合
属性の距離はほとんど関係ない!
Describing Images実験
人間の被験者に、2つの画像表現を見せて、元の画像が何かを当ててもらう。
画像 属性
識別器
属性の有無の表現
関連属性の表現
被験者
属性の有無で表現 関連属性で表現 正解画像
Describing Images実験
人間の被験者に、2つの画像表現を見せて、元の画像が何かを当ててもらう。
被験者数 18人
20枚のPubFigと10枚のOSR画像をランダムに選択
画像ごとに3つの属性をランダムに選んで、表現とその関連画像を提示
属性の有無で表現 関連属性で表現 正解画像
被験者へ提示したインターフェース
Describing Images結果
Relative Attributesによる表現例(OSR)
Image Binary
descriptions Relative descriptions
not natural
not open
perspective
more natural than tallbuilding, less natural than forest
more open than tallbuilding, less open than coast
more perspective than tallbuilding
not natural
not open
perspective
more natural than insidecity, less natural than highway
more open than street, less open than coast
more perspective than highway, less perspective than
insidecity
natural
open
perspective
more natural than tallbuilding, less natural than
mountain
more open than mountain
less perspective than opencountry
Relative Attributesによる表現例(PubFig)
Image Binary
descriptions Relative descriptions
White
not Smiling
VisibleForehead
more White than AlexRodriguez
more Smiling than JaredLeto, less Smiling than
ZacEfron
more VisibleForehead than JaredLeto, less
VisibleForehead than MileyCyrus
White
not Smiling
not
VisibleForehead
more White than AlexRodriguez, less White
than MileyCyrus
less Smiling than HughLaurie
more VisibleForehead than ZacEfron, less
VisibleForehead than MileyCyrus
not Young
BushyEyebrows
RoundFace
more Young than CliveOwen, less Young than
ScarlettJohansson
more BushyEyebrows than ZacEfron, less
BushyEyebrows than AlexRodriguez
more RoundFace than CliveOwen, less RoundFace
than ZacEfron
まとめと結論
Relative Attributesという画像間の比較で属性を表す方法を提案
学習方法
Zero-Shot Learning
画像を属性の比較により表現
Zero-Shot Learningでは、属性の二値表現よりも高い認識率を実現
新しい画像表現方法は、人間の被験者にとって、より判別がつきやすいものであることを確認
Q&A