【論文紹介】fashion style in 128 floats: joint ranking and classification using weak data for...
TRANSCRIPT
Fashion Style in 128 Floats: Joint Ranking and Classification using Weak Data for Feature Extraction
片岡裕雄, Ph.D. http://www.hirokatsukataoka.net/
Edgar Simo-Serra and Hiroshi Ishikawa, CVPR2016
概要
• StyleNetの提案 – 大規模ファッション画像を入力としたファッション特徴の学習
– 深層畳み込みニューラルネット(CNN)をベースとしていて、Tripletロスを採用しファッションを表現する特徴を弱教師あり学習
– 128次元の浮動小数点数にてファッション特徴を表現し、これは従来の特徴表現に比べると1/32のサイズ
• 新規性 – Webにて入手可能な大量の画像から特徴学習 – コンパクトかつ識別性に優れた特徴表現 – ユークリッド距離にてファッション特徴を表現
StyleNetでできること • 入力:ファッションスナップ画像 • 出力:128次元のベクトル – 直感的に近い特徴が近くにプロット (左) – 背景ノイズに影響されず特徴抽出 (右)
関連研究(データベース)
ImageNet [Deng+, CVPR09]
PlaceNet [Zhou+, NIPS14]
Fashion144k [Simo-Serra+, CVPR15] Paperdoll
[Yamaguchi+, ICCV13]
関連研究(ファッション特徴)
[Kiapour+, ECCV14]
[Liu+, CVPR16]
関連研究 (特徴学習) • FaceNetの特徴学習を参考にしている – 128次元で顔特徴をユークリッド空間に投影 – Triplets (対象画像,類似・非類似画像)の入力により学習
[Schroff+, CVPR15]
関連研究との差分 • データセット – アノテーションが揃っていない状況でも学習できるようにしたい
– 類似・非類似程度の情報で学習することを前提とする
• 手法 – 弱教師あり学習による特徴学習によりコンパクトかつ高い識別性を持つ特徴ベクトルを計算する
– FaceNetとの差分は特徴のペアを正規化しているかどうかにある
学習の戦略 • 特徴学習 + 識別のネットワークを同時最適化
1. 特徴学習ネットをクラス識別 (ImageNetなどと同様)の要領で学習
2. 特徴学習ネットの最終層を除去してランダムな重みを割り当てる
3. Tripletsを入力としてランキングロス+識別ロスの最小化
Triplets: 対象画像 (I)と近い (I+)、遠い (I-) 3枚の組み合わせ
学習の準備 • Tripletセットの生成 – あらかじめ画像 I をランダム選択 – 距離指標の計算により画像 I に対する類似画像 I+ や I- のペアを割当て
– 距離計算は Intersection over Union (IoU)
同時最適化 • ランキングロス + 識別ロスの最適化
類似・非類似画像との距離 Tripletsを入力とした際の ランキングロス
ラベル・特徴からの識別ロス
特徴の推定値X, ラベルy
ランキングロス • 類似画像 I+や非類似画像 I-との距離d+, d-を計算 – 距離の計算 ((2)(3)式ソフトマックス関数に相当) – ランキングロスは(4)式により算出
類似・非類似画像との距離
画像特徴
識別ロス • 非類似画像の特徴f-との識別ロスを計算
ネットワークの構造
実験 • 特徴学習:Fashion 144k • 学習&テスト:Hipster Wars dataset, Fashion 144k
@Hipster Wars dataset • 最適化手法や従来法との比較 – ランキングロス,識別ロスやSiameseNetによる最適化 – VGGNetによる学習
@Hipster Wars dataset • ユークリッド距離による精度 – Top1 ~ 3
@Fashion 144k dataset • ファッション性の推定結果
Visualization • [Zeiler & Fergus, ECCV14]を参考に可視化
Zeiler & Fergus, “Visualizing and understanding convolutional networks,” in ECCV, 2014.
ペアの比較 • 類似・非類似をヒートマップ表示
特徴空間へのプロット • 128次元の特徴ベクトルを2次元に圧縮 – 2点間の距離を確立分布で表現するt-SNEを採用 – t-SNEはpythonのsklearnにも実装されている
まとめ
• 特徴学習を行うStyleNetの提案 – Tripletの入力によるランキングロスと識別ロスの最適化 – 128次元の特徴ベクトルでファッション表現,SIFTのように扱える