20100919 computer vision_konushin_lecture02

78
Поговорим о признаках Задача: каждый фрагмент изображения описать набором признаков чтобы можно было надежно сравнивать признаков, чтобы можно было надежно сравнивать фрагменты (находить похожие), использовать для распознавания и т.д. T f f ) ( f j n n n f f ) , , ( , 1 , L = f Дескрипторы должны быть достаточно специфичны, локальны и не очень сложны в вычислении локальны, и не очень сложны в вычислении

Upload: computer-science-club

Post on 28-Nov-2014

655 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 20100919 computer vision_konushin_lecture02

Поговорим о признаках

Задача: каждый фрагмент изображения описать набором признаков чтобы можно было надежно сравниватьпризнаков, чтобы можно было надежно сравнивать фрагменты (находить похожие), использовать для распознавания и т.д.р

Tff )(f jnnn ff ),,( ,1, L=f

Дескрипторы должны быть достаточно специфичны, локальны и не очень сложны в вычислениилокальны, и не очень сложны в вычислении

Page 2: 20100919 computer vision_konushin_lecture02

• Интуитивно понятно, что едва ли неИнтуитивно понятно, что едва ли не основная информация в картинке содержится как раз в краях (границах)

Ко а ое ре с а е е• Компактное представление

• Рисунок художника тонкими линиями может передать почти всю семантическую информацию обсемантическую информацию об объектах• Кроме цвета, конечно!

Source: D. Lowe

Page 3: 20100919 computer vision_konushin_lecture02
Page 4: 20100919 computer vision_konushin_lecture02

Фильтры Габора

)sin()cos(' θθ yxx +=)()i (' θθ )cos()sin(' θθ yxy +−=

θ - ориентация

λσγ

- длина волны- сигма гауссиана

γ

ψ

- соотношение размеров (aspect ratio), «эллиптичность фильтра»- сдвиг фазыψ

• 2D фильтр Габора – ядро гауссина, домноженное на синусоиду• Предложены в 1947 Денисом Габором (нобелевским лауреатом),Предложены в 1947 Денисом Габором (нобелевским лауреатом), независимо переоткрыты в 1980 году

Page 5: 20100919 computer vision_konushin_lecture02

Связь со зрением человека

• Похожи на форму рецептивных полей простых• Похожи на форму рецептивных полей простых клеток (simple cells) в визуальной коре мозга человека

J. G. Daugman, “Two-dimensional spectral analysis of cortical receptive field profiles.,” Vision research, vol. 20, no. 10, pp. 847–856, 1980.

J. G. Daugman, “Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters,” J. Opt. Soc. Am. A, vol. 2, no. 7, pp. 1160–1169, 1985.

Page 6: 20100919 computer vision_konushin_lecture02

Поиск краёв с помощью Габора

• Слева вверху – иероглиф• Слева вверху – иероглиф• 4 справа – применение фильтров Габора с ориентациями 0, 45, 90 и 135 градусовориентациями 0, 45, 90 и 135 градусов

• Слева внизу – совмещение результатов фильтрации

Page 7: 20100919 computer vision_konushin_lecture02

Банки фильтров

• Набор фильтров разного масштаба и б б фориентации образует «банк фильтров»

• Каждый пиксель изображения после обработки банком фильтров даёт вектор признаков

• Этот вектор признаков эффективно описывает локальную текстуру у уруокрестности пикселя

• Активно используется в сегментацииАктивно используется в сегментации, распознавании изображений и т.д.

Page 8: 20100919 computer vision_konushin_lecture02

Дескрипторы• Недостаток точного описания каждого пикселя:

• Небольшой сдвиг приводит к существенному изменению

• Решение: гистограммы

0 2 πSlide by S. Lazebnik

Page 9: 20100919 computer vision_konushin_lecture02

Дескрипторы - градиентыГистограммы градиентов Lowe (SIFT):

Используется 128 значений на точку• Cетка 4*4, 8 значений в гистограммеУстойчив к изменениям освещенности и небольшим сдвигамУстойчив к изменениям освещенности и небольшим сдвигам

David G. Lowe. "Distinctive image features from scale-invariant keypoints.” IJCV 60 (2), pp. 91-110, 2004.

Page 10: 20100919 computer vision_konushin_lecture02

ОриентацияПример: найти локальное направление градиента вокруг

интересной точки

Повернуть фрагмент(ы) так чтобы средний градиент былПовернуть фрагмент(ы) так, чтобы средний градиент был направлен вверх

0 2 π

Page 11: 20100919 computer vision_konushin_lecture02

Дескриптор изображения

TORRALBA, A., MURPHY, K. P., FREEMAN, W. T., AND RUBIN. Context-based vision system for place and object recognition. In ICCV 2003

E. P. Simoncelli and W. T. Freeman. The steerable pyramid: а flexible architecture for multi-scale derivative computation. IEEE Intl. Conf. on Image Processing, 1995.

Page 12: 20100919 computer vision_konushin_lecture02

Дескриптор изображения

Усреднение каждого уровня пирамиды по решетке 4*4

Page 13: 20100919 computer vision_konushin_lecture02

Дескриптор изображения GIST

+Добавление канала цвета дляДобавление канала цвета для более точного описания цветных изображений

Page 14: 20100919 computer vision_konushin_lecture02

James Hays, Alexei A. Efros Scene Completion using Millions of Photographs, SIGGRAPH 2007.

Page 15: 20100919 computer vision_konushin_lecture02
Page 16: 20100919 computer vision_konushin_lecture02
Page 17: 20100919 computer vision_konushin_lecture02
Page 18: 20100919 computer vision_konushin_lecture02

… 200 изображений

Page 19: 20100919 computer vision_konushin_lecture02
Page 20: 20100919 computer vision_konushin_lecture02

Graph cut + Poisson blending

Page 21: 20100919 computer vision_konushin_lecture02
Page 22: 20100919 computer vision_konushin_lecture02
Page 23: 20100919 computer vision_konushin_lecture02
Page 24: 20100919 computer vision_konushin_lecture02

… 200 ближайших

Page 25: 20100919 computer vision_konushin_lecture02
Page 26: 20100919 computer vision_konushin_lecture02
Page 27: 20100919 computer vision_konushin_lecture02
Page 28: 20100919 computer vision_konushin_lecture02
Page 29: 20100919 computer vision_konushin_lecture02
Page 30: 20100919 computer vision_konushin_lecture02
Page 31: 20100919 computer vision_konushin_lecture02
Page 32: 20100919 computer vision_konushin_lecture02
Page 33: 20100919 computer vision_konushin_lecture02
Page 34: 20100919 computer vision_konushin_lecture02

… 200 ближайших

Page 35: 20100919 computer vision_konushin_lecture02

… 200 ближайших

Page 36: 20100919 computer vision_konushin_lecture02
Page 37: 20100919 computer vision_konushin_lecture02
Page 38: 20100919 computer vision_konushin_lecture02

Почему это работает?Почему это работает?

Page 39: 20100919 computer vision_konushin_lecture02
Page 40: 20100919 computer vision_konushin_lecture02

10 ближайших из 20,000 изображений

Page 41: 20100919 computer vision_konushin_lecture02

10 ближайших из 2х миллионов изображений

Page 42: 20100919 computer vision_konushin_lecture02

im2gps

• Собрали 6М картинок из Flikr с проставленными GPS-метками

• Умеем искать похожие изображения в большой базеизображения в большой базе

• Кластер из 400 машин для аннотации всех 6М изображений

• Найдем вот эту картинку:• Найдем, вот эту картинку:

James Hays, Alexei A. Efros im2gps: estimating geographic information from a single image, CVPR 2008.

Page 43: 20100919 computer vision_konushin_lecture02
Page 44: 20100919 computer vision_konushin_lecture02
Page 45: 20100919 computer vision_konushin_lecture02

Найдем теперь такую:

Page 46: 20100919 computer vision_konushin_lecture02

Что мы нашли:

Page 47: 20100919 computer vision_konushin_lecture02

Отображение результатов на карте

200 результатов, кластеризуем и покажем центрыи распределение картинокр р р

Page 48: 20100919 computer vision_konushin_lecture02

im2gps

Page 49: 20100919 computer vision_konushin_lecture02
Page 50: 20100919 computer vision_konushin_lecture02
Page 51: 20100919 computer vision_konushin_lecture02
Page 52: 20100919 computer vision_konushin_lecture02
Page 53: 20100919 computer vision_konushin_lecture02
Page 54: 20100919 computer vision_konushin_lecture02
Page 55: 20100919 computer vision_konushin_lecture02
Page 56: 20100919 computer vision_konushin_lecture02
Page 57: 20100919 computer vision_konushin_lecture02
Page 58: 20100919 computer vision_konushin_lecture02
Page 59: 20100919 computer vision_konushin_lecture02

Категории данных

Page 60: 20100919 computer vision_konushin_lecture02

**** ********** ****** **** ******** **** ****** ** **

******************************

Page 61: 20100919 computer vision_konushin_lecture02

Скорость = 112 м / км

**** ********** ****** **** ******** **** ****** ** **

******************************

Page 62: 20100919 computer vision_konushin_lecture02

Уклон

Ранжирование изображений по уклону (от макс к мин)

Page 63: 20100919 computer vision_konushin_lecture02
Page 64: 20100919 computer vision_konushin_lecture02

Ранжирование по плотности населения

Page 65: 20100919 computer vision_konushin_lecture02
Page 66: 20100919 computer vision_konushin_lecture02

Пустыни

Page 67: 20100919 computer vision_konushin_lecture02

Города и здания

Page 68: 20100919 computer vision_konushin_lecture02

Снег и лед

Page 69: 20100919 computer vision_konushin_lecture02

Саванна

Page 70: 20100919 computer vision_konushin_lecture02

Вода

Page 71: 20100919 computer vision_konushin_lecture02

Sketch2photo

Tao Chen, Ming-Ming Cheng, Ping Tan, Ariel Shamir, Shi-Min Hu Sketch2Photo: Internet Image Montage ACM SIGGRAPH ASIA 2009

Page 72: 20100919 computer vision_konushin_lecture02

Схема метода

• Идея:• Поиск в интернете подходящих для композиции изображенийизображений

• 3000 кандидатов для каждого объекта (выбирается 100)• 1000 кандидатов для фона (выбирается 20)

Page 73: 20100919 computer vision_konushin_lecture02

Выбор кандидатов на фон

• Фильтрация по ряду критериев• Согласование по контентуСогласование по контенту

– Для каждого изображения вычисляется гистограмма в LUV– Все вектора кластеризуются с помощью сдвига среднего– Выбирается самый большой кластер– Качество изображения считается по нормализованному расстоянию

махаланобиса

• Согласование по горизонту– Вычисление горизонта– Отбрасываем изображения со значительным >30% отклонением горизонта

• Чистый (uncluttered) фон– Сегментация– Считаем кол-во сегментов, в выпуклой оболочке объектов для размещения– Добавляем с весом 0.3 к метрике качества

Page 74: 20100919 computer vision_konushin_lecture02

Выбор кандидатов для объектов• Для композиции лучше всего подходят такие изображения

• Один значимый (salient) объект на чистом, простом фоне• Форма значимого объекта похожа на форму целевого • Используем salient-сегментацию

LIU, T., SUN, J., ZHENG, N.-N., TANG, X., AND SHUM, H.-Y.Learning to detect a salient object. In Proc. of CVPR 2007

Page 75: 20100919 computer vision_konushin_lecture02

Выбор кандидатов для объектов (2)• Чистый, простой фон

• Считаем количество сегментов в полосе вокруг й бнайденного значимого объекта

• Отбрасываем изображение, если сегментов больше 10• Уточнение сегментацииУточнение сегментации

• Используем GrabCut (развитие Interactive Graph Cuts) c прямоугольной рамкой для инициализации

• Фильтрация по согласованию контуров• Считаем расстояние с помощью Shape Context

Page 76: 20100919 computer vision_konushin_lecture02

Примеры расчета кандидатов

Moto rider

Red carRed car

Page 77: 20100919 computer vision_konushin_lecture02

Композиция изображений

Примеры композиций разными методами

Ранжирование композиций по качеству

Page 78: 20100919 computer vision_konushin_lecture02

Примеры работы