![Page 1: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/1.jpg)
Распознавание изображений
Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik
![Page 2: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/2.jpg)
• Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имграфики и мультимедиа ВМК МГУ им. М.В. Ломоносова• И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина
• С/к «Компьютерное зрение» (год), ВМК• С/к «Анализ изображений и видео»
(год), ШАД Яндекс
• Задавать вопросы по ходу можно и !нужно!
![Page 3: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/3.jpg)
Задача компьютерного зрения
• Понять, что запечатлено на изображении
Мы видим Компьютер видит
![Page 4: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/4.jpg)
Задача компьютерного зрения
• Понять, что запечатлено на изображении• Вариант:Вариант:
• принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях
• Что это в действительности обозначает?• Зрение - источник семантической информации о мире• Зрение - источник метрической информации о трехмерном мире
![Page 5: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/5.jpg)
Семантическая информация
22.12.2010 Slide 5Slide credit: Fei-Fei, Fergus & Torralba
![Page 6: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/6.jpg)
Классификация сцены• outdoor• city
t ffi• traffic• …
slide credit: Fei-Fei, Fergus 22.12.2010 Slide 6
![Page 7: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/7.jpg)
Поиск и локализация объектов
sky
building
flag
facewallbanner
street lampbus bus
street lamp
Slide credit: Fei-Fei, Fergus & Torralba cars22.12.2010 Slide 7
![Page 8: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/8.jpg)
Качественная информация об объектах
slanted
i id inon-rigid moving object
vertical
rigid moving
vertical
rigid movingrigid moving object
horizontal slide credit: Fei-Fei, Fergus
rigid moving object
22.12.2010 Slide 8
![Page 9: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/9.jpg)
Метрическая информация
Real-time stereo Structure from motionMulti-view stereo forcommunity photo collectionsy p
NASA Mars Rover
Pollefeys et al. Goesele et al.
![Page 10: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/10.jpg)
Почему зрение – это сложно?
![Page 11: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/11.jpg)
Точка наблюдения
Mi h l l 1475 1564Michelangelo 1475-1564
slide credit: Fei-Fei, Fergus & Torralba
![Page 12: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/12.jpg)
Разное освещение
image credit: J. Koenderink
![Page 13: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/13.jpg)
Масштаб
Slide credit: Fei-Fei, Fergus & Torralba
![Page 14: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/14.jpg)
Деформация формы
X B ih 1943Xu, Beihong 1943
Slide credit: Fei-Fei, Fergus & Torralba
![Page 15: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/15.jpg)
Перекрытие
Magritte, 1957
slide credit: Fei-Fei, Fergus & Torralba
![Page 16: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/16.jpg)
Маскировка
![Page 17: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/17.jpg)
Движение
![Page 18: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/18.jpg)
Внутриклассовая изменчивость
slide credit: Fei-Fei, Fergus & Torralba
![Page 19: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/19.jpg)
Локальная неоднозначность
slide credit: Fei-Fei, Fergus & Torralba
![Page 20: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/20.jpg)
Сложности или возможности?
• Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки
Image source: J. Koenderin
![Page 21: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/21.jpg)
ЦветЦвет
22.12.2010 Slide 21
![Page 22: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/22.jpg)
Тени и освещениеТени и освещение
Source: J. Koenderink
![Page 23: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/23.jpg)
Отбрасываемые тениОтбрасываемые тени
Source: J. Koenderink
![Page 24: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/24.jpg)
Группировка: положениеГруппировка: положение
Image credit: Arthus-Bertrand (via
![Page 25: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/25.jpg)
Глубина: линейная перспективаГлубина: линейная перспектива
![Page 26: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/26.jpg)
ТекстураТекстура
![Page 27: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/27.jpg)
Упорядочивание по глубинеУпорядочивание по глубине
Source: J. Koenderink
![Page 28: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/28.jpg)
Глубина: воздушная перспективаГлубина: воздушная перспектива
![Page 29: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/29.jpg)
Резюме
• Зрение изначально нечеткая задача• Разные 3D сцены дают одно и то же 2D изображение• Разные 3D сцены дают одно и то же 2D изображение• Необходимы априорные знания о структуре и свойствах мира
Image source: F. D
![Page 30: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/30.jpg)
НачалоНачало
• Работы Дэвида Марра, 1970х• «Primal sketch»«Primal sketch»
• Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д.
• «2.5D sketch»• Упорядочивание по глубине (бинокулярное стерое), учёт
е с ртекстуры и т.д.
• «3D model»• Распознавание объектов и представление о 3х мерном• Распознавание объектов и представление о 3х мерном мире
![Page 31: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/31.jpg)
Зрение человека
![Page 32: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/32.jpg)
Зрение человека
Д (D t )• Данные (Data)• Устройство глаза• Данные в жизни• Данные в жизни
• Признаки (Features)• Low-level visionLow level vision
• (?) Стерео, группировка, форма• Mid-level vision
• Распознавание (Классификация)• High-level vision
![Page 33: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/33.jpg)
Камера-обскура
Камера-обскура:• Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal
point)• Изображение формируется на картинной плоскости (ImageИзображение формируется на картинной плоскости (Image
plane)
Slide by Steve Seitz
![Page 34: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/34.jpg)
Цифровая камера - дискретизация
![Page 35: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/35.jpg)
Человеческий глаз
conecone
rod
Глаз как камера!• Хрусталик – «линза», меняет форму под действием мышцру ф р у• Зрачок - дырка (апертура), диаметр управляется радужкой
– Радужка – цветная пленка с радиальными мышцамиМ К ф• Матрица - Клетки-фоторецепторы на сетчатке
Slide by Steve Seitz
![Page 36: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/36.jpg)
Цветные фотографии??
![Page 37: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/37.jpg)
Что такое цвет?Цвет – это психологическое свойство нашего зрения,
возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Visionфизические свойства объектов и света (S. Palmer, Vision Science: Photons to Phenomenology)
Цвет – это результат взаимодействия света, сцены и нашей зрительной системы
Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik
![Page 38: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/38.jpg)
Восприятие цветаM L
Power
S
Wavelength
Палочки и колбочки (3 вида) – фильтры спектра• Спектр света умножается на кривую откликаСпектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн
– Каждая колбочка даёт 1 число– Каждая колбочка даёт 1 число
• В: Как же мы можем описать весь спектр 3мя числами?• О: Мы и не можем! Большая часть информации теряется.ф р ц р
– Два разных спектра могут быть неотличимы» Такие спектры называются метамеры
Slide by Steve Seitz
![Page 39: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/39.jpg)
Спектры некоторых объектов
metamers
Slide by S. Lazebnik
![Page 40: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/40.jpg)
Трихроматическая теория
В экспериментах по сопоставлению цвета большинству людей достаточно 3х основныхбольшинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет• Основные цвета должны быть независимы
Для одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса• Исключения: цветовая слепота
ТТрихроматическая теория• Трех чисел оказывается достаточно, чтобы описать цвет• История восходит к 18у веку (Томас Юнг)• История восходит к 18у веку (Томас Юнг)
Slide by S. Lazebnik
![Page 41: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/41.jpg)
Первые цветные фотографииСергей Прокудин-Горский (1863-1944)Фотографии Российской империи(1909-р ф р (
1916)
Lantern Lantern projector
http://www.loc.gov/exhibits/empire/http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii
Slide by А.Efros
![Page 42: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/42.jpg)
Лев Толстой
![Page 43: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/43.jpg)
Цветное цифровое изображение
Байеровский шаблон
Демозаикинг (оценка пропущенных значений цвета)значений цвета)
Source: Steve Seitz
![Page 44: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/44.jpg)
«Фишка» глаза
![Page 45: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/45.jpg)
Плотность палочек и колбочек
cone pigmentmolecules
rod
Палочки и колбочки распределены неравномерно• Палочки измеряют яркость, колбочки цвет• Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у
наибольшей плотностью колбочек и без палочек• На периферии все больше палочек подсоединены к одному нейрону
Slide by Steve Seitz
![Page 46: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/46.jpg)
Что мы на самом деле видим
![Page 47: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/47.jpg)
Движения глаз
![Page 48: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/48.jpg)
Адаптация зрительной системыЧувствительность зрительной системы меняется в зависимости от доминантной освещенности б й (Б б )наблюдаемой сцены (Баланс белого)
• Механизм плохо изученАдаптация к разным уровням освещенностиАдаптация к разным уровням освещенности
• Размер зрачка регулирует объем света, попадающий на сетчатку Р• Размер резко меняется при входе в здание с ярко освещенной солнцем улицы
Цветовая адаптацияЦ• Клетки сетчатки меняю свою чувствительность• Пример: если доля красного в освещении повышается, понижается чувствительность клеток отвечающий запонижается чувствительность клеток, отвечающий за красный, пока вид сцены не придет к норме
• Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонахосвещении свечой все остается в желтых тонах
http://www.schorsch.com/kbase/glossary/adaptation.htmlSlide by S. Lazebnik
![Page 49: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/49.jpg)
Баланс белого• Когда мы смотрим на фотографию или монитор, глаза
адаптируются к освещению в комнате, а не к освещению сцены на фотографиифотографии
• Если баланс белого неточен, цвета фотографии кажутся неестественными
incorrect white balance correct white balance
http://www.cambridgeincolour.com/tutorials/white-balance.htmSlide by S. Lazebnik
![Page 50: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/50.jpg)
Постоянство яркости
Slide by S. Lazebnik
![Page 51: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/51.jpg)
Постоянство яркости
http://web.mit.edu/persci/people/adelson/checkershadow_illusion.htmlSlide by S. Lazebnik
![Page 52: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/52.jpg)
Данные - продолжение
• Сколько нам нужно данных для обучения алгоритмов?алгоритмов?
• Сколько есть классов объектов?• Сколько изображений?• Сколько изображений?
• Что мы про них будем знать?
![Page 53: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/53.jpg)
Сколько всего классов объектов?
1500 3000 10 й
Biederman 1987
1500-3000 основных существительных, ~10 подкатегорий
![Page 54: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/54.jpg)
OBJECTS
ANIMALS INANIMATEPLANTS
MAN-MADENATURALVERTEBRATEVERTEBRATE…..
MAMMALS BIRDS
GROUSEBOARTAPIR CAMERA
![Page 55: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/55.jpg)
10 в степениЧисло картинок на диске: 104
Ч 10 108Число картинок, виденных за 10 лет: 108(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)
Число картинок,виденных всем человечеством: 1020106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 = 1 f htt // b /A ti l /2002/H M P l H E Li d E th1 from http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx
Число картинок во вселенной: 102431081 atoms * 1081 * 1081 =
Число всех картинок 32x32 : 107373256 32*32*3 ~ 107373
Slide by Antonio Torralba
![Page 56: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/56.jpg)
Доступные данные
Number of
1020
pictures
Human Click Limit( ll h it t ki
Lenaa dataset in one picture
1015
(all humanity takingone picture/secondduring 100 years)COREL
a dataset in one picture
1010
2 billion
100
105
40.000
1972
100
Time 1996 2007 2020?
Slide by Antonio Torralba
![Page 57: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/57.jpg)
Крошки-картинки (Tiny images)
A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset forA. Torralba, R. Fergus, W. T. Freeman 80 million tiny images: a large dataset for non-parametric object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
![Page 58: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/58.jpg)
Примеры изображений
![Page 59: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/59.jpg)
Примеры изображений
![Page 60: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/60.jpg)
Сегментация
![Page 61: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/61.jpg)
Отдельные объекты
![Page 62: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/62.jpg)
Распознавание человеком
![Page 63: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/63.jpg)
80 Million Tiny Images
http://people.csail.mit.edu/torralba/tinyimages/
![Page 64: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/64.jpg)
80 Million Tiny Images
![Page 65: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/65.jpg)
Поиск по громадной коллекцииSSD метрика для сравнения изображений
2
,,21
2 )),,(),,((∑ −=cyx
SSD cyxIcyxID
Для ускорения поиска используем индексацию по первым 19 главным компонентам всей коллекции 80М изображенийколлекции 80М изображений
221
2 ))()((ˆ ∑ −=n
SSD nvnvDn
Отдельно расчет, сколько приблизительных M изображений нужно
б б й N 50выбрать, чтобы найти N=50 точных ближайших (график)Выбираем 16000 по приближенной р рметрики, внутри сравниваем точно
![Page 66: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/66.jpg)
![Page 67: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/67.jpg)
Более сложные метрики
221
2 )),,(),,((min ∑ −=warp cyxITcyxID θθ ,,∑
cyxp θ
![Page 68: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/68.jpg)
Результат улучшенной метрики
![Page 69: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/69.jpg)
Анализ коллекции
Вероятность найти соседа, с корреляцией больше 0.8 или 0.9 в зависимости от
Вероятность того, что изображения отнесены к одной категории в
размера коллекции зависимости от корреляции
![Page 70: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/70.jpg)
Поиск лиц на основе коллекции
![Page 71: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/71.jpg)
![Page 72: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/72.jpg)
![Page 73: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/73.jpg)
Caltech 101 & 256http://www.vision.caltech.edu/Image_Datasets/Caltech101/http://www.vision.caltech.edu/Image_Datasets/Caltech256/
Griffin, Holub, Perona, 2007
Fei-Fei, Fergus, Perona, 2004
![Page 74: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/74.jpg)
PASCAL (2005-2009)
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Классы 2008 :Человек: человекЖивотные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , цТранспорт: самолет, велосипед, лодка, автобус, машина, мотоцикл, поездПомещения: бутылка кресло стол растение в горшкеПомещения: бутылка, кресло, стол, растение в горшке, монитор, диван
![Page 75: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/75.jpg)
The PASCAL Visual Object Classes Challenge (2005-2009)
• Основные конкурсы• Классификация: Для каждого из 20 классов, определить
/ б бприсутствие/отсутствие объекта этого класса в изображении• Поиск: Определить рамку и метку каждого объекта из 20 классов в изображениир
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
![Page 76: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/76.jpg)
The PASCAL Visual Object Classes Challenge (2005-2009)
• Новые конкурсы• Семантическая• Семантическая сегментация:попиксельная аннотация областианнотация области объектов и фона
• Человек: Пометить рамкой и меткой каждую часть тела (голову, руки, ступни)( у, ру , у )
![Page 77: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/77.jpg)
LabelMehttp://labelme.csail.mit.edu/
Russell, Torralba, Murphy, Freeman, 2008
![Page 78: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/78.jpg)
Mechanical Turk
Workers
Task: Dog?
Answer: Yes
Pay: $0 01Broker
Task
Is this a dog?o Yeso No
Pay: $0.01www.mturk.com
as
$0.01
![Page 79: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/79.jpg)
Life of a Turker1. Go to mturk.com2. Find a HIT3. Accept it4. Do work4. Do work5. Submit work6. Wait for approval6. Wait for approval7. Get paid
![Page 80: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/80.jpg)
Life of a Requester1. Design the task interface2. Prepare datap3. Publish HITs4. Wait for assignments4. Wait for assignments5. Approve(Reject) assignments6. Post more HITs6. Post more HITs
![Page 81: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/81.jpg)
Annotation language• Common annotation types
• Polygons• Bounding boxes• Segmentations
Sti k fi / h• Stick figure/graphs
• Recursion
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
![Page 82: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/82.jpg)
Require qualification• Qualification is a test that a worker has to pass to work on the tasks
Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions:
Which of the following checboxes are correct for this annotation?
No people (there are people in the image)
> 20 people (there are more than 20 people of appropriate size)
Small heads (there are unmarked small heads in the image)
Task: Put a box around every head
![Page 83: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/83.jpg)
Ideal task properties• Easy cognitive task
Good: Where is the car? (bounding box)Good: How many cars are there? (3)Good: How many cars are there? (3)Bad: How many cars are there? (132)
• Low amount of input requiredGood: few clicks or a couple wordsGood: few clicks or a couple wordsBad: detailed outlines of all objects (100s of control points)“Sometimes, Mturk hits requiring many words are not worth the effort to
complete ” From Singaporecomplete. From Singapore• Well-defined task
Good: Locate the corners of the eyes.B d L b l j i t l ti (l l ti l i )Bad: Label joint locations (low resolution, close-up images)
• Concise definitionGood: 1-2 paragraphs, fixed for all tasksGood: Lots of imagesBad: 300 pages annotation manualBad: Similarly-looking, but different tasks
![Page 84: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/84.jpg)
Who are the Turkers?
70
80
90
50
60
70
US
IndiaUSIndia
20
30
40India
Other
IndiaOther
0
10
20
) ) ) ) ) ) )
2008
(Ipe
irotis
)
2008
(Ipe
irotis
)ay
200
9 (R
oss)
ug 2
009
(Ros
s)
ov 2
009
(Ros
s)
2010
(Ipe
irotis
)20
10 (J
ohn
Le)
Mar 2
0
Nov 2
0
May Aug
Nov
Feb
20
May 2
0
![Page 85: Семантическая классификация изображений, осень 2010: Распознавание изображений](https://reader031.vdocuments.pub/reader031/viewer/2022020203/587c56ad1a28abc62c8b7129/html5/thumbnails/85.jpg)
Income level comparison
• Turk pay ~ $2/hr• Minimum salary in India ~ $6/day• Maximum work week in India ~ 48 hrs
2*48*48 = $4608 per worker$Average annual earnings in India - $1733