Download - 20120414 videorecognition konushin_lecture04
![Page 1: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/1.jpg)
Сопровождение объектов и распознавание событий
13-15 апреля 2012 года
Антон КонушинComputer science club, Екатеринбург
![Page 2: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/2.jpg)
Сопровождение объектов
• Допустим, объект уже выделен на первом кадре. • Вручную рамкой• Детектор объектов• Вычитание фона
• Нужно определить его положение на всех последующих кадрах
• Результат – след (track) или траектория движения• X(1), X(2), X(3),…,X(N)
• Object tracking• Сопровождение объектов• Отслеживание объектов• Слежение за объектами
![Page 3: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/3.jpg)
Сложность задачи
• Изменение по времени• Вид объекта меняется от кадра к кадру из-за ракурса,
изменения освещения, внутренних изменений (идущий человек)
• Масштабируемость• Видео гораздо больше одного изображения, гораздо
выше вычислительная нагрузка
• Несколько объектов• В сцене могут быть несколько объектов, которые могут
быть похожи друг на друга, перекрывать друг друга и т.д.
![Page 4: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/4.jpg)
Сложность оценки результата
• Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные
• Подготовить эталонные данные для видео существенно сложнее, чем для изображений• Один эталонный пример для выделения объектов – 1 изображение• Один эталонный пример для отслеживания объектов - 1 видео
![Page 5: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/5.jpg)
• Допустим, есть эталонные данные, в которых отмечено положение объекта в каждом кадре (или в ключевых кадрах)
• Ошибка сопровождения – покадровое расстояние от измеренного до эталонного следа
• Ожидаемая ошибка на видеопоследовательности
• Точность (precision)
• Надежность (robustness)
Оценка качества по эталонным данным
![Page 6: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/6.jpg)
Методы к рассмотрению
• Ассоциация обнаружений между кадрами• Сопоставление шаблонов
• Кросс-корелляция• На основе карт краёв
• «Стая точек»• Сдвиг среднего• Комбинация методов
![Page 7: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/7.jpg)
Ассоциация выделенных объектов• Допустим, на I(t) и I(t+1) выделении
объекты с помощью вычитания фона• Какому объекту (следу) какой блоб
соответствует?• Фактически – задача сопоставления или
ассоциации данных (Data association)• «Tracking by detection»• Можем каждый объект описать набором
признаков• Цвет, текстура, и т.д.
![Page 8: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/8.jpg)
Детерминированное слежение
Алгоритм установления соответствий между объектами, найденными на соседних кадрах с учетом ограничений
Варианты: Появление нового объекта в поле зрения Сопоставление сопровождаемому объекту Пропадание объекта из поле зрения
![Page 9: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/9.jpg)
Простейшая стратегия
Простейшая стратегия в более сложных случаях не срабатывает, поэтому исследовались разные ограничения
Сопоставим ближайшее наблюдение следу
![Page 10: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/10.jpg)
Примеры других ограничений
• (а) близость• (b) максимальная скорость• (c) малое изменение вектора скорости• (d) общее движение• (e) «жесткость»
![Page 11: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/11.jpg)
Детерминированные алгоритмы
Двухкадровые Многокадровые
Подходы к установлению соответствий:• Перебор разных варианты• Энергетическая формулировка:
• Для каждого ограничения сформулируем «штраф»• Составим функцию «энергии» сопоставления• Будем оптимизировать энергию с помощью какого-нибудь
метода дискретной оптимизации
![Page 12: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/12.jpg)
Пример работы
![Page 13: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/13.jpg)
Отслеживание объектов
• Что делать, если фон не стационарный или и мы не можем на каждом кадре выделять объекты?• Выделять объекты (те же лица) на каждом кадре
вычислительно тяжело
• Придётся строить какую-то модель «вида» объекта, и искать на следующем кадре похожий объект
![Page 14: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/14.jpg)
Текущий кадр
… …
Схема слежения
Выбор пространства
признаков
Представление модели в
выбранном пространстве
Инициализация модели
![Page 15: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/15.jpg)
Поиск в окрестности в следующем
кадре
Старт с текущей позиции
Выбор положения,
максимизирующего сходство
Повторение процедуры
для следующего
кадра
Текущий кадр
… …
Модель Кандидат
Схема слежения
![Page 16: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/16.jpg)
Представление объектов
• Как будем описывать объект (модель объекта) ?• Шаблон• Набор точек• Признаки объекта
![Page 17: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/17.jpg)
Сопоставление шаблонов
• Фиксируем изображение объекта (шаблон – pattern)
• Будем искать положение шаблона в новом кадре • Например, в окрестности предыдущего
положения
• Попиксельно будем сравнивать шаблон и фрагмент нового кадра с помощью какой-нибудь метрики
![Page 18: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/18.jpg)
Метрики
(SAD) Sum of absolute differences
(SSD) Sum of squared differences
(CC) Cross-correlation
• SAD, SSD – минимизируются (0 – точное совпадение)• CC, NCC – максимизируется (1 – точное совпадение)
(NCC) Normalized cross correlation
![Page 19: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/19.jpg)
Пример: пульт ТВ
• Шаблон (слева), изображение (в центре), карта нормализованной корреляции (справа)• Пик яркости (максимум корреляции) соответствует положению руки (искомого шаблона)
![Page 20: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/20.jpg)
Пример: пульт ТВ
![Page 21: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/21.jpg)
Пример: пульт ТВ
![Page 22: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/22.jpg)
Пример: пульт ТВ
![Page 23: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/23.jpg)
Пример: пульт ТВ
![Page 24: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/24.jpg)
Края для сопоставления шаблонов
• Мы знаем, что в края – очень информативный признак, и они устойчивы к измненеию освещения • Попробуем использовать только края для поиска / отслеживания объекта• Как эффективно сопоставлять карты краев?
• Попиксельно явно нельзя!
![Page 25: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/25.jpg)
Метрики• Сhamfer Distance
• Для каждого пикселя a края шаблона A вычисляем расстояние до ближайшего пикселя b края изображения B
•Суммируем все найденные расстояния
• Hausdorff Distance• Почти то же самое, но берём не сумму, а максимальное расстояния
baBarBb
min),(
Aa BbbaBAChDist min),(
baBAHausDistBbAa
minmax),(
Какую метрику использовать заранее сказать нельзя, нужна экспериментальная проверка
![Page 26: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/26.jpg)
Поиск ближайших пикселей края
Вопрос: как найти ближайший пиксель края на изображении?
![Page 27: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/27.jpg)
Distance Transform
Для каждого пикселя вычисляется расстояние до ближайшего пикселя края• Многопроходный алгоритм (пометить соседей, потом их
соседей и т.д.)• Двухпроходный алгоритм
«Дистантное преобразование»
![Page 28: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/28.jpg)
Применение DT
Совмещаем шаблон и карту DT Вычисляем ошибку, суммирую все значения в пикселях краев (для Chamfer distance)
![Page 29: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/29.jpg)
Пример поиска с помощью DT
![Page 30: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/30.jpg)
• HUTTENLOCHER, D., NOH, J., AND RUCKLIDGE, W.. Tracking nonrigid objects in complex scenes. ICCV 1993
Сопровождение с помощью карт краёв
• Карта краёв шаблона используется для дальнейшего сравнения• Вычисляется метрика Хаусдорфа на основании DT• Шаблон обновляется как набор краёв, ближайших к краям шаблона предыдущего кадра
![Page 31: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/31.jpg)
Пример работы
![Page 32: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/32.jpg)
Множество точек
• Мы умеем вычислять движение отдельных точек с помощью локального метода оценки оптического потока Lucas-Kanade
• Но каждая точка в отдельности может быстро сбиться из-за ошибок в вычислении оптического потока и его несоответствия движению точек сцены
• Решение – использование «стаи точек»(«flock of features»)
![Page 33: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/33.jpg)
Пример: отслеживание руки
• Стая – множество контрольных точек, удовлетворяющих 2м условиям:• Никакие две контрольные точки не совпадают (порог на
близость)• Никакая контрольные точки не уходят далеко от
медианного центра (порог на удаление)
![Page 34: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/34.jpg)
Пример: отслеживание руки
• Шаг 1: инициализация• Находим 100 контрольных точек с помощью метода поиска
локальных особенностей (Harris corners) в рамке руки• Вычисляем медиану• Вычисляем цветовую статистику в окрестности центра
– Одна гауссиана (или гистограмма)– Это модель кожи
• Разметить в рамке руки все пиксели, похожие на кожу
![Page 35: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/35.jpg)
Пример: отслеживание руки
• Шаг 2: слежение• Отслеживаем контрольные точки• Если точка нарушает условия стаи, её удаляем
• Шаг 3: инициализация новых контрольных точек• Ищем особенности (Harris corners)• Если точка не на коже, то отбрасываем её
![Page 36: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/36.jpg)
Пример работы
![Page 37: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/37.jpg)
Инициализация объекта слежения
Квантованная цветовая модель
Выбор пространства
признаков
Модель = распределение
признаков в объекте
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 . . . m
color
Pro
babi
lity
Мean-Shift («Cдвиг среднего»)
• Вместо жесткого шаблона вычислим вектор-признак по области объекта• Например, гистограмму распределения цветов
![Page 38: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/38.jpg)
,f y f q p y
Сходство:
Модель(центр в 0)
Кандидат(центр в y)
1..1
1m
u uu mu
q q q
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 . . . m
color
Pro
babi
lity
1..1
1m
u uu mu
p y p y p
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 . . . m
color
Pro
bab
ility
Слежение сдвигом среднего
•Будем сравнивать гистограммы опорной модели и положений-кандидатов на новом кадре
![Page 39: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/39.jpg)
f y
Сходство: ,f y f p y q
Слежение сдвигом среднего
• Методы сопоставления шаблонов страдают от проблемы негладкости целевой функции
• Небольшие смещения могут привести к резким скачкам ошибки сопоставления• Поэтому мы не можем использовать, например, метод градиентного спуска для поиска оптимального положения
• Для решения этой проблемы и был предложен метод Mean-Shift
Dorin Comaniciu, Visvanathan Ramesh, Peter Meer, Kernel-Based Object Tracking, PAMI 2003
![Page 40: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/40.jpg)
f y
Сходство: ,f y f p y q
Слежение сдвигом среднего
• Покроем цель изотропным ядром. Веса на границе цели близки к нулю• Теперь небольшие смещения приводят к небольшим изменениям ошибки сопоставления• Ошибка сопоставления становится гладкой (по сдвигу от оптимального положения • Теперь мы можем не перебирать все положения в окрестности, а воспользоваться методом градиентного спуска
Изотропное ядро:
![Page 41: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/41.jpg)
1..i i nx
Пиксели цели
( )k x Изотропное, выпуклое, дифференцируемое, монотонно убывающее ядро(Пиксели по краям могут перекрываться, взаимодействовать с фоном и т.д.)
( )b x Индекс ячейки гистограммы (1..m) для пиксела x
2( )i
u ib x u
q C k x
Нормализация Вес пиксела
Вероятность признака u в модели
0
0.05
0. 1
0.15
0. 2
0.25
0. 3
1 2 3 . . . m
color
Pro
babi
lity
Вероятность признака u в кандидате
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 . . . m
co lor
Pro
babi
lity
2
( )i
iu h
b x u
y xp y C kh
Нормализация Вес пиксела
0
model
y
candidate
Слежение сдвигом среднего
![Page 42: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/42.jpg)
1 , , mp y p y p y
1, , mq q q
Модель цели:
Кандидат:
Подобие: , ?f y f p y q
1 , , mp y p y p y
1 , , mq q q
q
p yy
1
1
The Bhattacharyya Coefficient
1
cosT m
y u uu
p y qf y p y q
p y q
Функция сравнения
![Page 43: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/43.jpg)
,f p y q
Начинаем с текущей позиции
q
Ищем в окрестности сл.
кадра
p y
Максимизируем сходство
Гладкая целевая функция
![Page 44: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/44.jpg)
Иллюстрация сдвига среднего
11
1
n
i iin
ii
x wy
w
Для определенных ядер можно показать, что поиск градиентный спуск превращается в «сдвиг среднего», где:
![Page 45: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/45.jpg)
Проблема :
Масштаб цели
меняется
Масштаб (h) ядра должен
меняться
Решение:
Прогоняем поиск 3 раза с
разными h
Выбираем h, на котором достигается максимум
Слежение сдвигом среднего
![Page 46: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/46.jpg)
Пример работы
![Page 47: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/47.jpg)
COLLINS, R. AND LIU, Y.. On-line selection of discriminative tracking features. ICCV 2003
Выбор признаков
• В зависимости от разных факторов, объект может быть различим в разных каналах цветности
![Page 48: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/48.jpg)
Виды каналов
• Построим 49 каналов, как линейные комбинации цветовых каналов:
![Page 49: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/49.jpg)
Идея оценки каналов
• Мы оцениваем, насколько хорошо по каналу отличается объект и фон.• Отберём несколько наилучших каналов• На следующих кадрах мы можем изменить каналы!
![Page 50: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/50.jpg)
Примеры оценки каналов
![Page 51: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/51.jpg)
Сравнение методов
Один фиксированный канал (MeanShift)
Выбор каналов на лету
![Page 52: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/52.jpg)
B. Stenger, T. Woodley, R. Cipolla Learning to Track With Multiple Observers, СVPR 2009
Композиция методов
• Идея:• Протестировать ряд базовых трекеров на наборе выборок, оценить качество и надежность• Найти зависимость качества трекера от уверенности (confidence value)• Найти хорошо дополняющие друг друга группы методов• При падении доверия к первому методу в группе мы переключаемся на второй метод
![Page 53: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/53.jpg)
Тестовые данные
• Indoor и Outdoor данные• Во всех присутствует изменение позы, размера, размытие из движения (motion blur)
![Page 54: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/54.jpg)
Обучение метрики доверия
• По тестовым данным обучаем p(e|c), где c – параметр доверия, специфичный для каждого метода
![Page 55: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/55.jpg)
Каскадное объединение
• Если оценка качества по доверию для метода 1 падает ниже порога, переключаемся на метод 2• Когда все методы дают низкое качество, происходит переинициализация метода
![Page 56: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/56.jpg)
NCC NCC NCC
CM CM CM
Примеры работы
• Работает NCC, при возникновении motion blur система переключается на CM (color + motion map)
![Page 57: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/57.jpg)
Примеры работы
NCC NCC NCC
FF FF MS• Работает NCC, потом переключение на FF (flock of features), потом на MS (mean shift)
![Page 58: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/58.jpg)
Примеры работы
![Page 59: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/59.jpg)
Распознавание действий
Для чего может пригодится:• Автоматизация систем видеонаблюдения
• «Началась драка у пивного киоска»• Поиск видео в архивах
• Найти сцену «Обама пожимает руку Медведеву»• Навигация по контенту
•Перемотка до следующей важной сцены (пр. гола)
• Огромное количество видеоданных
• Действия (action) людей – главные события в кино, новостях, домашнем видео, видеонаблюдении 150,000 uploads every day
![Page 60: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/60.jpg)
Действия (Actions)
• Физическое движение тела человека• Атомарное (жест) или
более сложное KTH action dataset
Определение 1:
Определение 2
• Одно и то же движение имеет разный смысл в зависимости от окружения
Взаимодействие человека с окружением с определенной целью
![Page 61: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/61.jpg)
Действия (Actions)
• Взаимодействие нескольких человек с определенной цельюОпределение 3:
Драка
Кража
![Page 62: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/62.jpg)
Тестовые базы
• Самые известные:
• KTH Actions
• UCF Sport Actions
• Hollywood2
![Page 63: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/63.jpg)
KTH Actions
• 25 человек, 6 действий, 4 сценария (внутри, снаружи, снаружи др. масштаба, снаружи в др. одежде)
• Всего 2391 фрагмент
C. Schüldt, I. Laptev, and B. Caputo. Recognizing human actions: A local SVM approach. ICPR, 2004.
![Page 64: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/64.jpg)
UCF Sport Actions
• 10 видов «спортивных» действий• 150 видеофрагментов• Можно увеличить с помощью
«шевеления»/зеркального отображения
M. Rodriguez, J. Ahmed, and M. Shah. Action mach: A spatio-temporal maximum average correlation height filter for action recognition. CVPR, 2008
![Page 65: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/65.jpg)
Hollywood2
• 10 разных обыденных действий из 69 голливудских фильмов
• 1707 фрагментов
• Интересно, как можно автоматизировать подготовку таких эталонных данных?
•I. Laptev, M. Marszałek, C. Schmid and B. Rozenfeld; "Learning realistic human actions from movies“ CVPR 2008•M. Marszałek, I. Laptev, and C. Schmid. Actions in context. CVPR, 2009
![Page 66: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/66.jpg)
…117201:20:17,240 --> 01:20:20,437
Why weren't you honest with me?Why'd you keep your marriage a secret?
117301:20:20,640 --> 01:20:23,598
lt wasn't my secret, Richard.Victor wanted it that way.
117401:20:23,800 --> 01:20:26,189
Not even our closest friendsknew about our marriage.…
…RICK
Why weren't you honest with me? Whydid you keep your marriage a secret?
Rick sits down with Ilsa.
ILSA
Oh, it wasn't my secret, Richard. Victor wanted it that way. Not even our closest friends knew about our marriage.
…
01:20:17
01:20:23
subtitles movie script
• Сценарии есть для более 500 фильмовwww.dailyscript.com, www.movie-page.com, www.weeklyscript.com …
• Субтитры (со временем) есть почти для всех фильмов• Можем сопоставить на основе этой информации
Аннотация по сценарию
![Page 67: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/67.jpg)
Извлечение действий из сценария
“… Will gets out of the Chevrolet. …” “… Erin exits her new truck…”
• Высокая вариабельность описаний в тексте:
GetOutCar действий
Потенциальная ошибка: “…About to sit down, he freezes…”
• => Классификация текста с учителем
![Page 68: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/68.jpg)
Неустранимые ошибки
Пример ошибки
A black car pulls up, two army officers get out.
Автоматическую разметку необходимо потом просматривать на наличие ошибок
![Page 69: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/69.jpg)
Распознавание действий
“атомарные действия
car exit phoning smoking hand shaking drinking
“стабильные по виду” объекты
• Человек может некоторые действия распознать по статичному изображению
• Много сложностей:• Все обычные сложности при распознавании• Некоторые действия не возможно определить по одному кадру• Для описания действия нужно распознавать несколько
предметов и их взаимное отношение
![Page 70: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/70.jpg)
Подходы к распознаванию
Распознавание событий – одна из самых сложных задач в компьютерном зрении, сейчас ей уделяется очень много внимания:
• Одноуровневые подходы• Анализ последовательностей событий (HMM)• Пространственно-временные признаки
• Иерархические подходы• Синтаксические/статистические методы• Методы на основе описаний (description-based)
Мы рассмотрим только один вариант – одноуровненый подход на основе пространственно-временных признаков
![Page 71: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/71.jpg)
«Скользящее окно»
• Применим к видео схему «скользящее окно»• Выделим фрагмент - пространственно-временной
параллелепипед• Возникают задачи, аналогичные задачам
классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема
time time time time
![Page 72: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/72.jpg)
Задачи распознавания в видео
• Задачи, аналогичные задачам классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема• Классификация видеофрагмента• Поиск действий в видео (3D bbox)
• Можем применить наработанную методологию• Вычисление признаков (но уже по объему)• Поиск особых точек• Построение словарей• Классификация (Nearest Neighbor, SVM, Boosting)• И т.д.
![Page 73: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/73.jpg)
Распознавание событий
30и пиксельный человечек
Alexei A. Efros, Alexander C. Berg, Greg Mori and Jitendra Malik. Recognizing Action at a Distance. ICCV 2003
![Page 74: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/74.jpg)
Идея
• Движение – информативный признак и позволяет распознать многие действия без распознавания объектов и их взаимодейстия
• Этот алгоритм – наглядный пример важности использования движения, даже в простой форме• Будем сравнивать тестовые объекты с примерами из базы
с помощью Nearest Neighbor
![Page 75: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/75.jpg)
Задача и её свойства
• Распознавать события (действия человека) на расстоянии• Низкое разрешение, шумные данные• Движущаяся камера, перекрытия• Широкая гамма событий• Объект существенно перемещается между кадрами
![Page 76: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/76.jpg)
Сбор данных
• Отслеживание• Инициализируется пользователем• Простой коррелятор
![Page 77: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/77.jpg)
Представление
• Стабилизированный пространственно-временной объем• Нет информации о перемещении• Всё движение вызвано движением
конечностей человека
• Стабилизировать «окно» нам важно потому, что объект быстро меняет своё положение в кадре• Если это не так, то можной обойтись
без стабилизации
![Page 78: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/78.jpg)
input sequence
Схема распознавания
• Будем аннотировать видеопоток сопоставляя его с ранее записанными видеофрагментами• Для каждого кадра, сопоставим фрагмент в некотором
временном интервале• Распознавание через сопоставление (Nearest Neighbor)
motion analysisrun
walk leftswing walk right
jog
database
![Page 79: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/79.jpg)
Дескриптор движения
Изображение Оптический поток yxF ,
yx FF , yyxx FFFF ,,, сглаженные
yyxx FFFF ,,,
![Page 80: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/80.jpg)
Дескриптор движения
t
…
…
…
…S
Фрагмент A
Фрагмент B
Временной интервал E
Матрица сходства движений
A
B
I -матрица
E
E
сглаженная I
E
EBПокадровая
Матрица сходства
A
![Page 81: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/81.jpg)
Действия: сопоставление
Исходноевидео
Сопоставленные кадры
вход сопоставление
![Page 82: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/82.jpg)
Классификация действий: футбол
10 действий; 4500 кадров всего; 13 кадров в дескрипторе
![Page 83: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/83.jpg)
Распознавание: теннис
![Page 84: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/84.jpg)
Аннотированная база событий
input sequence
database
run
walk leftswing
walk right
jog
run walk left swing walk right jogРаспознавание действий:
Положения суставов:
![Page 85: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/85.jpg)
Перенос 2D скелета• База размечена 2D точками в местах сочленений
конечностей (суставах)• После сопоставления перенос скелета на новую
последовательность• Уточнение (Поиск наилучшего сдвига/масштаба для
совмещения карты движения)
Исходная последовательность:
Перенос скелета:
![Page 86: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/86.jpg)
“Do as I Do” синтез движения
• Параметры качества синтеза:• Сходство движений между видео• Сходство внешности между видео
• Энергетическая формулировка, динамическое программирование
input sequence
synthetic sequence
![Page 87: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/87.jpg)
“Do as I Do”
Исходное движение Исходный вид
3400 кадров
Результат
![Page 88: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/88.jpg)
Замена персонажа
![Page 89: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/89.jpg)
Наработки в распознавании изображений
• Особые точки или плотный выбор фрагментов• Разные дескрипторы для описания фрагментов• Квантование (словари, «мешок слов» и т.д.)• Классификация с помощью SVM, Boosting и т.д.
Все это адаптировали для классификации событий
Вычислим признаки по
области
Посчитаем статистики по блокам
Квантуем признаки
Разбиваем область на
блоки
Область анализа Классифицируем
![Page 90: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/90.jpg)
Локальныей особенности
• Известные декторы локальных особенностей:
• Harris3D (2003)
• Сuboid (2005)
• Hessian (2008)
H. Wang, M. M. Ullah, A. Kläser, I. Laptev and C. Schmid; "Evaluation of local spatio-temporal features for action recognition" in Proc. BMVC‘2009,
![Page 91: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/91.jpg)
Harris3D
I. Laptev and T. Lindeberg; "Space-Time Interest Points”, ICCV’2003
Ivan Laptev, INRIA
![Page 92: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/92.jpg)
Harris3D
• Вычислим матрицу вторых моментов, аналогично детектору Harris:
Где g – ядро гаусса (сглаживание)σ, τ - параметры масштаба
• Функция отклика угла:
![Page 93: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/93.jpg)
Синтетические примеры
![Page 94: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/94.jpg)
Примеры на видео
![Page 95: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/95.jpg)
Код
• Ivan Laptev’s code• http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#s
tip
• Piotr's Image & Video Toolbox for Matlab• http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html• Много полезных функций (k-means, meanshift, PCA, ferns,
RBF, DOG-фильтры и т.д.)
• Hessian executables:• http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP/
![Page 96: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/96.jpg)
Плотный выбор точек
• По аналогии с обычными изображениями, можно точки выбирать плотно на изображении, а не искать специальным детектором
• Обычно выбирают с 50% перекрытием
![Page 97: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/97.jpg)
Дескрипторы
• Jet (2003)• Вектор градиентов:
• Расстояние Махаланобиса
• Cuboid (2005)• HOG/HOF (2007)• HOG3D (2008)• Extended SURF (2008)
![Page 98: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/98.jpg)
HOG/HOF
Гистограмма ориентаций градиентов (HOG)
3x3x2x4bins HOGдескриптор
Гистограмма оптического потока(HOF)
3x3x2x5bins HOF дескриптор
Public code available at www.irisa.fr/vista/actions
Гистограммы по 3D окрестностям точек
![Page 99: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/99.jpg)
Построение словаря
• Кластеризуем К- средними• Квантуем особенности
![Page 100: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/100.jpg)
Примеры
• Примеры 4х самых часто встречающихся пространственно-временных особенностей
![Page 101: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/101.jpg)
Классификация по мешку слов
• Сравним разные детекторы / дескрипторы с помощью простого алгоритма:• Построим словарь• Построим мешок слов для всего видео• Классификация через SVM с ядром Хи-Квадрат
![Page 102: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/102.jpg)
Результаты сравнения
База KTH Actions
База UCF Sports Actions
![Page 103: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/103.jpg)
Результаты сравнения
База Hollywood2
База Hollywood2 – разное разрешение
![Page 104: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/104.jpg)
Результаты сравнения
Размеры окрестностей
Оценка скорости
![Page 105: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/105.jpg)
Для повышения качества распознавания на сложных данных, как и в изображениях, можем разбивать окрестности на блоки и считать признаки для каждого блока, а затем конкатенировать в один дескриптор
По пространству1x1 (стандартный мешок)2x2, o2x2 (50% перекрытие)h3x1 (горизонтальный), v1x3 (вертикальный)3x3
По времени:t1 (стандартный мешок), t2, t3
Пространственное разбиение
![Page 106: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/106.jpg)
Можем подобрать «оптимальную» комбинацию типов признаков и разбиений с помощью SVM с многокальным хи-квадрат ядром для классификации:
Канал c – это комбинация детектора, дескриптора и вида сетки Dc(Hi, Hj) – расстояние хи-квадрат между гистограммамиAc среднее расстояние между всеми обучающими примерами Выбор наилучшей комбинации каналов осуществляется жадным методом
Многоканальное ядро для SVM
![Page 107: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/107.jpg)
Сравнение разных комбинаций
Разные сетки и комбинации каналов обеспечивают прирост качества
Многокальный SVM
![Page 108: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/108.jpg)
Примеры работы на данных из кинофильмов
Распознавание в кино
![Page 109: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/109.jpg)
Устойчивость к шуму
Деградация качества в присутствии неправильных меток
До 20% неправильных – незначительное снижение качества При 40% - снижение качества на 10%
![Page 110: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/110.jpg)
Сравнение по средней точности для каждого класса при автоматической и чистой (ручной) разметке данных
Распознавание в кино
![Page 111: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/111.jpg)
Пример
![Page 112: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/112.jpg)
Выделение событий в видео
I. Laptev and P. Pérez. "Retrieving actions in movies“ ICCV 2007
• Попробуем не просто распознавать присутствие события в видео, но и локализовывать его в кадре
• Идея «нацеливания алгоритма» на нужных кадрах
![Page 113: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/113.jpg)
Выбранные действия
Разница в форме
Разница в движении
Оба действия похожи по форме (поза человека) и по движению (движение руки)
Вариабельность больше, чем для изображений
Пить
Курить
Но движение дает дополнительную информацию
Выберем пару сложных и похожих действий
![Page 114: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/114.jpg)
Тестовая база
• Ролики собраны из фильмов “Coffee and Cigarettes”; “Sea of Love”
KeyframeFirst frame Last framehead rectangle
torso rectangle
Временная разметкаПространственная разметка
“Пить”: 159 размеченных примеров
“Курить”: 149 размеченных примеров
![Page 115: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/115.jpg)
Примеры действия «пить»
![Page 116: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/116.jpg)
Классификация по форме и движению
• Обучим детекторы – 1) по объёму и движению 2) по одному кадру и гистограммам градиентов• Детектор по одному кадру может выделить фрагмент и быстро, но не может отделить «пить» от «курить»
Random motion patterns
![Page 117: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/117.jpg)
Нацеливание алгоритма
Обучение
Positive training sample
Negative training samples
Тестирование
Идея: обучим классификатор по объёму и движению только на тех фрагментах, которые нашел детектор по одному кадру
![Page 118: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/118.jpg)
Важность «нацеливания»
Нацеливание позволяет классификатору действий настроится только на важные признаки для различения действий, и получается лучше, чем пытаться сразу выделить «объём» действия
С нацеливанием
Без нацеливания
![Page 119: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/119.jpg)
Примеры работы
![Page 120: 20120414 videorecognition konushin_lecture04](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557af40dd8b42a25358b54a9/html5/thumbnails/120.jpg)
Резюме• Базовые методы – шаблоны, стая точек, сдвиг
среднего.• Комбинация методов, выбор каналов позволяют
повысить качество слежения• Слежение всегда ошибётся, нужно быть готовым к
восстановлению после ошибок• Для распознавания видео мы можем использовать
те же подходы, что и к изображению, но переведя их в трёхмерные пространственно-временной объём• Скользящее окно• Особенности, детекторы и дескрипторы• Мешок слов и методы классификации
• Данные и их объём является общей проблемой. Нужно использовать «слабую» разметку.