Задачи музыкального поиска, связанные с анализом...
TRANSCRIPT
Задачи музыкального поиска связанные с
анализом аудио сигнала
План доклада
● Вступление● Обзор существующих задач● Введение в обработку сигналов● Примеры задач, которыми мы занимаемся
Вступление
С какими данными мы работаем?
Вступление
● Метаданные музыкального трека
Вступление
● Метаданные музыкального трека● Тексты песен
Вступление
● Метаданные музыкального трека● Тексты песен● Данные о прослушиваниях
Вступление
● Метаданные музыкального трека● Тексты песен● Данные о прослушиваниях● Непосредственно аудио сигнал
Вступление
Какие задачи можно решать анализируя аудио сигнал?
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
● Автотегирование
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
● Автотегирование
● Поиск похожих/рекомендации
Введение в обработку аудио сигналов
Как анализировать аудио сигнал?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио cигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Как выглядит аудио-сигнал глазами компьютера?
Введение в обработку аудио сигналов
● Что мы имеем по сути?
Введение в обработку аудио сигналов
● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени
Введение в обработку аудио сигналов
● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени
● Какую важную характеристику звука мы забыли?
Введение в обработку аудио сигналов
● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени
● Какую важную характеристику звука мы забыли?– Частота колебаний (высота звука)
Введение в обработку аудио сигналов
● Пример музыкального фрагмента и его разделение на три полосы частот
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform) —
позволяет разложить периодическую функцию в сумму гармонических с разными частотами.
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
Вейвлет – это математическая функция, позволяющая анализировать различные частотные компоненты данных.
Введение в обработку аудио сигналов
● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
– Константное Q преобразование (Constant Q transform)
Введение в обработку аудио сигналов
● Хочется при этом сохранить временную составляющую сигнала– Оконное преобразование Фурье (Short-time
Fourier transform)
Введение в обработку аудио сигналов
Введение в обработку аудио сигналов
Введение в обработку аудио сигналов
Введение в обработку аудио сигналов
Введение в обработку аудио сигналов
Классификация признаков
● По временному масштабу– Frame-level
– Segment-level
– Global-level
● По уровню представления – Low-level
– Middle-level
– High-level
Low-level
● Zero Crossing Rate – позволяет неплохо различать музыку и речь
● Short-time energy – отражает изменение энергии во времени
Low-level
● Spectral Centroid – центр масс спектра
● Spectral Bandwidth – разброс относительно центра масс
● Spectral Flatness Measure – характеризует «гладкость» спектра. Помогает отличать сигнал похожий на шум от сигналов с выраженной тональностью
Low-level
● Что-нибудь более сложное?– Mel-frequency Cepstral Coefficient
(MFCC) (вольный перевод — Коэффициенты кепструма в мел масштабе)
– По сути это спектр спектра
– Изначально использовались в распознавании речи
Middle-level
● Beat Tracker● Pitch Histogram● Rhythm Patterns
High-level
● Музыкальные жанры● Настроение: веселая, грустная, агрессивная,
спокойная.● Вокальная / Инструментальная● Ощущаемая скорость музыки (медленная,
быстрая, средняя)● Пол вокалиста
Обобщение признаков
● Как перейти на более общий уровень — уровень трека?
– Вычисление статистик по шкале времени (среднее/дисперсия)
– Попытка более сложного моделирования распределения значений признаков, например Гауссовы смеси
Сравнение
● Как сравнивать признаковые описания?● Вычисление меры близости
– Расстояние Хэмминга при побитовом сравнении
– Евклидово расстояние
– Манхэттенское расстояние
● Оценка максимального правдоподобия
Примеры наших задач
● Распознавание музыки по фрагменту записи
Примеры наших задач
● Распознавание музыки по фрагменту записи● Поиск нечетких дубликатов
Примеры наших задач
● Распознавание музыки по фрагменту записи● Поиск нечетких дубликатов● Классификация/музыкальные рекомендации
Распознавание музыки
● В качестве базовых признаков — пики энергии в спектрограмме
● Пики объединяются в пары
Распознавание музыки
● Двухэтапный поиск– Быстрый поиск в «облегченном» индексе
– Более точный поиск среди TopN лучших
Отсечение ложных срабатываний
Отсечение ложных срабатываний
Распознавание музыки
● База 6М треков● Двухуровневый поисковый кластер
Поиск нечетких дубликатов
● В основе лежит метод построения сигнатур — Chromaprint
● Исходное представление сигнала в виде хромограммы
Поиск нечетких дубликатов
● Основная идея — рассматривать хромаграммы как изображения
● Сравнивать используя методы компьютерного зрения
● Используется набор фильтров
Поиск нечетких дубликатов
● Как выглядит сигнатура?
Поиск нечетких дубликатов
● Разница между оригинальной и инструментальной версией трека
Классификация музыки
● Что можно классифицировать?– Жанры
– Настроения
– Пол вокалиста
– И т.д.
Классификация музыки
● В качестве исходных данных — MFCC (еще можно спектрограмму)
● Обучаем глубокую сверточную нейронную сеть
● Смотрим что получилось
Классификация музыки
● Пример трека, размеченного как Pop● Что предсказывает нейронная сеть?
Классификация музыки
● Пример трека, размеченного как Pop● Что предсказывает нейронная сеть?
– Metal 0.45
– Punk 0.23
– Rock 0.17
Классификация музыки
● Еще один пример, снова Pop● Что предсказывает нейронная сеть?
Классификация музыки
● Еще один пример, снова Pop● Что предсказывает нейронная сеть?
– Rap 0.48
– RnB 0.16
– Pop 0.09
Музыкальные рекомендации
● Есть методы коллаборативной фильтрации, которые неплохо работают
● В чем преимущества подхода основанного на анализе аудио сигнала?– Лучше для новых треков
– Лучше для мало популярных треков
Спасибо за внимание!
Вопросы?