диссертационная презентация

Исследование технологических подходов для разработки

современных распределённых систем

Магистрант: Сон И.В.

Руководитель: к.ф.-м.н., доцент Турганбаев Е.С.

14.06.2014

Группа: МВТн-12-1

Диссертационный проект

Некоммерческое акционерное общество

Алматинский Университет Энергетики и Связи

Кафедра компьютерных технологий

О проектеВ данной диссертационной работе

демонстрируются ключевые моменты разработки

сервиса для распознавания цифровых аудио

данных, применяющего алгоритмы снятия и поиска

«отпечатков» (англ. fingerprints) аудио; исследуются

методы создания алгоритмов и проводится

масштабное проектирование распределённой

системы. Также проект включает в себя различные

клиенты: веб-клиент, API клиент, мобильный клиент.

Отпечаток аудио – это сжатые цифровые аудио данные, которые могут быть

использованы для идентификации аудио или для поиска похожих.

Актуальность• Снятие отпечатков аудио используется для

распознавания музыки по отрывку из аудио файлаПрименяется в таких компаниях как Shazam, Yandex Музыка, Audiotag.info,Last.fm и др.

• Сервис для поиска, обозначения свойств аудио файла и группировки аудио файлов

Применяется в проекте компании Gracenote в системе Ford’s SYNC in-car иочень востребован в больших музыкальных веб ресурсах.

• Полиция и судебные следователиЗарубежная полиция использует отпечатки аудио для идентификациикраденной музыки. В случае находки музыкальные продюсеры могутиспользовать аудио отпечатки для поиска злоумышленника. Также как иполиция, всемирно известный сервис YouTube использует систему подназванием Content ID, которая в свою очередь использует систему снятияотпечатков аудио. Content ID помогает официальным владельцам правидентифицировать контент на YouTube, которое может целиком иличастично включать в себя их музыку или видео.

НовизнаВ данной диссертационной работе был

создан алгоритм снятия цифровых аудио данных,

была спроектирована и разработана

распределённая отказоустойчивая система с

высоким быстродействием. Были применены

новейшие технологические подходы к разработке.

Использовались такие технологии как Java Spring

MVC, Java Servlet, Java Hibernate, Apache Solr,

Apache Hadoop и др.

Задачи• Исследование методов формирования

идентификации аудио файлов

• Определение системных и технологических

решений

• Реализация алгоритма снятия цифровых аудио

данных (далее отпечатки)

• Разработка алгоритма поиска

• Создание клиентских приложений

ИсследованиеОсновной трудностью при снятии отпечатков

аудио являются шумы и искажения на пути от

источника сигнала до оцифровки с микрофона.

Самой важной задачей на данном этапе является

определение характеристик, которые лучше всего

сохраняются в записанном аудио.

ИсследованиеДо этапа разработки были проведены

многократные исследования и выяснилось, что даже

если принимать сигнал напрямую с оптического выхода

цифрового проигрывателя, неточности возникнут в

результате перекодирования. А на протяжении

передачи сигнала есть много других источников

искажений:

o громкоговоритель источника звука

o акустика помещения

o неравномерная АЧХ микрофона

o оцифровка с микрофона

Всё это делает неприменимым даже нечёткое

побитовое сравнение.

ИсследованиеМожно сравнивать изображения программными

средствами напрямую, но это очень «дорого».

Определение системных

решений

Реализация алгоритма снятия

цифровых аудио данных

В среднем на один трек получается порядка

300 тыс. пиков — такой объём данных гораздо

более реально сопоставлять с миллионами треков

в базе, чем полное распределение запроса.

В научной статье Avery Wang’а под

названием «An Industrial-Strength Audio Search

Algorithm» показывается эффективность

использования пиков.

Реализация алгоритма снятия

цифровых аудио данныхВысота пиков устойчива к шумам и искажениям.

Разработка алгоритма поиска

Метод «опускающегося лезвия».


Внутри одного временного интервала, среди всех

частот, нужно выбрать самые контрастные пики, т.е. самые

большие локальные максимумы среди срезанных ранее

«верхушек».


• в каждом аудио нужно найти такое смещение

по времени, где бы максимальное число пиков

совпало с запрашиваемыми цифровыми аудио

данными;

• из всех найденных аудио выбрать тот, где

совпадение оказалось наибольшим.


Поиск осуществляется знаменитойраспределённой поисковой платформой Apache Solr,которая создана на языке Java. Одними из главныхпреимуществ данной технологии являютсяполнотекстовый поиск, динамическая кластеризация,репликация. Apache Solr обладает высокимбыстродействием при полнотекстовом поиске.

Очень важно правильно проиндексироватьтаблицы, предназначенную для хранения аудиоотпечатков. От этого напрямую будет зависеть скоростьпоиска.

Создание клиентских приложений

Изображён интерфейс простого

клиентского приложения для мобильных

устройств на платформе Maemo/Meego. Веб

клиент, который доступен через браузер, имеет

аналогичный интерфейс.

Создание клиентских приложений

API клиент имеет множество функций, например, может

сгенерировать цифровые аудио данные (отпечатки), также может в

консольном интерфейсе проверить (с обращением к серверам

системы) на наличие соответствующего аудио с 10-ой по 20-ую

секунды файла recorded.mp3, который можно записать с

микрофона.

codegen ./recorded.mp3 10 20 | \

curl -F "query=@-" http://developer.local/api/v4/song/identify

Ответ в json формате:

{"response": {"status": {"version": "4.2", "code": 0, "message": "Success"},

"songs": [{"tag": 0, "score": 66, "title": "Creep", "message": "OK (match type 6)",

"artist_id": "ARH6W4X1187B99274F", "artist_name": "Radiohead", "id": "SOPQLBY12A6

310E992"}]}}

ВыводыВ рамках данного диссертационного

проекта были проведены исследование методов

формирования идентификации аудио файлов,

определение системных и технологических

решений. По результатам исследований был

реализован алгоритм снятия цифровых аудио

данных и алгоритм поиска по отпечаткам, а также

были созданы клиентские приложения.

Спасибо за внимание!

The End.

диссертационная презентация

Internet