А. Фирсов "Найти за одну секунду - 2", dump-2014

Найти за одну секунду - 2

Антон Фирсов

Knoema

Что такое Нома?

Knoema.com – это веб-сайт, где можно найтиоткрытые данные на любую тему длялюбой страны мира из кучи разныхисточников

У нас собран самый большой репозиторийстатистических данных в мире и контента,

сделанного на их основе

Несколько метрик

Количество наборов данных – 3500+

Количество временных рядов – 250M+

Размер базы – 130Gb+

И все это растет десятками процентов вмесяц

Проблема

Навигация, рубрикатор, теги, темы – это всезамечательно, но ведь никто сейчас непользуется каталогами, а идут сразу на Google

и Yandex. Не так ли?

Нам нужен поиск!

Демо

Причины реализации собственного движка

Специфические данные:

структурированные, мало текста и многоцифр.

Необходимость собственного, сильноспецифического алгоритма ранжирования

– Алгоритм ранжирования в поиске – это одно изнаших ключевых ноу-хау

Специальные возможности

Работа на ограниченных ресурсах железа

Эффективное использование ресурсов

Хранение данных

Mexico – Oranges – Production Quantity

Mexico – Oranges – Area Harvested

Mexico – Oranges – Yield

Mexico – Apples – Production Quantity

Mexico – Apples – Area Harvested

Mexico – Apples – Yield

Portugal – Oranges – Production Quantity

Egypt – Oranges – Production Quantity

Страна С/X культуры Показатель

Egypt Apples Yield

Mexico Bananas Area harvested

Portugal Oranges Production quantity

United States of America Olives

Potatoes

Категория Категория

Терм

Ряд

Демо

Ключевые требования

СКОРОСТЬ, СКОРОСТЬ, СКОРОСТЬ

Учет различных словоформ

Исправление ошибок, возникающих принаборе

Эффективное использование ресурсов

Архитектура

Сервер приложений

База данных

Данные

Запрос Ответ

Поисковый сервер

Индекс

Снимоксостояния

Сервер приложений

Этапы выполнения поискового запроса

Разбивка на слова

Коррекция ошибок

Учет синонимов

Ранжирование результатов

Коррекция ошибок. Расстояние Левенштейна

Пример

В С С В С С

N O M A

K N O E M A

З З З З

Х Л Е Б

П И В О

Решение «в лоб»: перебрать все слова, имеющиеся вБД, выбрать то, рассояние от которого до слова иззапроса минимально.

Ассимптотическая сложность: k * n * m

k – количество слов в словаре

n – средняя длинна слова в словаре

m – длинна слова из запроса

C С С У С С

П Е Р Ь M Ь

П Е Р M Ь

Коррекция ошибок. Оптимизация

К Р А Й

ИЬ К

ОСМ

ЕУМ

. : 1.0ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

П : 1.0ПЕРНЬ

К : 0.8ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

ПЕ : 1.0ПЕРНЬ

К : 0.8ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

ПЕР : 1.0ПЕРНЬ

К : 0.8ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

ПЕРМ : 0.8ПЕРНЬ

К : 0.8ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

ПЕРМ : 0.8ПЕРНЬ

КР : 0.6ПЕРНЬ

К Р А Й

ИЬ К

ОСМ

ЕУМ

ПЕРМЬ : 0.8ПЕРНЬ

КР : 0.6ПЕРНЬ

Использование готового стеммера

Считать все слова с достаточно длиннымсовпадающим префиксом словоформамиодного и того же слова

Словоформы – как частный случай ошибокв написании слов

Аналогично п.3, но меньше снижатьрелевантность, если основа слова иокончание используются в других словах

Пермский край

Пермского края

Пермскому краю

Пермском крае

Алтайский край

Алтайского края

Алтайскому краю

Алтайском крае

Валовой внутренний продукт

Валового внутреннего продукта

Валовому внутреннему продукту

Валовом внутреннем продукте

Префикс Кол. Окончание Кол. Вес

П 8 ЕРМСКИЙ 1 8

ПЕ 4 РМСКИЙ 1 4

ПЕР 4 МСКИЙ 1 4

ПЕРМ 4 СКИЙ 2 8

ПЕРМС 4 КИЙ 2 8

ПЕРМСК 4 ИЙ 3 12

ПЕРМСКИ 1 Й 5 5

Получение результатов

Mexico

States

United

Mexico

United States

of America

Слова Термы

Harvested

Oranges

Area harvested

Oranges

Mexico – Oranges – Area harvested

USA – Oranges – Area harvested

Результаты

United States of America

United States - GDP

Как эффективно использовать память в .net

Проблемы:

Минимизировать потребляемую память

Минимизировать время, затрачиваемое насборку мусора

Решение:

Использовать массивы из структур вместоколлекций из классов

Объединять массивы с малым количествомэлементов в большие массивы

Как эффективно использовать память в .net

8 байтsyncblock

8 байтТип

8 байтРазмер массива

8 байтСсылка на элемент массива

8 байтsyncblock

8 байтТип

Данные

8 байтsyncblock

8 байтТип

элементов

8 байтРазмер массива

Элемент данных Элемент данных

Массив из структур

Массив объектов класса

Результаты

Реализован относительно быстрый поиск(~1-2 сек.) на слабом оборудовании,

потребляющий 13Гб памяти ипозволяющий исправлять ошибки внаписании слов и учитывать различныесловоформы в разных языках.

Архитектура поиска выстроена длядальнейшего горизонтальногомасштабирования

Спасибо за внимание!

Вопросики?

http://knoema.com

А. Фирсов "Найти за одну секунду - 2", dump-2014

Documents

Я не могу уйти в одну науку · Я не...

xps 13 9343 Технические...

open source sql-базы данных вступили в...

Как собирать gps треки раз в...

beethoven.music.mos.ru · web viewword...

Фирсов Теория социальной работы

ЦВЕТНЫМ КАРАНДАШОМ ОБВЕДИТЕ...

osvita-verh.dp.uaosvita-verh.dp.ua/files/cherednikova.doc ·...

rubt on rails: 1000 запросов в секунду

Сотницы - стихи в одну мысль

segihnocelo tgt hsikye Каталог...

Ожирение - world gastroenterology organisation ·...

Десна та Вінниця об’єднуються в...

gps мониторинг - itrack - НАЗНАЧЕНИЕ И...

Как 100 000 раз в секунду выбирать...

id студента Прізвище ·...

Рисунки В. Дмитрюка - knigagolik...на....

ЗАТВЕРДЖЕНО -...

ФИРСОВ АЛЕКСЕЙ ПЕТРОВИЧ

Физика -...