Сбор, анализ, обработка текстовой информации

Поддержка информационно-

аналитической деятельности:

сбор, анализ, обработка

текстовой информации

большого объема

Карпов Илья

karpovilia@gmail.com

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

Карта

объектов

Текстовый

анализ

обработка

Вектор

концептов

запрос

•Материалы интернет-

СМИ

•Livejournal.com

•Vkontakte.ru

Более 100 источников данных

интернет-СМИ

Карта

объектов

Текстовый

анализ

обработка

Вектор

концептов

запрос

•Морфология

•Разрешение

многозначности

•Синтаксический анализ

Производительность

1 000 000 слов/сек

Поиск собственных имен,

географических объектов

и организаций

Анализ тональности текста

Карта

объектов

Текстовый

анализ

обработка

Вектор

концептов

запрос

•Информационный поиск

•Фактологический поиск

•Классификация

•Кластеризация

Высокопроизводительные

средства классификации и

кластеризации

Карта

объектов

Текстовый

анализ

обработка

Вектор

концептов

запрос

•Граф связей

•Географическая карта

•Временная шкала

Высокопроизводительные

средства классификации и

кластеризации

Сбор и хранение материалов

Структура агрегируемых источников

GE: 6 AR: 8 IL: 7 SE: 6

TR: 6 PL: 5 UA: 3 FR: 7

ES: 7 DE: 9 CHN: 5 IT: 9

Система хранения

Особенности хранения:

• Индексация на основе Apache lucene;

• Хранение материалов в hdfs;

Особенности сбора:

• Агрегация RSS-потоков;

• Извлечение информации на основе специальных

парсеров и статистической информации;

• Сбор информации из социальных сетей;

• Объединение профилей пользователей;

Текстовый анализ

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Онтологии

Токены

Документы

Термы

Методы сегментации для

английского и китайского

языка

Онтологии

Токены

Документы

Термы

для английского языка

Онтологии

Токены

Документы

Термы

Снятие многозначности и

объединение синонимов

на основе онтологий,

полученных из Semantic

Пример текстового анализа

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

Данный , отправить в Кривой Рог , требовать уточнение ,

Данные

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Многозначность после приведения к нормальной форме:

Данный , отправить в Кривой Рог , требовать уточнение ,

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Снатие многозначности частичным синтаксическим анализом:

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Объект Мешок слов

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Переход от модели мешка слов к модели концептов:

Влияние разрешения многозначности на качество

обработки текстовых коллекций

Следующее неразобранное слово

Слово содержится в таблице разрешения многозначности

Все слова в контекстном окне данного слова не многозначны или разрешены

Разрешение многозначности методом Леска

Создать новый терм

Добавить терм в вектор документа

нет

Нормализация слов

Слово содержится в таблице заголовков

Остались неразобранные слова

нет

Особенности обработки:

• отсутствие некоторых

терминов в Википедии;

• отсутствие одного или

нескольких значений слова на

странице разрешения

многозначности;

• в текстах попадаются слова,

которые употреблены в

переносном значении;

• на страницах разрешения

многозначности попадаются

энциклопедичные статьи;

Обработка языков, отличных от русского

Результат построения многоязыкового концепта для слова «Поезд»

Поезд

Межъязыковая

статья “Train”

Межъязыковая

категория

“Rail Transport”

Spanish French English Русский

Железнодорожный

транспорт

Chemin de fer

Transporte por

ferrocaril

Ferrocarril Rail transport

Оценка качества многоязыковой кластеризации

текстовых коллекций

Язык текстов F-мера

русский 0,89

английский 0,89

китайский 0,73

русский + английский 0,69

Особенности обработки:

• межъязыковые ссылки не релевантны или не заданы;

• похожие по смыслу статьи написаны в разных терминологических единицах;

• концептуальные пространства разных языков сильно отличаются;

Кластеризация

Отбор

ключевых

терминов

Латентно-

семантический

анализ

TF/IDF

SVD-разложение

BIRCH,K-means

Сокращенная

матрица документов

Матрица

документов

Термы

Кластеры

Кластеризация – сокращение размерности

ДАННЫЕ сущ

ОТПРАВИТЬ прич

В предл

КРИВОЙ РОГ сущ

ТРЕБОВАТЬ гл

УТОЧНЕНИЕ прил

СЛЕДОВАТЕЛЬНО вводн

ДАННЫЙ прил

ЭКСПЕРИМЕНТ сущ

НУЖНО нареч

ПОВТРОИТЬ инф

ДАННЫЕ сущ

КРИВОЙ РОГ сущ

ЭКСПЕРИМЕНТ сущ

Векторная модель Ограничение по части речи Веса слов

КРИВОЙ РОГ 1,25

ЭКСПЕРИМЕНТ 0,93

ДАННЫЕ 0,87

Слова упорядочиваются по убыванию дисперсии меры TF/IDF:

DLogIDF

TFDispF

Кластеризация – Алгоритм BIRCH

Достоинства алгоритма BIRCH Недостатки алгоритма BIRCH

1. Высокая скорость (зависимость времени работы от числа точек O(n log(k)) ).

1. Сложно оценить параметр T, обеспечивающий получение требуемого количества первичных

кластеров.

2. Ошибки в ходе кластеризации,

обусловленные тем, что для добавляемой в дерево точки очень часто находится не самый близкий к ней листовой узел.

Оценка скорости кластеризации

1 000 2 000 5 000 10 000 20 000 100 000 500 000 850 000

сек

Размер коллекции

k-means (random)

k-means (10%)

BIRCH*

n*log(k)

Визуализация данных

Основные архитектурные компоненты

Стек технологий текстового анализа:

Классификация и

Морфо-синтаксический

анализ Полнотекстовый поиск

Оценка тональности Анализ временных рядов Поиск фактов и ИС

Обработка и

хранение

больших

объемов

Apache Hadoop

RDF-Store

Онтологии

Semantic Web

DBPedia

Средства интеграции и представления данных

Запишитесь на тестирование!

http://webmining.info/

Базовый набор:

• Нормализация текстов, выявление имен собственных;

• Выгрузка и фильтрация текстов интернет-СМИ;

• Полнотекстовый поиск по коллекциям;

• Рубрикация и кластерный анализ;

Для получения тестового доступа к системе отправьте заявку по

адресу info@webmining.info

Благодарю за

внимание

Карпов Илья

karpovilia@gmail.com

Сбор, анализ, обработка текстовой информации

Technology

Сбор долгов – Экстранет › upload ›...

Обработка овощей

Монастырский сбор

Особенности текстовой...

Движение "Раздельный сбор...

catahub — презентация сервисаmgrab.ru...

Обработка фотографий

Кодирование текстовой...

Текстовой редактор word

Кодирование текстовой...

Обработка событий

кодирование текстовой...

Криогенная обработка

торговый сбор брошюра

273-kamensk.rosnou.ru/images/26/112--_-.pdf · - сбор,...

Обработка сигналов

обработка текстовой информации

Максимум текстовой...

text mining . Анализ текстовой...

Информационно-аналитическая...