Сбор, анализ, обработка текстовой информации

Post on 02-Jul-2015

595 Views

Category:

Technology

7 Downloads

Preview:

Click to see full reader

DESCRIPTION

Презентация доклада на семинаре "Сетевые методы и модели в анализе текстовой информации" в ВШЭ

TRANSCRIPT

Поддержка информационно-

аналитической деятельности:

сбор, анализ, обработка

текстовой информации

большого объема

Карпов Илья

karpovilia@gmail.com

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Материалы интернет-

СМИ

•Livejournal.com

•Vkontakte.ru

Более 100 источников данных

интернет-СМИ

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Морфология

•Разрешение

многозначности

•Синтаксический анализ

Производительность

1 000 000 слов/сек

Поиск собственных имен,

географических объектов

и организаций

Анализ тональности текста

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Информационный поиск

•Фактологический поиск

•Классификация

•Кластеризация

Высокопроизводительные

средства классификации и

кластеризации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Граф связей

•Географическая карта

•Временная шкала

Высокопроизводительные

средства классификации и

кластеризации

Сбор и хранение материалов

4/22

Структура агрегируемых источников

+

GE: 6 AR: 8 IL: 7 SE: 6

TR: 6 PL: 5 UA: 3 FR: 7

ES: 7 DE: 9 CHN: 5 IT: 9

5/22

Система хранения

Особенности хранения:

• Индексация на основе Apache lucene;

• Хранение материалов в hdfs;

Особенности сбора:

• Агрегация RSS-потоков;

• Извлечение информации на основе специальных

парсеров и статистической информации;

• Сбор информации из социальных сетей;

• Объединение профилей пользователей;

Текстовый анализ

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Методы сегментации для

английского и китайского

языка

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Морфологический анализ

для английского языка

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Снятие многозначности и

объединение синонимов

на основе онтологий,

полученных из Semantic

Web

8/22

Пример текстового анализа

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

8/22

Пример текстового анализа

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

8/22

Пример текстового анализа

Данный , отправить в Кривой Рог , требовать уточнение ,

Данные

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Многозначность после приведения к нормальной форме:

8/22

Пример текстового анализа

Данный , отправить в Кривой Рог , требовать уточнение ,

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Снатие многозначности частичным синтаксическим анализом:

9/22

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Объект Мешок слов

9/22

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Переход от модели мешка слов к модели концептов:

10/22

Влияние разрешения многозначности на качество

обработки текстовых коллекций

Следующее неразобранное слово

Слово содержится в таблице разрешения многозначности

Все слова в контекстном окне данного слова не многозначны или разрешены

Разрешение многозначности методом Леска

Создать новый терм

Добавить терм в вектор документа

нет

нет

Нормализация слов

Слово содержится в таблице заголовков

Да

Да

Остались неразобранные слова

нет

Да

Особенности обработки:

• отсутствие некоторых

терминов в Википедии;

• отсутствие одного или

нескольких значений слова на

странице разрешения

многозначности;

• в текстах попадаются слова,

которые употреблены в

переносном значении;

• на страницах разрешения

многозначности попадаются

энциклопедичные статьи;

11/22

Обработка языков, отличных от русского

Результат построения многоязыкового концепта для слова «Поезд»

Поезд

Train

Tren

Train

Межъязыковая

статья “Train”

Межъязыковая

категория

“Rail Transport”

Spanish French English Русский

Железнодорожный

транспорт

Chemin de fer

Transporte por

ferrocaril

Ferrocarril Rail transport

12/22

Оценка качества многоязыковой кластеризации

текстовых коллекций

Язык текстов F-мера

русский 0,89

английский 0,89

китайский 0,73

русский + английский 0,69

Особенности обработки:

• межъязыковые ссылки не релевантны или не заданы;

• похожие по смыслу статьи написаны в разных терминологических единицах;

• концептуальные пространства разных языков сильно отличаются;

Кластеризация

14/22

Кластеризация

Отбор

ключевых

терминов

Латентно-

семантический

анализ

Кластеризация

TF/IDF

SVD-разложение

BIRCH,K-means

Сокращенная

матрица документов

Матрица

документов

Термы

Кластеры

15/22

Кластеризация – сокращение размерности

ДАННЫЕ сущ

,

ОТПРАВИТЬ прич

В предл

КРИВОЙ РОГ сущ

ТРЕБОВАТЬ гл

УТОЧНЕНИЕ прил

СЛЕДОВАТЕЛЬНО вводн

ДАННЫЙ прил

ЭКСПЕРИМЕНТ сущ

НУЖНО нареч

ПОВТРОИТЬ инф

ДАННЫЕ сущ

КРИВОЙ РОГ сущ

ЭКСПЕРИМЕНТ сущ

Векторная модель Ограничение по части речи Веса слов

КРИВОЙ РОГ 1,25

ЭКСПЕРИМЕНТ 0,93

ДАННЫЕ 0,87

Слова упорядочиваются по убыванию дисперсии меры TF/IDF:

i

ikik

N

NTF

)||

||(

k

kD

DLogIDF

)(IDF

TFDispF

Кластеризация – Алгоритм BIRCH

Достоинства алгоритма BIRCH Недостатки алгоритма BIRCH

1. Высокая скорость (зависимость времени работы от числа точек O(n log(k)) ).

1. Сложно оценить параметр T, обеспечивающий получение требуемого количества первичных

кластеров.

2. Ошибки в ходе кластеризации,

обусловленные тем, что для добавляемой в дерево точки очень часто находится не самый близкий к ней листовой узел.

16/22

17/22

Оценка скорости кластеризации

0

50

100

150

200

250

300

350

400

450

1 000 2 000 5 000 10 000 20 000 100 000 500 000 850 000

Вр

ем

я,

сек

Размер коллекции

k-means (random)

k-means (10%)

BIRCH*

n*log(k)

Визуализация данных

19/22

Визуализация данных

19/22

Визуализация данных

Основные архитектурные компоненты

20/22

Стек технологий текстового анализа:

Классификация и

Кластеризация

Морфо-синтаксический

анализ Полнотекстовый поиск

Оценка тональности Анализ временных рядов Поиск фактов и ИС

Обработка и

хранение

больших

объемов

Apache Hadoop

RDF-Store

Онтологии

Semantic Web

DBPedia

Средства интеграции и представления данных

21/22

Запишитесь на тестирование!

http://webmining.info/

Базовый набор:

• Нормализация текстов, выявление имен собственных;

• Выгрузка и фильтрация текстов интернет-СМИ;

• Полнотекстовый поиск по коллекциям;

• Рубрикация и кластерный анализ;

Для получения тестового доступа к системе отправьте заявку по

адресу info@webmining.info

Благодарю за

внимание

Карпов Илья

karpovilia@gmail.com

top related