lsa fca spb

33
Тульский государственный университет Факультет кибернетики Лаборатория информационных систем 1 Статистический и структурный подходы в методах Text Mining М.Ю. Богатырев

Upload: nlpseminar

Post on 28-Nov-2014

1.130 views

Category:

Education


8 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Lsa fca spb

Тульский государственный университет

Факультет кибернетики

Лаборатория информационных систем

1

Статистический и структурныйподходы в методах

Text Mining

М.Ю. Богатырев

Page 2: Lsa fca spb

Термин «Text Mining»

Российское определение: «Анализ ипонимание текста»

Западная трактовка: «Извлечениезнаний из текстов на естественномязыке»

22

Page 3: Lsa fca spb

• text categorization, • text clustering, • concept/entity extraction, • sentiment analysis, • document summarization

•annotation•abstraction• ontologies•semantic roles •Objects of tagging

• clusters,• trends,• associations,• deviations

Corpora:• large and structured text• taggingData:

Plain text

Knowledge Models:• rules;• ontologies

Processing objects

Metadata

«Извлечение знаний из текстов на естественном языке»

Global Problems

Analysis of:• syntax• grammar• morphology• semantics

Problems

Knowledge Discovery Natural Language Processing

Page 4: Lsa fca spb

Латентно-семантический анализ

термы: слова в текстедокументы: наборы словфакторы (тематики): знания

Контекст: фрагмент текста (до и после терма)

Матрица употребляемости: , 1, 2,..., , 1, 2,...,[ ]i j n j ma i == =A

Сингулярное разложение:

, - -i j частота встречаемости i го термав j м документеa −

*→ →V W WVA A = U A = U

1 2[ , , ..., ],k i idiag d сингулярные числа∈ −W W W W W=

Page 5: Lsa fca spb

18 0 179 15 010 12 41 1 11 1 1

Пример применения ЛСА:полное разложение матрицы «термы-документы»

55

A =

U =

*V =

W =

0 – отсутствие связи «терм-документ»

сингулярныечисла−

0.741683 0.650589 −0.153723 0.043077 0.03398230.445864 −0.656529 −0.50769 0.263248 0.207670.49468 −0.381462 0.589523 −0.402052 −0.3171680.056587 −0.00977619 0.430745 0. 0.9006450.056587 −0.00977619 0.430745 0.875899 −0.209671

29.6839 0. 0.0. 17.4086 0.0. 0. 0.897820. 0. 0.0. 0. 0.

0.755393 0.113029 −0.645450.429097 −0.829765 0.3568820.495234 0.546547 0.675299

3 шт.

8U, W, V< = N@SingularValueDecomposition @ADD;

Page 6: Lsa fca spb

66

Пример применения ЛСА:

усеченное разложение матрицы «термы-документы»8U, W, V< = N@SingularValueDecomposition @A, 2DD;

0.741683 0.6505890.445864 −0.6565290.49468 −0.3814620.056587 −0.009776190.056587 −0.00977619

J 29.6839 0.0. 17.4086

N

0.755393 0.1130290.429097 −0.8297650.495234 0.546547

U =

*V =

W =

Восстановленная матрица «термы-документы» :

17.9109 0.0492552 17.09328.70579 15.1627 0.30781110.3416 11.8111 3.642571.24962 0.861982 0.738841.24962 0.861982 0.73884

U.W.Transpose @VD;

2 шт.!

A =

Наличие связи «терм-документ»

Page 7: Lsa fca spb

Главные особенностиЛСА

НаНа основеоснове разложенияразложения матрицыматрицы««термтерм--документдокумент»» получаемполучаемлатентныелатентные связисвязи междумеждудокументамидокументами..ВосстановлениеВосстановление матрицыматрицы ««термтерм–– документдокумент»» попо усеченномуусеченномунаборунабору сингулярныхсингулярных значенийзначенийвыявляетвыявляет латентныелатентные связисвязи««термтерм--документдокумент»»

77

Page 8: Lsa fca spb

Тексты и пространства

Пространство: множество+структура.Структура: способ организации

объектов множестваМетрическоеМетрическое::Объекты. Пара (M, d) M - множество d – метрика на M, Свойства.

d (x, z) ≤ d (x, y) + d (y, z)((неравенствонеравенство треугольникатреугольника).).

( , ) 0( , ) 0( , ) ( , )

d x yd x y x yd x y d y x

≥= → ==

, ,x y z M∀ ∈

d R∈

Page 9: Lsa fca spb

1 3 1 2 2 3( , ) ( , ) ( , )d T T d T T d T T≤ +?

1T3T

2T:d TF IDF−

мера?

Принадлежат ли объекты-тексты метрическомупространству ?

Page 10: Lsa fca spb

Ограничения ЛСА

ПроблемаПроблема мерымерыТекстТекст: : наборнабор несвязанныхнесвязанных словслов

1010

Page 11: Lsa fca spb

Формальный анализ понятий:от слов к понятиям

Основные объекты:КонтекстыКонтекстыПонятияПонятияРешеткиРешетки понятийпонятий

1111

КонцептуальныйКонцептуальный графграф -- главнаяглавная семантическаясемантическаямодельмодель предложенияпредложения

Page 12: Lsa fca spb

Формальный анализ понятий

Концептуальные структуры:

• Концептуальные графы• Понятия на контекстах• Решетки понятий

Контекст:

( , , )E A R

Матрица контекста:

Понятие:

,X E Y A⊆ ⊆

: , :E A A Eϕ ψ→ →Отображение Галуа:

( , ), ( , )E A, ( ( )), ( ( ) )x X y Y x x y yψ ϕ ϕ ψ∈ ∈

подмножества

+

Page 13: Lsa fca spb

Решетки понятий

8b, c<

8a, b, c<

8a, c< 8a, b<

8c< 8b< 8a<

8<

1.Визуализацияиерархии понятий

2. Мост к онтологиям

Page 14: Lsa fca spb

Концептуальный граф: : суть, стандарт, логика

Example:“John is going to Boston by bus”

Concepts

Conceptual relations

[City*a:'Boston'] [Bus*b:''] [Person*c:'John'] [Going*d:''] (agent?d?c) (dest?d?a) (instrument?d?b)

Representations. Conceptual Graph Standard by J. Sowa

1. Conceptual Graph Interchange Form (CGIF)

2. XML Form<graph id="35979486054" owner="0"> <type> <label>Proposition</label> </type>

<layout> <rectangle x="0.0" y="0.0" width="1500.0" height="1500.0"/> <colorforeground="0,0,175" background="0,0,175"/> </layout> … </layout> </arrow> </graph>

</conceptualgraph>

( : )( : )( : )( : )( ( , ' ') ( , ' ') ( , ) ( , ) ( , ))

x Go y Person z City w Bus Name y JohnName z Boston Agnt x y Dest x z Inst x w∃ ∃ ∃ ∃ ∧∧ ∧ ∧ ∧

Applying Predicate Calculus(CGIF + NOTIO)

Page 15: Lsa fca spb

Направления исследований:

АвтоматическоеАвтоматическое построениепостроение КГКГпопо текстутекстуПрименениеПрименение КГКГ каккак семантикосемантико--логическойлогической моделимодели ввприкладныхприкладных задачахзадачах

Page 16: Lsa fca spb

СистемаСистема ––генераторгенераторконцептуальныхконцептуальных графовграфов

1616

Page 17: Lsa fca spb

ГрамматическиеГрамматические шаблонышаблоны каккакосноваоснова генерациигенерации КГКГ

НазваниеНазвание шаблонашаблонаТипТип шаблонашаблонаМорфологическиеМорфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаЭлементыЭлементы фразыфразы шаблонашаблонаНомерНомер главногоглавного словаслова

НазваниеНазвание шаблонашаблонаТипТип шаблонашаблонаМорфологическиеМорфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаЭлементыЭлементы фразыфразы шаблонашаблонаНомерНомер главногоглавного словасловаИсключающиеИсключающиеморфологическиеморфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаИсключающиеИсключающие элементыэлементыфразыфразы шаблонашаблонаНаправленияНаправления поискапоискаэлементовэлементов

Структура исходногошаблона Структура модифицированного шаблона

1717

Page 18: Lsa fca spb

ПримерыПримеры генерациигенерации КГКГ..ОбработкаОбработка пассивногопассивного залогазалога

1818

КГ по предложению «Человекпостроил дом»

КГ по предложению «Дом построенчеловеком»

Page 19: Lsa fca spb

ПримерыПримеры генерациигенерации КГКГ..УправлениеУправление направлениемнаправлением обработкиобработки фразыфразы

РазборРазбор фразыфразы ««главныйглавный датчикдатчик моторамотора автомобиляавтомобиля»»

Без управления направлением С управлением направлением

1919

Page 20: Lsa fca spb

Особенности работы генератора

Проблема изолированных (бездомных) концептов

Длина предложения (число элементов)

% успешныхКГ

Фраза: “For this class of problems nichingbecomes a necessity”.

Статистика успешных генераций

Page 21: Lsa fca spb

Предварительный анализ использования оптимизированногоперебора

БезБез перебораперебора

вариацийвариаций

ПолныйПолный переборперебор

морфологическихморфологических

вариацийвариаций

предложенияпредложения

ОптимизированныйОптимизированный

переборперебор

морфологическихморфологических

вариацийвариаций

ЧислоЧисло предложенийпредложений 500500 500500 500500

ЧислоЧисло КГКГ безбез висячихвисячих

концептовконцептов7979 226226 175175

ОтношениеОтношение КГКГ безбез

висячихвисячих концептовконцептов коко

всемвсем, %, %

15,815,8 45,245,2 3535

ОбщееОбщее числочисло

элементовэлементов1046610466 1046610466 1046610466

УдельноеУдельное времявремя

построенияпостроения КГКГ, , мсмс53,33653,336 9638,4569638,456 1748,051748,05

ИсследовательскаяИсследовательская задачазадача: : Оптимальное управление шаблонами

при генерации концептуальных графов

Page 22: Lsa fca spb

КлассикаКлассика:: кластеризациякластеризация КГКГ

Меры близости графов

Концептуальная1 2

2 ( )( ) ( )

cc

n Gsn G n G

=+

Относительная1 2

2 ( )( ) ( )

c c

cr

G G

m Gsm G m G

=+

Некоторые модификации мер

1 2

2 ( ) ,( ) ( )

cc

n G lsn G n G

=+

( )1

1 22

21 2

1

( ) , ( ) ( )

( ) , ( ) ( )( )

n Gk if n G n Gn G

ln Gk if n G n Gn G

⎧ ≥⎪⎪= ⎨⎪ <⎪⎩

ibothG bbbmGmc

++++= ...)( 21

bothmmi −= ,...,1

1 2c rs d s d s= +Унифицированная мера

Page 23: Lsa fca spb

КластеризацияКластеризация КГКГ:: вновь проблемамеры

),(),(),( 322131 ggdggdggd +≤

??

),( 31 ggd

),( 21 ggd),( 32 ggd

-20

-10

0

10

20 -20

-10

0

10

20

20

20.2

20.4

20.6

-20

-10

0

10

Типичная форма поверхности отклика

Page 24: Lsa fca spb

КластеризацияКластеризация КГКГ::Семантическая мера близости на основе

- глубина в иерархии гиперонимов)()(

)(2

21 clclccplS+

⋅=

),(1),( 2121 ccdccs cc −=cs - подобие концептов c1 и c2

1 2( , )cd c c - расстояние между концептами c1 и c2

отношения «гипоним – гипероним»

( )il c

ccp ближайший общий предок для c1,c2.

WordNet

• Иерархия гиперонимов• Система понятий• Мера на отношениигипоним-гипероним?

Page 25: Lsa fca spb

Проблема меры специальные(генетические) алгоритмы

кластеризации

-20

0

20

-20

0

20

0

10

20

30

-20

0

20

Начальная популяция

Финальная популяция

50 100 150 200 250 300Число поколений

1000

1200

1400

1600

1800

2000Пригодность

-20

0

20

-20

0

20

0

10

20

30

-20

0

20

Особенности решений

Page 26: Lsa fca spb

ГА в задаче кластеризации

Цепочное кодовое представление для КГ:

• реализует неявный параллелизм в работе алгоритма;

• ускоряет сходимость;

• инвариантна относительно меры

… …a1 aia2an

n objects

Номер объекта, находящегося в одномкластере с данным

объектом

Page 27: Lsa fca spb

Визуализация процесса и результатовкластеризацииДендрограммы

Карты кластеризации

Page 28: Lsa fca spb

Некоторые прикладныезадачи

Моделирование требований вCASE-технологиях

Концептуальноемоделирование в системахтехнической поддержки

2828

Page 29: Lsa fca spb

Моделирование требованийв CASE-технологиях

репозиторий требования Параметры: риски, приоритет и т.д.

Page 30: Lsa fca spb

Моделирование требованийв CASE-технологиях

Решение:

Текст КГ Контекст Модель«сущность-связь»

Характернаяструктура контекстасущностей модели«сущность-связь»

Ассоциированнаясущность

атрибуты

понятие

Page 31: Lsa fca spb

ИсследовательскаяИсследовательская задачазадача: : «Применение КГ для моделирования

контекстов»

Контекст какподграф в КГ

Контекст в смысле ФПА

Page 32: Lsa fca spb

Концептуальное моделирование в

системах технической поддержки

Доклад А.П. Колосова

"Определение близости текстов собучением на основе статистическихданных"

Page 33: Lsa fca spb

Выводы

Статистический и структурныйподходы в в методах Text Miningоснованы на принципиально разныхположениях

• Статистический и структурныйподходы могут дополнять друг другав решении конкретных задач

3333