lsa fca spb

Post on 28-Nov-2014

1.130 Views

Category:

Education

8 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Тульский государственный университет

Факультет кибернетики

Лаборатория информационных систем

1

Статистический и структурныйподходы в методах

Text Mining

М.Ю. Богатырев

Термин «Text Mining»

Российское определение: «Анализ ипонимание текста»

Западная трактовка: «Извлечениезнаний из текстов на естественномязыке»

22

• text categorization, • text clustering, • concept/entity extraction, • sentiment analysis, • document summarization

•annotation•abstraction• ontologies•semantic roles •Objects of tagging

• clusters,• trends,• associations,• deviations

Corpora:• large and structured text• taggingData:

Plain text

Knowledge Models:• rules;• ontologies

Processing objects

Metadata

«Извлечение знаний из текстов на естественном языке»

Global Problems

Analysis of:• syntax• grammar• morphology• semantics

Problems

Knowledge Discovery Natural Language Processing

Латентно-семантический анализ

термы: слова в текстедокументы: наборы словфакторы (тематики): знания

Контекст: фрагмент текста (до и после терма)

Матрица употребляемости: , 1, 2,..., , 1, 2,...,[ ]i j n j ma i == =A

Сингулярное разложение:

, - -i j частота встречаемости i го термав j м документеa −

*→ →V W WVA A = U A = U

1 2[ , , ..., ],k i idiag d сингулярные числа∈ −W W W W W=

18 0 179 15 010 12 41 1 11 1 1

Пример применения ЛСА:полное разложение матрицы «термы-документы»

55

A =

U =

*V =

W =

0 – отсутствие связи «терм-документ»

сингулярныечисла−

0.741683 0.650589 −0.153723 0.043077 0.03398230.445864 −0.656529 −0.50769 0.263248 0.207670.49468 −0.381462 0.589523 −0.402052 −0.3171680.056587 −0.00977619 0.430745 0. 0.9006450.056587 −0.00977619 0.430745 0.875899 −0.209671

29.6839 0. 0.0. 17.4086 0.0. 0. 0.897820. 0. 0.0. 0. 0.

0.755393 0.113029 −0.645450.429097 −0.829765 0.3568820.495234 0.546547 0.675299

3 шт.

8U, W, V< = N@SingularValueDecomposition @ADD;

66

Пример применения ЛСА:

усеченное разложение матрицы «термы-документы»8U, W, V< = N@SingularValueDecomposition @A, 2DD;

0.741683 0.6505890.445864 −0.6565290.49468 −0.3814620.056587 −0.009776190.056587 −0.00977619

J 29.6839 0.0. 17.4086

N

0.755393 0.1130290.429097 −0.8297650.495234 0.546547

U =

*V =

W =

Восстановленная матрица «термы-документы» :

17.9109 0.0492552 17.09328.70579 15.1627 0.30781110.3416 11.8111 3.642571.24962 0.861982 0.738841.24962 0.861982 0.73884

U.W.Transpose @VD;

2 шт.!

A =

Наличие связи «терм-документ»

Главные особенностиЛСА

НаНа основеоснове разложенияразложения матрицыматрицы««термтерм--документдокумент»» получаемполучаемлатентныелатентные связисвязи междумеждудокументамидокументами..ВосстановлениеВосстановление матрицыматрицы ««термтерм–– документдокумент»» попо усеченномуусеченномунаборунабору сингулярныхсингулярных значенийзначенийвыявляетвыявляет латентныелатентные связисвязи««термтерм--документдокумент»»

77

Тексты и пространства

Пространство: множество+структура.Структура: способ организации

объектов множестваМетрическоеМетрическое::Объекты. Пара (M, d) M - множество d – метрика на M, Свойства.

d (x, z) ≤ d (x, y) + d (y, z)((неравенствонеравенство треугольникатреугольника).).

( , ) 0( , ) 0( , ) ( , )

d x yd x y x yd x y d y x

≥= → ==

, ,x y z M∀ ∈

d R∈

1 3 1 2 2 3( , ) ( , ) ( , )d T T d T T d T T≤ +?

1T3T

2T:d TF IDF−

мера?

Принадлежат ли объекты-тексты метрическомупространству ?

Ограничения ЛСА

ПроблемаПроблема мерымерыТекстТекст: : наборнабор несвязанныхнесвязанных словслов

1010

Формальный анализ понятий:от слов к понятиям

Основные объекты:КонтекстыКонтекстыПонятияПонятияРешеткиРешетки понятийпонятий

1111

КонцептуальныйКонцептуальный графграф -- главнаяглавная семантическаясемантическаямодельмодель предложенияпредложения

Формальный анализ понятий

Концептуальные структуры:

• Концептуальные графы• Понятия на контекстах• Решетки понятий

Контекст:

( , , )E A R

Матрица контекста:

Понятие:

,X E Y A⊆ ⊆

: , :E A A Eϕ ψ→ →Отображение Галуа:

( , ), ( , )E A, ( ( )), ( ( ) )x X y Y x x y yψ ϕ ϕ ψ∈ ∈

подмножества

+

Решетки понятий

8b, c<

8a, b, c<

8a, c< 8a, b<

8c< 8b< 8a<

8<

1.Визуализацияиерархии понятий

2. Мост к онтологиям

Концептуальный граф: : суть, стандарт, логика

Example:“John is going to Boston by bus”

Concepts

Conceptual relations

[City*a:'Boston'] [Bus*b:''] [Person*c:'John'] [Going*d:''] (agent?d?c) (dest?d?a) (instrument?d?b)

Representations. Conceptual Graph Standard by J. Sowa

1. Conceptual Graph Interchange Form (CGIF)

2. XML Form<graph id="35979486054" owner="0"> <type> <label>Proposition</label> </type>

<layout> <rectangle x="0.0" y="0.0" width="1500.0" height="1500.0"/> <colorforeground="0,0,175" background="0,0,175"/> </layout> … </layout> </arrow> </graph>

</conceptualgraph>

( : )( : )( : )( : )( ( , ' ') ( , ' ') ( , ) ( , ) ( , ))

x Go y Person z City w Bus Name y JohnName z Boston Agnt x y Dest x z Inst x w∃ ∃ ∃ ∃ ∧∧ ∧ ∧ ∧

Applying Predicate Calculus(CGIF + NOTIO)

Направления исследований:

АвтоматическоеАвтоматическое построениепостроение КГКГпопо текстутекстуПрименениеПрименение КГКГ каккак семантикосемантико--логическойлогической моделимодели ввприкладныхприкладных задачахзадачах

СистемаСистема ––генераторгенераторконцептуальныхконцептуальных графовграфов

1616

ГрамматическиеГрамматические шаблонышаблоны каккакосноваоснова генерациигенерации КГКГ

НазваниеНазвание шаблонашаблонаТипТип шаблонашаблонаМорфологическиеМорфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаЭлементыЭлементы фразыфразы шаблонашаблонаНомерНомер главногоглавного словаслова

НазваниеНазвание шаблонашаблонаТипТип шаблонашаблонаМорфологическиеМорфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаЭлементыЭлементы фразыфразы шаблонашаблонаНомерНомер главногоглавного словасловаИсключающиеИсключающиеморфологическиеморфологические атрибутыатрибутыэлементовэлементов фразыфразы шаблонашаблонаИсключающиеИсключающие элементыэлементыфразыфразы шаблонашаблонаНаправленияНаправления поискапоискаэлементовэлементов

Структура исходногошаблона Структура модифицированного шаблона

1717

ПримерыПримеры генерациигенерации КГКГ..ОбработкаОбработка пассивногопассивного залогазалога

1818

КГ по предложению «Человекпостроил дом»

КГ по предложению «Дом построенчеловеком»

ПримерыПримеры генерациигенерации КГКГ..УправлениеУправление направлениемнаправлением обработкиобработки фразыфразы

РазборРазбор фразыфразы ««главныйглавный датчикдатчик моторамотора автомобиляавтомобиля»»

Без управления направлением С управлением направлением

1919

Особенности работы генератора

Проблема изолированных (бездомных) концептов

Длина предложения (число элементов)

% успешныхКГ

Фраза: “For this class of problems nichingbecomes a necessity”.

Статистика успешных генераций

Предварительный анализ использования оптимизированногоперебора

БезБез перебораперебора

вариацийвариаций

ПолныйПолный переборперебор

морфологическихморфологических

вариацийвариаций

предложенияпредложения

ОптимизированныйОптимизированный

переборперебор

морфологическихморфологических

вариацийвариаций

ЧислоЧисло предложенийпредложений 500500 500500 500500

ЧислоЧисло КГКГ безбез висячихвисячих

концептовконцептов7979 226226 175175

ОтношениеОтношение КГКГ безбез

висячихвисячих концептовконцептов коко

всемвсем, %, %

15,815,8 45,245,2 3535

ОбщееОбщее числочисло

элементовэлементов1046610466 1046610466 1046610466

УдельноеУдельное времявремя

построенияпостроения КГКГ, , мсмс53,33653,336 9638,4569638,456 1748,051748,05

ИсследовательскаяИсследовательская задачазадача: : Оптимальное управление шаблонами

при генерации концептуальных графов

КлассикаКлассика:: кластеризациякластеризация КГКГ

Меры близости графов

Концептуальная1 2

2 ( )( ) ( )

cc

n Gsn G n G

=+

Относительная1 2

2 ( )( ) ( )

c c

cr

G G

m Gsm G m G

=+

Некоторые модификации мер

1 2

2 ( ) ,( ) ( )

cc

n G lsn G n G

=+

( )1

1 22

21 2

1

( ) , ( ) ( )

( ) , ( ) ( )( )

n Gk if n G n Gn G

ln Gk if n G n Gn G

⎧ ≥⎪⎪= ⎨⎪ <⎪⎩

ibothG bbbmGmc

++++= ...)( 21

bothmmi −= ,...,1

1 2c rs d s d s= +Унифицированная мера

КластеризацияКластеризация КГКГ:: вновь проблемамеры

),(),(),( 322131 ggdggdggd +≤

??

),( 31 ggd

),( 21 ggd),( 32 ggd

-20

-10

0

10

20 -20

-10

0

10

20

20

20.2

20.4

20.6

-20

-10

0

10

Типичная форма поверхности отклика

КластеризацияКластеризация КГКГ::Семантическая мера близости на основе

- глубина в иерархии гиперонимов)()(

)(2

21 clclccplS+

⋅=

),(1),( 2121 ccdccs cc −=cs - подобие концептов c1 и c2

1 2( , )cd c c - расстояние между концептами c1 и c2

отношения «гипоним – гипероним»

( )il c

ccp ближайший общий предок для c1,c2.

WordNet

• Иерархия гиперонимов• Система понятий• Мера на отношениигипоним-гипероним?

Проблема меры специальные(генетические) алгоритмы

кластеризации

-20

0

20

-20

0

20

0

10

20

30

-20

0

20

Начальная популяция

Финальная популяция

50 100 150 200 250 300Число поколений

1000

1200

1400

1600

1800

2000Пригодность

-20

0

20

-20

0

20

0

10

20

30

-20

0

20

Особенности решений

ГА в задаче кластеризации

Цепочное кодовое представление для КГ:

• реализует неявный параллелизм в работе алгоритма;

• ускоряет сходимость;

• инвариантна относительно меры

… …a1 aia2an

n objects

Номер объекта, находящегося в одномкластере с данным

объектом

Визуализация процесса и результатовкластеризацииДендрограммы

Карты кластеризации

Некоторые прикладныезадачи

Моделирование требований вCASE-технологиях

Концептуальноемоделирование в системахтехнической поддержки

2828

Моделирование требованийв CASE-технологиях

репозиторий требования Параметры: риски, приоритет и т.д.

Моделирование требованийв CASE-технологиях

Решение:

Текст КГ Контекст Модель«сущность-связь»

Характернаяструктура контекстасущностей модели«сущность-связь»

Ассоциированнаясущность

атрибуты

понятие

ИсследовательскаяИсследовательская задачазадача: : «Применение КГ для моделирования

контекстов»

Контекст какподграф в КГ

Контекст в смысле ФПА

Концептуальное моделирование в

системах технической поддержки

Доклад А.П. Колосова

"Определение близости текстов собучением на основе статистическихданных"

Выводы

Статистический и структурныйподходы в в методах Text Miningоснованы на принципиально разныхположениях

• Статистический и структурныйподходы могут дополнять друг другав решении конкретных задач

3333

top related