ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА...

150
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ "ХАРКІВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ" Матеріали V Всеукраїнської науково-практичної конференції "ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКА" ХАРКІВ 2016

Upload: others

Post on 23-Oct-2019

19 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ

"ХАРКІВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ"

Матеріали

V Всеукраїнської науково-практичної конференції

"ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА

ПРИКЛАДНА ЛІНГВІСТИКА"

ХАРКІВ 2016

Page 2: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ

"ХАРКІВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ"

Матеріали

V Всеукраїнської науково-практичної конференції

"ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА

ПРИКЛАДНА ЛІНГВІСТИКА"

ХАРКІВ 2016

Page 3: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

2

УДК 004.9:81

Матеріали V Всеукраїнської науково-практичної конференції "Інтелектуальні

системи та прикладна лінгвістика".

Харків, 14 квітня 2016 р. : матеріали конференції. – Харків : Національний тех-

нічний університет "Харківський політехнічний інститут", 2016. – 148 с.

В матеріалах розглядаються проблеми та перспективи розвитку інтелектуальних

комп’ютерних систем та різних галузей прикладної лінгвістики, а саме корпусної лін-

гвістики, комп'ютерної лексикографії, машинного перекладу, лінгвістики Інтернету;

питання використання інформаційних технологій в лінгвістиці, з метою дослідження

та обробки мови.

Редакційна колегія:

д.т.н. Кіпенський А.В. – декан факультету соціально-гуманітарних технологій

НТУ "ХПІ";

д.т.н. Шаронова Н.В. – завідувач кафедри інтелектуальних комп’ютерних сис-

тем НТУ "ХПІ";

Петрасова С.В. – аспірант кафедри інтелектуальних комп’ютерних систем

НТУ "ХПІ".

© Національний технічний університет "Харківський політехнічний інститут",

2016

Page 4: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

3

АЛФАВІТНИЙ ПОКАЖЧИК АВТОРІВ

А Литвиненко О.В. 114

Аджит Пратап Сингх Гаутам 37 Лутай Н.В. 60

Б Любченко Т.П. 32

Бабаскіна В.О. 68 М

Бабкова Н.В. 50 Медяник Ю.М. 116

Березовська Є.Г. 70 Метешкін К.О. 13

Білятинська І.М. 39 Морозова О.І. 13

Борисова Н.В. 72, 74 Мусієнко О.П. 118

Бородіна О.Р. 76 Н

Бугай К.В. 78 Нагорна Є.С. 121

Буряк О.Ю. 41 Ніконоров С.І. 62

В Новицька Д.Є 123

Вербиненко Ю.І. 44 О

Верховець М.В. 80 Оливко Р.М. 10

Висоцька В.А. 10 Оліфенко І.В. 72

Г Оробинська О.О. 64

Гайденко Т.В. 82 П

Голуб А.І. 84 Панченко Д.І. 41

Гончар А.Ю. 86 Панчул А.О. 125

Гулієва Д.О. 52 Петрасова С.В. 48, 98

Д Печенікова Л.М. 66

Данилевич С.Б. 22 Пилипенко А.А. 127

Дідусьов В.С. 89 Поморцева О.Є. 10

Ж Прогляда В.О. 129

Жилін Р.Г. 91 Прокопчук Ю.О. 19

З С

Зіньківська О.В. 93 Самедова Е.І. 131

Золотько Д.В. 95 Секало О.М. 134

І Сліпченко В.С. 137

Ігнатьєв О.М. 55 Сорока В.О. 139

К Т

Каніщева О.В. 24 Тимошенко А.О. 74

Кисільова В.Ю. 98 Ч

Кліменкова К.Г. 101 Чухненко М.В. 141

Козуля М.М. 46 Х

Колесник А.С. 104 Хайрова Н.Ф. 8, 104

Кочуєва З.А. 89 Ш

Кочура О.І. 107 Шабанова-Кушнаренко Л.В. 15

Краснопьоров П.В. 57 Шаронова Н.В. 134

Кузьміна М.О. 109 Шелест А.Т. 144

Купріянов Є.В. 17 Шостак І.В. 15

Курбацька М.О. 111 Ю

Л Юрьєва К.О. 146

Лазаренко О.В. 28 Юрченко О.М. 70

Литвин В.В. 10

Page 5: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

4

ЗМІСТ

Хайрова Н.Ф.

СОВРЕМЕННЫЕ ТЕНДЕНЦИИ В ОБЛАСТИ АВТОМАТИЗАЦИИ ПРОЦЕССА

ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ КОРПОРАЦИИ………………………...…

8

Литвин В.В., Висоцька В.А., Оливко Р.М.

МЕТОД ВИЗНАЧЕННЯ СЕМАНТИЧНОЇ МЕТРИКИ НА ОСНОВІ ТЕЗАУРУСУ

ПРЕДМЕТНОЇ ОБЛАСТІ……………………………………………………………….

10

Метешкин К.А., Поморцева Е.Е., Морозова О.И.

ЛЕКСИКОГРАФИЧЕСКОЕ ОБЕСПЕЧЕНИЕ СИСТЕМ ПОДДЕРЖКИ

ОБРАЗОВАТЕЛЬНЫХ ПРОЦЕССОВ КАФЕДРЫ……………………………….…

13

Шостак И.В., Шабанова-Кушнаренко Л.В.

АЛГЕБРО-ЛОГИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССНЫХ ЗНАНИЙ В

ИНФОРМАЦИОННЫХ СИСТЕМАХ…………………………………..…..……....…

15

Купріянов Є.В.

ЛЕКСИКОГРАФІЧНА СИСТЕМА ДЛЯ ВІРТУАЛЬНОЇ ЛЕКСИКОГРАФІЧНОЇ

ЛАБОРАТОРІЇ «ТЛУМАЧНИЙ СЛОВНИК ІСПАНСЬКОЇ МОВИ»……………….

17

Прокопчук Ю.А.

ОСОБЕННОСТИ АНАЛИЗА И СИНТЕЗА СООБЩЕНИЙ, ТЕКСТА НА

ОСНОВЕ ПАРАДИГМЫ ПРЕДЕЛЬНЫХ ОБОБЩЕНИЙ……………………….......

19

Данилевич С. Б.

СОЗДАНИЕ КОРПУСА ТЕКСТОВ ИЗ ИНТЕРНЕТА ДОСТУПНЫМИ

СРЕДСТВАМИ.…………………………………………………………….…………...

22

Канищева О.В.

ТЕНДЕНЦИИ РАЗВИТИЯ МЕТОДОВ ОБРАБОТКИ МУЛЬТИМОДАЛЬНОЙ

ИНФОРМАЦИИ…………………………………………………………….…….…….

24

Лазаренко О.В.

РОЛЬ КОНЦЕПТУАЛЬНЫХ ИНВАРИАНТОВ ТЕКСТОВ В

СОВЕРШЕНСТВОВАНИИ СИСТЕМЫ АВТОМАТИЧЕСКОГО

РЕФЕРИРОВАНИЯ………………………………………...……...……………………

28

Любченко Т.П.

КОМП’ЮТЕРНІ ЛЕКСИКОГРАФІЧНІ СИСТЕМИ ГРАМАТИЧНОГО ТИПУ

ДЛЯ МОВ АНАЛІТИКО-СИНТЕТИЧНОГО ЛАДУ (НА ПРИКЛАДІ

НІМЕЦЬКОЇ МОВИ)……………………………………………………..……………..

32

Аджит Пратап Сингх Гаутам

МОДЕЛИ ИЗВЛЕЧЕНИЯ ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ В

СИСТЕМЕ ФОРМИРОВАНИЯ БИБЛИОГРАФИЧЕСКИХ ОПИСАНИЙ

ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ НАУЧНОЙ БИБЛИОТЕКИ……………..

37

Білятинська І.М.

ОСОБЛИВОСТІ ПРЕДСТАВЛЕННЯ ЛЕКСИКОГРАФІЧНОГО МАТЕРІАЛУ В

ЦИФРОВОМУ СЕРЕДОВИЩІ………………………………………………………..

39

Page 6: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

5

Буряк Е.Ю., Панченко Д.И.

ОПИСАНИЕ ОБЩЕЙ МОДЕЛИ ЗАГОЛОВКОВ С ПРЕДЛОГАМИ В СИСТЕМЕ

АВТОРЕФЕРИРОВАНИЯ…………………………………………………….………..

41

Вербиненко Ю.І.

ДИСКУРСНІ ОДИНИЦІ: ПРОБЛЕМИ ЛІНГВІСТИЧНОГО ОПИСУ…………...…

44

Козуля М.М.

ІНФОРМАЦІЙНО-ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ РЕАЛІЗАЦІЇ СИСТЕМНИХ

МЕТОДІВ ВИЗНАЧЕННЯ СТАНУ СКЛАДНИХ СИСТЕМ..…………...……...…...

46

Петрасова С.В.

ФОРМАЛІЗАЦІЯ ІНФОРМАЦІЙНО-ЛІНГВІСТИЧНИХ СУТНОСТЕЙ ТА

ВІДНОШЕНЬ ЗАСОБАМИ ШТУЧНОГО ІНТЕЛЕКТУ……………………………..

48

Бабкова Н.В.

РОЛЬ ПСИХОФИЗИЧЕСКОГО ЭКСПЕРИМЕНТА В

АВТОМАТИЗИРОВАННОЙ ОБРАБОТКЕ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ……...

50

Gulieva D.O.

BRAINSTORMING AS A PART OF LEARNING PROCESS………………………...

52

Ігнатьєв О.М.

ВИКОРИСТАННЯ МОДЕЛЕЙ ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ

SENTIMENT ANALYSIS З МЕТОЮ МОНІТОРИНГУ НАДЗВИЧАЙНИХ

СИТУАЦІЙ ТЕХНОГЕННОГО ТА ПРИРОДНОГО ХАРАКТЕРУ…...……….…....

55

Красноперов П.В.

СПЕЦИФИКА ОБЩЕНИЯ В ИНТЕРНЕТ……………………………………….….

57

Лутай Н.В.

ГРУППОВАЯ ДИСКУССИЯ КАК МЕТОД ОБУЧЕНИЯ ИНОСТРАННОМУ

ЯЗЫКУ……………………………………………………………...…………………....

60

Никоноров С.И.

РАЗВИТИЕ НАВЫКОВ УСТНОЙ КОММУНИКАЦИИ У СПЕЦИАЛИСТОВ ПО

ПРИКЛАДНОЙ ЛИНГВИСТИКЕ ДЛЯ РАБОТЫ С КЛИЕНТАМИ ИТ

КОМПАНИЙ….……….………………………………………………………………...

62

Оробинская Е.А.

МОДЕЛИ ПРЕДСТАВЛЕНИЯ ГЛАГОЛОВ ДЛЯ ЗАДАЧИ

АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ОНТОЛOГИИ ПРЕДМЕТНОЙ

ОБЛАСТИ………………………………………………………………………………..

64

Печенікова Л.М.

ІНТЕРНЕТ ЯК ЗАСІБ СОЦІАЛЬНОЇ КОМУНІКАЦІЇ……...………………………..

66

Бабаскіна В.О.

РОЗРОБКА ЕЛЕКТРОННОГО СЛОВНИКА ФРАЗЕОЛОГІЗМІВ………………….

68

Березовская Е.Г., Юрченко Е.Н.

НАИБОЛЕЕ «ПРОДУКТИВНЫЕ» ЛАТИНСКИЕ МОРФЕМЫ И ИХ

ОТРАЖЕНИЕ В ЗАПАДНОЕВРОПЕЙСКИХ И СЛАВЯНСКИХ ЯЗЫКАХ...…….

70

Борисова Н.В., Оліфенко І.В.

АВТОМАТИЗОВАНА ЛЕМАТИЗАЦІЯ ДІЄСЛІВ З ВІДОКРЕМЛЮВАНИМИ

ПРЕФІКСАМИ У НІМЕЦЬКІЙ МОВІ………………………………………………...

72

Page 7: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

6

Борисова Н.В., Тимошенко А.О.

СТВОРЕННЯ ЕЛЕКТРОННОГО НАВЧАЛЬНОГО ТЕРМІНОЛОГІЧНОГО

СЛОВНИКА З ПРИКЛАДНОЇ ЛІНГВІСТИКИ………………………………………

74

Бородина А.Р.

СЕМАНТИКО-ФУНКЦИОНАЛЬНЫЙ АСПЕКТ ИНТЕРНЕТ-СЛЕНГА….……….

76

Бугай К.В.

ВПРОВАДЖЕННЯ АВТОМАТИЗОВАНОЇ НАВЧАЛЬНОЇ СИСТЕМИ З

ФІЛОСОФІЇ.…………………………………………………………………………….

78

Верховець М.В.

ІНТЕРНЕТ-ЛІНГВІСТИКА: ВІДРОДЖЕННЯ ЕПІСТОЛЯРНОГО ЖАНРУ….…....

80

Гайденко Т.В.

ИСПОЛЬЗОВАНИЕ МОДАЛЬНЫХ ГЛАГОЛОВ ДЛЯ КЛАССИФИКЦИИ

ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ……………………………..……………….....

82

Голуб А.І.

ВИКОРИСТАННЯ ІННОВАЦІЙНИХ ТЕХНОЛОГІЙ ПРИ ВИВЧЕННІ

АНГЛІЙСЬКОЇ МОВИ…………………………………………………..………….......

84

Гончар А.Ю.

ИССЛЕДОВАНИЕ РУССКО-АНГЛИЙСКИХ ЛЕКСИЧЕСКИХ ПАРАЛЛЕЛЕЙ...

86

Дідусьов В.С., Кочуєва З.А.

ПРОБЛЕМИ ОРГАНІЗАЦІЇ НЕЧІТКОГО ІНФОРМАЦІЙНОГО ПОШУКУ..……..

89

Жилін Р.Г.

ГРА СЛІВ В АНГЛІЙСЬКІЙ МОВІ ТА ТРУДНОЩІ З ПЕРЕКЛАДОМ НА

УКРАЇНСЬКУ МОВУ………………………………………………..…………………

91

Зіньківська О.В.

ЗАДАЧА АВТОМАТИЧНОГО СПРОЩЕННЯ ТЕКСТУ…….………………..................

93

Zolot’ko D.V.

THE ANALYSIS OF THE PART OF STEREOTYPIC GENDER ROLES AND

GENDER BIAS IN MASS CULTURE ACCORDING TO THE LINGUISTIC

DISCOURSE VIA BECHDEL TEST……………………….…….…………………......

95

Кисільова В.Ю., Петрасова С.В.

АВТОМАТИЧНЕ ВИЗНАЧЕННЯ СЕМАНТИЧНО БЛИЗЬКИХ КОЛОКАЦІЙ

АНГЛІЙСЬКОЇ МОВИ………………………………………………….……….…….

98

Клименкова Е.Г.

ПРОБЛЕМЫ ЗАДАЧИ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ТЕКСТА...……………

101

Колесник А.С., Хайрова Н.Ф.

ЛІНГВІСТИЧНІ АСПЕКТИ ОЦІНКИ ЯКОСТІ ТЕХНІЧНОЇ ДОКУМЕНТАЦІЇ.….

104

Кочура О.І.

ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ І ПОБУДОВА МОДЕЛІ РАЦІОНУ

ХАРЧУВАННЯ ЛЮДИНИ…………………..…………………………………………

107

Page 8: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

7

Кузьміна М.А.

ПОШУК АНАФОРИЧНИХ ЗВ'ЯЗКІВ У ПРОЦЕСІ АВТОМАТИЧНОГО

АНАЛІЗУ ДОКУМЕНТІВ……………………………………………………………....

109

Курбацкая М.А.

ОСОБЕННОСТИ СЛОГОДЕЛЕНИЯ В АНГЛИЙСКОМ ЯЗЫКЕ……………….…

111

Литвиненко О.В.

РОЗРОБКА ЕЛЕКТРОННОГО СЛОВНИКА ПРИКАЗОК ТА ПРИСЛІВ`ЇВ…..…..

114

Медяник Ю.М.

ВИЗНАЧЕННЯ ГРАМАТИЧНИХ КАТЕГОРІЙ ІМЕННИКІВ У НІМЕЦЬКІЙ

МОВІ ПРИ АВТОМАТИЧНОМУ АНАЛІЗІ ТЕКСТУ…….…………………………

116

Мусієнко О.П.

СИСТЕМИ ВИЛУЧЕННЯ СПАМ ПОВІДОМЛЕНЬ…………………………………

118

Нагорна Є.С.

МОЛОДІЖНИЙ СЛЕНГ ЯК МОВНЕ ЯВИЩЕ……………………………………....

121

Новицька Д.Є.

ВИКОРИСТАННЯ ЛІНГВІСТИЧНИХ ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ В

ЕЛЕКТРОННОМУ НАВЧАННІ…………………………………….………………….

123

Панчул А.О.

АНАЛІЗ ТОНАЛЬНОСТІ ВІДГУКІВ ДО ФІЛЬМІВ В БЛОГАХ...……………….…

125

Пилипенко А.А.

ЧАСТОТНЫЙ АНАЛИЗ «ТЕКСТОВЫХ КЛОНОВ» В ТЕХНИЧЕСКОЙ

ДОКУМЕНТАЦИИ………………………………………………………………..….....

127

Прогляда В.О.

МЕТОДЫ АВТОМАТИЗИРОВАННОГО СЖАТИЯ ТЕКСТОВ……………………

129

Самедова Е.І.

ОГЛЯД МЕТОДІВ ДЛЯ ЗНЯТТЯ ЛЕКСИЧНОЇ БАГАТОЗНАЧНОСТІ……………

131

Секало О.М., Шаронова Н.В.

ЗАДАЧІ ПОРОДЖЕННЯ ТА ФОРМАЛІЗАЦІЇ СТАЛИХ ТЕКСТІВ КАЗОК.…….

134

Сліпченко В.С.

ОГЛЯД СТАТИСТИЧНО-ІМОВІРНОСНИХ МЕТОДІВ АНАЛІЗУ ТЕКСТІВ.…....

137

Сорока В.О.

ЛІНГВІСТИЧНІ ОСОБЛИВОСТІ АНГЛОМОВНИХ РЕКЛАМНИХ ТЕКСТІВ.…..

139

Чухненко М.В.

ОПРЕДЕЛЕНИЕ ФУНКЦИОНАЛЬНОГО ЖАНРА (СТИЛЯ) ТЕКСТА……………

141

Шелест А.Т.

ЗАСТОСУВАННЯ ІМОВІРНІСНОЇ МОДЕЛІ (LANGUAGE MODEL) ДЛЯ

ОБРОБКИ ТЕКСТІВ УКРАЇНСЬКОЇ МОВИ……….………………………………...

144

Юрьева Е.А.

СОЗДАНИЕ УНИКАЛЬНОГО КОНТЕНТА ДЛЯ ПРОДВИЖЕНИЯ САЙТА В

ТОП…………………………………………………………………...……………….…

146

Page 9: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

8

СОВРЕМЕННЫЕ ТЕНДЕНЦИИ В ОБЛАСТИ АВТОМАТИЗАЦИИ

ПРОЦЕССА ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ КОРПОРАЦИИ

Хайрова Н.Ф.

Національний технічний університет

"Харківський політехнічний інститут",

м.Харків,вул.Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Сегодня конкурентная деятельность организаций во многом зависит от

обработки, использовании и отслеживании постоянных изменений бизнес-

процессов. При этом, ни квалификация и интенсивность работы специалистов,

ни ИТ, ни данные сами по себе не могут обеспечить конкурентного преимуще-

ства на долгосрочный период. Такие конкурентные преимущества могут быть

достигнуты только эффективным представлением данных и преобразованием

информационных ресурсов в знания, с последующим их использованием для

принятия бизнес решений.

Бизнес знания представляют собой в явном виде доступные в корпорации

знания, которые используются для повышения эффективности работы данной

организации. В настоящее время до 85% новых бизнес знаний аналитики кор-

порации получают в результате сравнения, анализа и синтеза информации из

разрозненных фактов, размещенных в текстах документов [1].

Задача современной корпоративной информационной системы (КИС) —

накапливать структурированные, формализованные знания — закономерности

и принципы, позволяющие доступно и повторно решать реальные производ-

ственные задачи на уровне всей корпорации. Такие знания, например в элек-

тронной коммерции, могут использоваться для поддержки автоматизированно-

го обмена данными между покупателями и продавцами в вертикальной инте-

грации рынков [2].

В связи с чем, необходимой функцией корпоративной информационной

системы становится обеспечение автоматической обработки потоков входящих

текстов. При этом, на этапе разработки КИС, базирующейся на знаниях, наибо-

лее узким и слабо проработанным местом остается задача экстракции, форму-

лирования и структурирования актуальной текущей информации, извлеченной

из текстов. Например, сбор из отчетов компании фактической информации о

доходах, прибыли, членах совета директоров, штаб квартире и т.д.

При этом, наиболее сложным, трудоемким, сложно формализуемым и

слабо разработанным этапом, для которого не существует общей стандартной

технологии, является этап извлечения знаний из текстов. Сложность данного

этапа информационно обработки связана необходимостью семантического ана-

лиза входных текстов корпорации, который должен базироваться на моделях

интеллектуальных процессов понимания, разработка которых в свою очередь,

требует решения задач искусственного интеллекта и понимания проблем ко-

гнитивной лингвистики. Задача извлечения знаний из КИС, базирующихся на

Page 10: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

9

множестве взаимосвязанных фактов, включает в себя следующие основные

этапы [3,4].

1. Поиск и извлечение элементов знаний, явным образом присутствую-

щих в текстовой коллекции в виде утверждения или факта. Например, во фраг-

менте текста:

“Is This the Next Big Thing from Amazon.com, Inc.? The company

reported $0.55 earnings per share for the quarter, topping the

Zacks’ consensus estimate of $0.44 by $0.11”

вторая фраза текста, проанализированная совместно с предыдущим предложе-

нием, позволяет явным образом извлечь элемент знаний, представленный фак-

том: “Shares of Amazon.com rose by $0.11”.

2. Порождение сложного знания путем обработки элементов знания,

включающее генерацию новых знаний, как цепочки логического вывода из эле-

ментарных утверждений и/или фактов. Например:

“Microsoft Corporation (NASDAQ:MSFT) stock has been doing

great lately and it’s software or hardware sales are taking off”.

Анализ двух элементарных утверждений подобного фрагмента позволяет сде-

лать логический вывод: “Shares of Microsoft Corporation will rise”.

3. Порождение сложного знания путем обработки элементов знания,

включающего эксплицирование обобщенного знания, скрытого в совокупности

частных утверждений и/или фактов. Например, повторяющиеся текстовые со-

общения о падении продаж у определенной корпорации, постоянных возвратах

продукции, судебных исках, предъявляемых к данной компании, возможных

финансовых затруднениях, позволяет явным образом породить вывод о кризисе

данной корпорации и возможном падением цен на ее акции.

Таким образом, система знаний корпорации должна представлять собой

некоторое условное знание об определённой предметной области, разработка

которого должна сопровождаться учетом определенной концепции данной об-

ласти интересов. Такие БЗ, создаются с определенными и конкретными бизнес

целями. Чаще всего концепция выражается посредством определения базовых

объектов (индивидуумов, атрибутов, процессов) и отношений между ними,

представляющих концептуализацию знаний. Список литературы

1. Рябышкин В. Технологии извлечения знаний из текста / В. Рябышкин,

С. Танков, С. Киселев, Н. Ильин. – Открытые системы, N 6, 2006. [Электронный ре-

сурс]. – Режим доступа : http://www.osp.ru/os/2006/06/ 2700556/.

2. Гладун А.Я. Онтологии в корпоративных системах / А.Я. Гладун,

Ю.В. Рогушина // "Корпоративные системы", №1, 2006. – С. 41-47.

3. Стенин А.А. Латентно-семантический метод извлечения информации из ин-

тернет ресурсов / А.А. Стенин, Ю.А. Тимошин, Е.Ю. Мелкумян, В.В. Курбанов // Во-

сточно-Европейский журнал передовых технологий. - 2013. - № 4(9). - С. 19-22 .

4. Ермаков А.Е. Автоматизация онтологического инжиниринга в системах из-

влечения знаний из текста / А.Е. Ермаков //Материалы международной конференции

«Диалог 2008». – Москва, 2008. – С. 154-159.

Page 11: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

10

МЕТОД ВИЗНАЧЕННЯ СЕМАНТИЧНОЇ МЕТРИКИ НА ОСНОВІ

ТЕЗАУРУСУ ПРЕДМЕТНОЇ ОБЛАСТІ

Литвин В.В., Висоцька В.А., Оливко Р.М.

Національний університет «Львівська політехніка»,

кафедра «Інформаційні системи та мережі»,

79012, Україна, Львів, вул. Степана Бандери, 12,

e-mail: [email protected], [email protected]

Мова науки, як структуроване наукове знання, задає собою багатошарове

ієрархічне утворення, в якому виділяються блоки: терміносистема;

номенклатура; засоби та правила формування понятійного апарату і термінів.

Енциклопедії, термінологічні та толкові словники, на основі яких будується

терміносистема предметної області (ПО), як правило мають чітку структуру і

складаються із словникових статей. Тому необхідно дослідити можливі їх

структури з метою розпізнавання понять і відношень між ними для побудови

тезаурусу ПО. У роботах [1-5] детально описано побудову такого тезаурусу. У

цій роботі запропоновано використати розроблений тезаурус для пошуку

потенційних партнерів, які займаються подібними науковими проблемами в

заданій ПО. Для розв’язування такої необхідно побудувати семантичну метрику.

Виділяють кілька способів визначення семантичних метрик, які засновані на:

частотності слів у ТД;

відстані в таксономії понять;

одночасно і частотності слів, і відстані в таксономії понять.

Однак жодна семантична метрика не базується на тезаурусах, лише окремі

з них враховують таксономію понять. Тезаурусний словник є переліком логіко-

семантичних відношень між лінгвістичними термінами. Цей тезаурус охоплює

не тільки множину окремих термінів, поданих у вигляді алфавітного списку з

їхніми тлумаченнями, а й самі моделі показу зв’язків між термінами. На основі

досягнень сучасного мовознавства у компактній та доступній формі подано

тлумачення термінологічних одиниць з авторитетних джерел (близько

тридцяти): термінологічних словників, граматик, монографій. До словника

вміщено загальнолінгвістичні терміни, переважно іменники або іменникові

словосполучення, з усіх розділів граматики, лексикології, прикладної та

комп’ютерної лінгвістики. Словникові одиниці до бази даних відбирали на

евристичних засадах (знання укладачів тезауруса, експертів-лінгвістів).

Словниковими одиницями є вживані загальнолінгвістичні терміни з морфеміки,

словотвору, парадигматики, синтаксису, лексикології, семантики; терміни

окремих прикладних напрямів, відомих в українській, російській, зарубіжній

лінгвістиці; терміни з комп’ютерної лінгвістики, пов’язані з автоматизацією

лінгвістичних процесів. Побудова тезауруса (ТЗ) передбачає розкриття всіх

типів відношень між поняттями, основними з яких є гіпонімія (рід-вид),

супідрядність на одному рівні – парціація (частина-ціле), синонімія, кореляція,

асоціація, локалізація об’єкта, його призначення, функція, способи вираження

Page 12: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

11

функції, відношення тощо. Зміст відношень розширено настільки, щоб можна

було охопити максимально широкий пласт термінів, з якими зв’язаний

аналізований термін як реєстровий. Оскільки зміст тлумачення був недостатнім

для здобуття всіх істотних для термінів відношень, ми орієнтувалися на

енциклопедичні словники, наукові праці з конкретної проблематики, знання

власні та лінгвістів-фахівців.

Множину відношень R поділимо на типи (рід-вид, синонімія, частина-ціле,

кореляти тощо) ‒ { }1 2, ,..., kR R R R= . Позначимо через in кількість відношень типу

iR у тезаурусі. Тоді загальна кількість відношень складає 1

k

i

i

N n

. Вважаємо,

що тип відношення має більшу вагу, якщо цей тип частіше зустрічається у

тезаурусі. Вагу типу відношення визначимо як ii

nL

N .

Зважимо нашу семантичну мережу, яка задає тезаурус. З цією метою

задамо вагу зв’язку між термінами тезаурусу. Чим менша вага, тим терміни є

більш подібними. Тому вагу дуг семантичної мережі визначимо як обернено-

пропорційну величину до ваги типу відношення, яке задає цю дугу:

j

i i

K K Nl

L n

, де K ‒ деяка константа, яка задає величину виміру ваг дуг

семантичної мережі [6-8]. Використаємо таким чином зважену семантичну

мережу для пошуку потенційних партнерів, які займаються подібними

науковими проблемами в предметній області для якої побудовано тезаурус.

Для цього визначимо множину ключових термінів 1 2, ,... nC C C C взятих

із тезауруса, які на нашу думку найкраще задають проблематику певних

наукових досліджень. Пошукова система знаходить множину документів, в яких

зустрічаються терміни, що належать до цього тезаурусу. Для кожного такого

документу sT побудуємо множину потужністю m , яка складається з термінів,

які входять у тезаурус ПО й частіше зустрічаються у документі sT :

1 2ˆ ˆ ˆ ˆ, ,...,s s s s

mC C C C . Методом Флойда-Уоршалла або Дейкстри [9] знайдемо

n m найкоротших відстаней ,s s

ij i jd d C C між термінами з множини C та ˆ sC

. Тоді відстань до знайденого документа sT обчислюється згідно до формули:

1 1

n ms s

ij

i j

d d

. Рангуємо знайдені документи згідно до зростання величини sd .

Автори документів з вищим рангом можуть бути нашими потенційними

клієнтами [10-12].

Отже у роботі запропоновано підхід до побудови семантичної метрики на

основі тезаурусу предметної області. Детально описано процес побудови такого

тезаурусу як семантичної мережі. Запропоновано задати ваги дуг такої мережі

як обернено-пропорційні величини до кількості відношень певного типу.

Побудовано семантичну метрику на основі зваженої таким чином семантичної

мережі. Запропоновано використати цю метрику для пошуку потенційних

Page 13: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

12

партнерів, які займаються подібними науковими проблемами в предметній

області для якої побудовано тезаурус. Список літератури

1. Бісікало О.В. Методика побудови тезауруса навчальної системи на основі

моделі образного мислення [Електронний ресурс] / О.В. Бісікало. – Режим доступу:

http://dspace.nbuv.gov.ua/bitstream/handle/123456789/7668/091-Bisikalo.pdf?sequence=1.

– Назва з титул. екрану.

2. Гладун А.Я. Методика розробки термінології предметної області як базису для

формування онтологій та тезаурусів [Електронний ресурс] / А.Я. Гладун, Ю.В.

Рогушина. – Режим доступу:

http://webcache.googleusercontent.com/search?q=cache:_u5h9XFCz6IJ:jrnl.nau.edu.ua/ind

ex.php/PIU/article/download/549/530+&cd=2&hl=uk&ct=clnk&gl=ua. – Назва з титул.

екрану.

3. Каніщева О. В. Інформаційно-логічні моделі і методи ідентифікації знань в

автоматизованих інформаційних бібліотечних системах : автореф. дис. ... канд. техн.

наук : 05.13.06 / О. В. Каніщева ; "Харківський політехнічний інститут", національний

технічний університет. – Х., 2010. – 20 : a-рис. – укp.

4. Хайрова Н.Ф. Модель автоматизации формирования информационно-

поискового тезауруса электронной библиотеки [Електронний ресурс] / Н.Ф. Хайрова,

Н.В. Шаронова. – Режим доступу: http://cyberleninka.ru/article/n/model-avtomatizatsii-

formirovaniya-informatsionno-poiskovogo-tezaurusa-elektronnoy-biblioteki. – Назва з

титул. екрану.

5. Зацеркляний М.М. Об’єктно-орієнтований тезаурус і словник колокацій для

бази знань криміналістичних інформаційних систем [Електронний ресурс] / М.М.

Зацеркляний, Д.Ю.Узлов. – Режим доступу: www.hups.mil.gov.ua/periodic-

app/article/10614/soi_2013_2_43.pdf. – Назва з титул. екрану.

6. LytvynV., Shakhovska N., PasichnykV. and Dosyn D. 2012. Searching the Relevant

Precedents in Dataspaces Based on Adaptive Ontology. Computational Problems of

Electrical Engineering. – Volume 2, Number 1. – Lviv, 75-81.

7. Dosyn D. and Lytvyn V. 2012. Planning of Intelligent Diagnostics Systems Based

Domain Ontology The VIIIth International Conference Perspective Technologies and

Methods in MEMS Design. - Polyana, Ukraine, 103.

8. Lytvyn V., Dosyn D., Medykovskyj M. and Shakhovska N. 2011. Intelligent agent

on the basis of adaptive ontologies construction Signal Modelling Control. – Lodz.

9. Свами М. Графы, сети и алгоритмы / М. Свами, К. Тхуласираман. – М.: Наука,

1984. – 256с.

10. Montes-y-Gómez M., Gelbukh A. and López-López A. 2000. Comparison of

Conceptual Graphs Lecture Notes in Artificial Intelligence Vol. 1793. – Springer-Verlag:

http://ccc.inaoep.mx/~mmontesg/publicaciones/ 2000/ComparisonCG.

11. Knappe R., Bulskov H. and Andreasen T. 2004. Perspectives on Ontology-based

Querying International Journal of Intelligent Systems:

http://akira.ruc.dk/~knappe/publications/ijis2004.pdf

12. Lytvyn V. Design of intelligent decision support systems using ontological

approach / V.Lytvyn // An international quarterly journal on economics in technology, new

technologies and modelling processes. – 2013. – Vol. II. – No 1. – 31-38.

Page 14: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

13

ЛЕКСИКОГРАФИЧЕСКОЕ ОБЕСПЕЧЕНИЕ СИСТЕМ ПОДДЕРЖКИ

ОБРАЗОВАТЕЛЬНЫХ ПРОЦЕССОВ КАФЕДРЫ

Метешкин К.А., Поморцева Е.Е., Морозова О.И.

Харьковский национальный университет городского хозяйства имени

А. Н. Бекетова, г. Харьков, ул. Революции 12, e-mail: [email protected]

Национальный аэрокосмический университет имени Н. Е. Жуковского

«Харьковский авиационный институт», г. Харьков, ул. Чкалова 17,

e-mail: [email protected]

Все больше информации, используемой в процессе обучения как бакалав-

ра, так и магистра в любом ВУЗе в настоящее время, представлено в электрон-

ном формате. Более того, традиционные печатные издания – учебники, учебные

пособия и прочее методическое обеспечение переводится в электронный фор-

мат. Эта форма представления информации позволяет организовать работу и

доступ к ней на качественном новом уровне.

С появлением сети Интернет создалась принципиально новая ситуация в

системе образования. Возможности сети для целей образования и развития

личности поистине уникальны. Использование Интернет-ресурсов позволяет

разнообразить учебный процесс, а также организовать его с учётом интересов

учащихся, уровня их подготовки и степени занятости. В настоящее время необ-

ходимы принципиально новые подходы к образованию, т.к. многие элементы

учебного процесса переносятся в виртуальное пространство. Большинство сай-

тов, обладающих функциями обучения, построены таким образом, чтобы каж-

дая Web-страница интерпретировалась корпусом текстов. В этой связи, методы

корпусной лингвистики являются мощным инструментом для обработки учеб-

ного материала, расширения его семантической сущности, использования соот-

ветствующих словарно-справочных средств [1].

В качестве примера использования методов корпусной лингвистики, кото-

рые расширяют семантическую базу учебных дисциплин можно привести учеб-

ное пособие, выставленное на сайте кафедры геоинформационных систем, оцен-

ки земли и недвижимого имущества по адресу http://kaf-gis.kh.ua/osnovy-

teorii-sistem-glazami-studentov, где за счет организации соответствующих гиперс-

сылок расширяется семантическая база изучаемой дисциплины. Кроме того,

корпуса текста (Web-страницы) одной дисциплины, связаны гиперссылками с

корпусами текста другой учебной дисциплины и образуют некоторую модель

профессиональных знаний в рамках структурно-логической схемы обучения.

Применение методов корпусной лингвистики не исчерпывается только расшире-

нием семантической базы изучаемого материала. Создание специального тезау-

руса позволяет реализовать идею терминологической стандартизации, которая

была предложена в работе [2]. На рисунке показан фрагмент Web-страницы, на

которой изображена структурная схема учебного плана, дополняющая термино-

логический словарь, обеспечивающий стандартизацию терминов, используемых

при обучении. Например, терминологический стандарт подготовки бакалавра по

направлению «Геодезия, картография и землеустройство».

Page 15: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

14

Возможности Web-технологий, в частности организация связей (гиперс-

сылок) между отдельными терминами учебного материала (установка «яко-

рей»), позволяет во всем массиве корпусов текстов строить онтологические мо-

дели, способствующие лучшему пониманию учебного материала [3].

Рисунок – Структурная схема учебного плана, дополненная

терминологическим словарем

Таким образом, на основе синтеза методов Web-технологий и корпусной

лингвистики строятся модели представления знаний, которые практически реа-

лизуются в системе поддержки образовательных процессов на сайте кафедры. Список литературы

1. Корпусна лінгвістика / В.А. Широков, О.В. Бугаков, Т.О. Грязнухіна та ін. –

К.: Довіра, 2005. – 471 с.

2. Дубичинский В.В. Задача терминологической стандартизации образова-

тельных процессов высшей школы и пути ее решения / В.В. Дубичинский,

Л.А.Федорченко, А.Н. Самойлов. - Проблеми інженерно-педагогічної освіти. Збірник

наукових праць. №7. - Харків: УІПА. 2004. - С. 94 – 100.

3. Метешкин К.А. Кибернетическая педагогика: онтологический инжинеринг

в обучении и образовании / К.А. Метешкин, О.И. Морозова, Л.А. Федорченко,

Н.Ф. Хайрова. – Х.: ХНАГХ, 2012. – 207 с.

Page 16: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

15

АЛГЕБРО-ЛОГИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССНЫХ

ЗНАНИЙ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

Шостак И.В., Шабанова-Кушнаренко Л.В.

Национальный технический университет

«Харьковский политехнический институт»,

г. Харьков, ул. Пушкинская, 79/2, тел. (057) 707-64-60,

e-mail: [email protected]

Рассматриваются особенности интеллектуального анализа процессных

знаний как направления, связанного с построением моделей дискретных про-

цессов на основе структуризации их лог-файлов (журналов выполнения с мет-

ками времени). Моделирование информационных процессов обычно произво-

дится на основе анализа логов событий, которые фиксируются современными

ИС. Проблема разработки адекватной модели процесса связана с необходимо-

стью отображать все возможные варианты его поведения на основе исследова-

ния вариантов выполнения в лог-файле. Актуальной является проблема адек-

ватности модели процессных знаний, отражающая варианты выполнения и до-

пускающая адаптацию к заданной предметной области путем удаления вариан-

тов, относящихся к другим предметным областям.

Для того чтобы знания, представленные как процессы, могли быть эффек-

тивно использованы в информационных системах, они должны быть формали-

зованы [1, 2]. Для выполнения формализации необходимо выяснить структуру

процессных знаний, их элементы, виды связей между этими элементами и по-

рядок обработки или манипулирования знаниями.

Основой такой формализации является представление знаний, которое

позволяет достаточно адекватно описать исследуемую предметную область. В

дальнейшем формализованное представление знаний используется как ядро

информационных систем.

Для разработки интеллектуальных систем, работающих в реальном време-

ни, целесообразно совместное использование метода вывода знаний на основе

прецедентов и технологии интеллектуального анализа процессов. Это актуаль-

ное направление, поскольку многие реальные задачи имеют временную дина-

мику.

Методы Process Mining могут давать дополнительные знания в виде пат-

тернов, которые затем используются при выводе знаний по прецедентам. Путем

анализа связей между различными иерархическими уровнями данных в базе

знаний возможно получение дополнительной, неявной информации, использу-

емой затем при адаптации прецедентов, дополнении их новыми атрибутами. С

другой стороны, создание стандартных, типовых моделей процессов может

быть значительно упрощено использованием метода вывода знаний на преце-

дентах, когда модели процессов сохраняются и анализируются как прецеденты.

Построение модели процессного представления темпоральных знаний дает

возможность обобщать решения задач процессного управления. Такая модель

Page 17: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

16

содержит различные возможные варианты выполнения процесса, включает

конфигурирование и настройку под заданную предметную область, что позво-

ляет ее многократное использование [3, 4].

По сравнению с множеством частных моделей, реализующих различные

варианты выполнения процесса, интегральная модель процессных знаний зна-

чительно упрощает настройку и адаптацию к заданной предметной области.

Настройка такой модели предполагает выделение базового варианта из множе-

ства вариантов процесса и затем его дополнение событиями и связями из

оставшихся вариантов выполнения процесса. Полученная модель затем прове-

ряется на непротиворечивость и избыточность.

Основные требования к процессной модели определяются потребностью

охвата как можно большего множества вариантов реализации процесса и затем

обеспечения ее настройки. Эти требования основаны на критериях построения

референсной модели [5], и включают в себя функциональные требования к

процессу, иерархическую структуру уровней модели, множества аналогичных

(подобных) подпроцессов, множество ресурсов процесса, правила адаптации,

конкретная форма реализации модели. Перечисленные требования определяют

логику поведения процесса, а также дополнительные возможности практиче-

ского применения модели.

Обычно лог-файлы процессов содержат значительный объем избыточных

структур, затрудняющих понимание и моделирование темпоральных знаний.

Этот объем возникает из-за учета в лог-файлах однотипных или подобных под-

процессов, связанных с различными предметными областями или описываю-

щих динамическую перестройку подпроцесса в зависимости от изменений

внешней среды. Отсюда возникает задача конфигурирования иерархической

модели представления процессных знаний под заданную предметную область,

включающая в себя удаление из модели (или упрощение) избыточных струк-

тур - подпроцессов или операций. Кроме того, конфигурирование модели

должно обеспечить однозначную последовательность выполнения ее операций. Список литературы

1. Бондаренко М.Ф. Теория интеллекта : Учебник / М.Ф. Бондаренко, Ю.П. Ша-

банов-Кушнаренко. – Харьков: изд-во СМИТ, 2007. – 576 с.

2. Бондаренко М.Ф. Об алгебре предикатов / Бондаренко М.Ф., Шабанов-

Кушнаренко Ю.П. // Бионика интеллекта, 2004. – № 1 (61). – С.15-26.

3. Ackerman, P.L. Self-Report knowledge: At the crossroads of ability, interest, and

personality / Ackerman, P.L., & Rolfhus, E.L. // Journal of Educational Psychology,

1996 - 88, 1. – Р. 174–188.

4. Ackerman, P.L. The Locus of adult intelligence. Knowledge, abilities, and nonabil-

ity traits / Ackerman, P.L., & Rolfhus, E.L. // Journal of Educational Psychology, 1999. –

14, 2. – 314–330.

5. Gottschalk, W.M.P. van der Aalst, and M.H. Jansen-Vullers. Mining Reference

Process Models and their Configurations / OTM 2008 Workshops, volume 5333 of Lecture

Notes in Computer Science, Berlin Heidelberg, 2008. Springer Verlag. – Р. 263–272.

Page 18: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

17

ЛЕКСИКОГРАФІЧНА СИСТЕМА

ДЛЯ ВІРТУАЛЬНОЇ ЛЕКСИКОГРАФІЧНОЇ ЛАБОРАТОРІЇ

«ТЛУМАЧНИЙ СЛОВНИК ІСПАНСЬКОЇ МОВИ»

Купріянов Є.В.

Український мовно-інформаційний фонд НАН України

м. Київ, Голосіївський проспект 3, тел.: 044-525-8165,

e-mail: [email protected]

Сучасна комп’ютерна лексикографія переживає особливий етап розвитку,

перебуваючи під великим впливом нових суспільних потреб і нових методів

опрацювання інформації, використовуючи широкі можливості застосування

комп’ютерних технологій для опису як власне лінгвістичної, так і екстралінгві-

стичної інформації. Обговорюючи лексикографічну проблематику, не можна не

згадати таку актуальну проблему як оновлення та підтримки фундаментальних

лексиконів. Адже великі словники, звичайно, є взірцевими лексикографічними

об’єктами, створеними значними колективами висококваліфікованих фахівців.

Крім того, такі праці відображають історичну пам’ять народу та його мовну

свідомість, вони мають інваріантну цінність, виражену в їхніх лексикографіч-

них структурах, і подають новим поколінням лексикографів нетлінні зразки

способів лексикографування тих чи інших семантичних явищ, приклади опису

тих чи інших лінгвістично-когнітивних завдань.

У зв’язку з широкою популярністю іспанської мови в світі після англійсь-

кої, а також її широке використання в науково-технічній, економічній, інфор-

маційній та культурній сферах така лексикографічна лабораторія є доволі перс-

пективним проектом як у плані подальшого удосконалення методологічної бази

українського електронного словникарства, так і в плані створення ефективних

інформаційно-лінгвістичних ресурсів для користувачів, що вивчають іспанську

мову або користуються нею у своїй діяльності.

До числа фундаментальних лексиконів належить тлумачний словник іс-

панської мови Королівської Академії, перше видання якого датовано 1780 р.

Остання редакція словника, що вийшла в жовтні 2014 р., пропонує матеріал,

докорінно проаналізований укладачами на предмет його актуальності, відпові-

дності до сучасних норм іспанської фонетики, граматики, лексики та синтакси-

су, а також приведений у відповідність до реалій сучасного світу. Неодмінно це

веде до змін кількісного та якісного характеру. Це видання містить 93 111 слов-

никових статей (у попередньому було 88 431), а кількість тлумачень досягає

195 439 [3]. Реєстр словника охоплює як питому лексику, так і запозичені лек-

семи, такі як американізми, англізми, франкізми та інші, що набули досить ши-

рокого вжитку через глобалізаційні процеси. Іспанський словник відзначається

інтегральним описом формальних (граматика, орфографія, словозмінна паради-

гма), змістовних (семантика, етимологія) та прагматичних (географічний ареал,

стилістична маркованість, сфера вжитку тощо) характеристик, забезпечуючи

при цьому компактність структури словникових статей та стислість викладення

Page 19: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

18

відповідної інформації. Така побудова словника забезпечує швидкий і зручний

пошук, а також дає змогу отримувати всеохоплюючу інформацію про ту чи ін-

шу лексему.

Пропонована до уваги доповідь має на меті розглянути важливі теоретичні

питання створення віртуальної лексикографічної лабораторії для тлумачного

словника. Об’єктом нашої розвідки є лексикографічна система для ВЛЛ «Тлу-

мачний словник іспанської мови», а предметом – формальне моделювання лінг-

вістичних явищ в іспанській мові (концептуальний рівень), що зафіксовані в

тлумачному словнику. В межах проекту лексикографічної лабораторії виконану

таку роботу науково-теоретичного характеру, використовуючи теоретичні по-

ложення [1, 2]:

– досліджено елементи макроструктури і мікроструктури словника, про-

аналізовано особливості його метамови;

– визначено архітектуру лексикографічної системи для лексикографічної

лабораторії іспанського словника;

– використовуючи теорію лексикографічних систем, розроблено формальні

моделі опису словозміни, семантики та словотвору в іспанській мові.

На ґрунті отриманих результатів теоретичних досліджень у найближчий

перспективі планується реалізувати:

– внутрішній рівень являє собою лексикографічну базу даних із усіма

структурними елементами та зв’язками, представленими в концептуальній мо-

делі;

– зовнішній рівень – програмний інтерфейс, що дає змогу виконувати

будь-які операції з усіма структурними елементами словника іспанської мови.

Розроблюваний електронний ресурс має наукове значення для подальшого

розвитку теоретичних засад української електронної лексикографії, враховуючи

досвід іспанських словникарів. Окремі положення нашого дослідження сприя-

тимуть подальшому розвитку теорії лексикографічних систем у формальному

моделюванні мовних феноменів, зокрема притаманних іспанській мові. Крім

цього, отримані результати, наш погляд, удосконалюють принципи інтеграції

лексикографічних систем різного типу в єдине цифрове середовище. Щодо

практичного застосування, на основі створюваної лексикографічній лабораторії

стає можливим укладання словників навчального типу (як паперові, так і елект-

ронні) для студентів, лінгвістів та перекладачів, що постійно працюють з іспан-

ською мовою. Завдяки широким інструментам актуалізації та поєднання різних

типів контенту, стає можливим оперативне забезпечення потенційних користу-

вачів інформацією відповідно до їхніх потреб. Список літератури

1. Остапова И. В., Широков В. А. Виртуальная лексикографическая лаборатория

для толковых словарей [електронний ресурс] / Остапова И. В. и др. – Режим доступу:

http://www.dialog-21.ru/digests/dialog2010/materials/pdf/55.pdf. 2. Широков В. А. Комп’ютерна лексикографія / В. А. Широков. – К.: Наукова

думка, 2011. – 351 с.

3. Diccionario de la lengua española: 23ª ed. – Madrid: S.L.U. ESPASA LIBROS,

2014. – 2432 p.

Page 20: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

19

ОСОБЕННОСТИ АНАЛИЗА И СИНТЕЗА СООБЩЕНИЙ, ТЕКСТА НА

ОСНОВЕ ПАРАДИГМЫ ПРЕДЕЛЬНЫХ ОБОБЩЕНИЙ

Прокопчук Ю.А.

Институт технической механики НАНУ и ГКАУ, Днепропетровский област-

ной центр кардиохирургии, г.Днепропетровск, E-mail: [email protected]

Вступление. В потоке психолингвистических публикаций последних лет

четко прослеживается определенная тенденция [1]: «внимание к мыслительным

феноменам смыслопорождения (к тому, что происходит «в голове» адресата)

оборачивается сомнением относительно эвристической значимости анализа

вербальной формы этих феноменов – текста. Так, например, сложная динами-

ческая система взаимовлияния психоментальных процессов и их материальной

языковой составляющей представляется метафорически как взаимодействие

«тела» и «души». При этом существенной для анализа должна быть, по опре-

делению, конечно, душа.» (выделено мною). Таким образом, текст и текстовые

категории имеют «нежесткий» характер, а обусловлены совместной деятельно-

стью сознаний коммуникантов. Рассмотрим некоторые процедурные вопросы

текстопроизводства и тектовосприятия в рамках парадигмы предельных обще-

ний (ППО) [2,3].

Результаты исследования. В простейшем случае текст или сообщение

состоят из упорядоченной последовательности термов, кодов, знаков, каждый

из которых имеет определенное значение в рамках фиксированных орграфов

значений (фиксированного контекста). Каждый терм/знак , являясь частью ка-

кого-либо орграфа значений Gv(), имеет конус детализации Gv() и конус

обобщения Gv(). Таким образом, при кодировании/восприятии произвольный

текст (сообщение, речь, сигнал) <a, b, c,…> в рамках банка тестов {Gv()} раз-

ворачивается в последовательность, изображенную на рис. 1 (рассматривается

простейший вариант без учета связанных орграфов набросков и автоассоциа-

тивных моделей знаний).

Рис. 1 – Смыслопорождающая

процедура делокализации текста, со-

общения, речи, сигнала <a, b, c,…>

В такой схеме любая позиция кортежа может проявляться одним из трех цветов

при взаимодействии с другими элементами текста (становиться обобщенным

значением, частным значением, фактическим значением – бесцветная компо-

нента). Подставляя разные значения из конусов вместо исходных a, b, c,… (цве-

товая комбинаторика), получаем многоуровневые наброски текста, речи, сооб-

щения (неразделяемая суперпозиция смыслов разных набросков). Возникает

множественность интерпретаций текста, множественность смыслов при фикси-

рованной фабуле: «бесцветные» слои знаков есть просто свернутые цветные

орграфы Gv

(). Декогеренцию или операцию локализации активности множества значе-

ний произвольного теста до одного значения обозначим De(Gv

()). Рекоге-

Page 21: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

20

ренцию или обратную операцию делокализации активности значения обозна-

чим Re(Gv

()). Данная операция приводит к когерентной активности множе-

ства значений теста. Обе операции являются важнейшими собственными функ-

циями знаниевой среды (воплощенными операторами свертывания и разверты-

вания) и имеют множество механизмов реализации. Пусть e – операция су-

перпозиции активностей множеств значений, тогда можем записать

De(Gv()) = e(); Re() = e(Gv()) e e(Fr(Gv

())), (1)

где e – активность, Fr(Gv()) – некоторый фрагмент конуса детализации (мо-

жет быть пустым). Декогеренция является результатом решения некоторой

специфической задачи различения. В результате рекогеренции активными ста-

новятся все значения конуса обобщения и, возможно, какая-то часть конуса де-

тализации.

Есть значительная разница в двух одинаковых по знакам сообщениях: <a,

b, c,…> = <’a’,‘b’,’c’,…> и <a, b, c,…> <a?’a’, b?‘b’,c?’c’,…>. В первом случае

сообщение содержит знаки без указания тестов, во втором случае знаки явля-

ются значениями известных тестов. Ясно, что второй вариант значительно

упрощает интерпретацию сообщения. Если сообщение содержит знаки, симво-

лы без указания тестов, то наблюдатель должен ассоциировать знаки с опреде-

ленными тестами и это будет первым шагом рекогеренции (преднастройка,

прайминг):

‘a’ Re(‘a’) = (‘a’ ,) Re(). (2)

Ясно, что операция (‘a’ ,) дает неоднозначный результат, что может

существенно сказаться на интерпретации сообщения. Большую роль в

выполнении данной операции играет прайминг, основанный на тематической

когерентности. Если операцию идентификации выполнить не удается, то стано-

вится невозможной дальнейшая рекогеренция. Приведем простейшие наброски

взаимосвязанной рекогеренции сообщения, текста:

Re(<a, b, c,…>) = Re(a) e Re(b) e Re(c) e...

Re(<’a’,‘b’,’c’,…>) = Re(’a’) e Re(‘b’) e Re(’c’) e... (3)

Выражения (3) описывают порождение множества набросков сообщения (по-

рождение сверхизбыточности, сверхразнообразия или «души»). Причем все

наброски активны одновременно (имеет место суперпозиция активностей). Со-

единяясь в текст, слова-символы рождают общий смысл сообщения, который

нельзя свести к множеству смыслов, заложенных в элементах текста в отдель-

ности (свойство эмерджентности синергетических систем). Текст, таким обра-

зом, в процессе его восприятия теряет свою стабильность, точнее он постоянно

«мерцает», вибрирует на множестве набросков текста.

У отправителя сообщения (автора текста, фильма, говорящего) и получа-

теля (читателя, зрителя, слушателя), как правило, разные контексты K=<(Z),

{G()}> (множества орграфов значений {G()}, когнитивные базы прецедентов

, задачи Z). Чужая система координат непознаваема, потому что построена на

другой картине мира. Пример декогеренции отправляемого сообщения показан

Page 22: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

21

на рис. 2.

Рис. 2 – Формиро-

вание сообщения <a, b,

c,…> на основе банка те-

стов A

Рис. 2 демонстрирует разные способы сворачивания контекста («облака»

значений) в одно значение: протекающее в виде концентрического ансамбля

скорлуп Мандельброта на древесном графе Кейли (ДГК) и в виде ансамблей

стримеров на ДГК. Подобные механизмы действуют и при рекогеренции сооб-

щения.

В общем случае, под символами a, b, c,… можно понимать любые фраг-

менты текста: слова, предложения, абзацы, разделы. При переходе к фрагмен-

там текста орграф значений теста заменяется орграфом набросков образа [2].

Это позволяет обрабатывать тексты очень быстро, кластерно, ухватывая смысл

блоками, но при желании и устраивая подробный разбор фрагментов. На рис. 3

показана рекогеренция фраз/фрагментов мыслеобраза <d, e, f,…>, которая в си-

лу масштабируемости осуществляется по тому же принципу. Исходный текст

выступает как единичный набросок метатекста («текстов в голове»).

Рис. 3 – Рекоге-

ренция фраз, фраг-

ментов мыслеобраза

<d, e, f,…>

Заключение. При дискурсивном развертывании символа образуется мо-

дель-интерпретация. Совокупность интерпретационных моделей составляет

основу метатекста. В рамках ППО метатекст формируют масштабируемые опе-

раторы свертывания, развертывания, ассоциирования и воображения, функцио-

нирующие на основе орграфов значений, набросков, авто/гетеро-

ассоциативных моделей знаний [2]. Метатекст и операторы ППО позволяют ре-

ализовать высокоуровневый язык запросов к базе текстов [3], в частности, к

электронным медицинским картам и картам учащихся [2]. Список литературы

1. Чернявская В. Е. Лингвистика текста. Поликодовость. Интертекстуальность.

Интердискурсивность / В. Е. Чернявская. – М. : URSS, 2009. – 248 с.

2. Прокопчук Ю.А. Парадигма предельных обобщений: модели когнитивных

архитектур и процессов. - Saarbrucken, Deutschland: LAP LAMBERT Academic Pub-

lishing, 2014. – 204 c. ISBN 978-3-659-66571-4.

3. Прокопчук Ю.О. Высокоуровневый язык запросов к базе данных на основе

«коннектома» когнитивной системы / Ю.О. Прокопчук // Інтелектуальні системи та

прикладна лінгвістика : матеріали IV Всеукраїнської науково-практичної конференції

(Харків, 16 квітня 2015 р.) – Харків: НТУ "ХПІ", 2015. – С. 54-56.

Page 23: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

22

СОЗДАНИЕ КОРПУСА ТЕКСТОВ ИЗ ИНТЕРНЕТА

ДОСТУПНЫМИ СРЕДСТВАМИ

Данилевич С.Б. Харьковский гуманитарный университет «Народная украинская академия»

г. Харьков, ул. Лермонтовская, 27, тел. 716-44-02, e-mail:[email protected]

Важнейшим каналом получения информации являются телекоммуника-

ционные сети, в том числе Интернет. Печатные источники значительно усту-

пают ему и в оперативности и полноте. Использование информационных тех-

нологий сделали возможной обработку больших массивов текстов, представ-

ленных в Интернет, который можно считать огромным текстовым корпусом.

Привлечение методов корпусной лингвистики активно используется в

обучении иностранным языкам, переводоведении, преподавании перевода, для

повышения эффективности аналитической обработки научной информации,

представленной в виде корпуса распределенных текстовых документов, распо-

ложенных на различных Web-ресурсах. В то же время для представителей лю-

бой специальности требуется постоянное расширение кругозора, получение но-

вых сведений. Поэтому знакомство с методами корпусной лингвистики может

помочь анализировать тексты по выбранной тематике, в том числе и на незна-

комых языках.

Для анализа больших объемов информации с целью выявить закономер-

ностей, тенденций, шаблонов и взаимосвязей, профессионалами применяются

методы Text Mining и Data Mining. Однако качественная Data Mining-

программа может стоить достаточно дорого, быть относительно сложной и уз-

конаправленной. При этом следует учитывать, что извлечение полезных сведе-

ний невозможно без понимания сути данных, поэтому применение методов

Data Mining пока не может полностью заменить аналитика.

Построить свой корпус по выбранной тематике позволяет свободно рас-

пространяемая и относительно простая программа TextSTAT. Программа

TextSTAT читает текстовые файлы (в разных кодировках) и HTML-файлы

непосредственно из Интернета с выбранных сайтов на английском, немецком,

голландском, португальском, испанском, галисийском (официальном языке ис-

панской Галисии), французском, итальянском, финском, польском, чешском

языках и переносит их в программу, убирая HTML-теги. На массиве данных

текстов, полученных из выбранных Web-сайтов, могут быть созданы: корпус

текстов данной тематики, частотный словарь, конкорданс.

Анализ полученного текстового корпуса удобно производить с помощью

корпус-менеджера AntConc. Он используется для получения словарных мини-

мумов, списков устойчивых сочетаний, выборок к тематическим группам слов.

Программа не требует установки, работает под MS Windows, Linux и Mac, рас-

познает свыше 90 кодировок. Есть ограничения на формат входных файлов

(htm, html, xml, txt). Результат сохраняется в txt-формате. Эти две программы

взаимно дополняют друг друга. Первая позволяет создать корпус текстов из

Page 24: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

23

Интернета, а вторая – список контекстов ключевого слова в исследуемом кор-

пусе и перейти для более детального анализа на Web-страницу, содержащую

это слово в данном контексте.

Чтобы воспользоваться полученной и очищенной от тэгов информацией

TextSTAT в AntConc, нужно сохранить корпус, переименовав файл с расшире-

нием .crp в txt-файл. После чего данный корпус можно открыть в AntConc.

AntConc обеспечивает показ списка всех словоупотреблений анализируе-

мого текста с ближайшим контекстом нужного количества слов (обычно 5 - 6)

перед искомым термином и после него, список n-грамм (последовательностей

из n слов) любой длины и частоты для данного корпуса. Есть возможность под-

ключить так называемый список «стоп-слов» - список из слов, которые не от-

носятся к терминологии. При поиске можно использовать специальные симво-

лы, используемые в регулярных выражениях.

Для поиска и извлечения информации из корпуса текстов можно восполь-

зоваться следующей процедурой: создать частотный словарь, проанализировать

его, отобрать значимые слова, составить конкорданс и исследовать контекст

употребления значимых слов.

Частотный словарь корпуса создается на вкладке Word List, что уже поз-

воляет получить большое количество информации об употреблении слов в кор-

пусе. Этот словарь можно после сохранения в текстовом формате и открыть в

Excel. Формат файла: 65001: Юникод UTF-8. На втором шаге Мастера импорта

необходимо установить Символом-разделителем знак табуляции. На третьем

шаге Мастера нужно указать Формат данных столбцов: текстовый. В результате

получится частотный словарь в офисной программе Excel, что позволяет вос-

пользоваться всеми возможностями MS Office, включая офисное программиро-

вание.

Знакомство с основами корпусной лингвистики и использование доступ-

ных программных средств кроме лингвистов полезно самым разным исследова-

телям – политологам, социологам и др.

Автоматическое создание и последующий анализ частотных словарей и

конкордансов, полученных на сформированном корпусе текстов, например, ма-

териалов конференций за несколько лет, позволяет выявить новые знания и

тенденции развития исследуемого направления [1], проанализировать интере-

суемые аспекты в текстах периодической печати в текстах из Интернет разных

стран. Анализ текстов используются для проведения информометрических ис-

следований в информационных ресурсах как предпосылки выделения из храни-

лищ данных новых знаний. Список литературы

1. Кузнецов А.Ю. Информометрические исследования докладов конференций

Крым / А.Ю. Кузнецов. – Библиотеки и информационные ресурсы в современном ми-

ре науки, культуры, образования и бизнеса: 18-я Междунар. конф. – Крым, 2011.

2. Зверева П.П. Современные направления лингвистических исследований

имиджа страны и её жителей / П.П. Зверев., О.И. Максименко. — Вестник МГОУ.

Серия «Лингвистика». - № 6. – 2013 г. – с. 25-29.

Page 25: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

24

ТЕНДЕНЦИИ РАЗВИТИЯ МЕТОДОВ ОБРАБОТКИ

МУЛЬТИМОДАЛЬНОЙ ИНФОРМАЦИИ

Канищева О.В.

Национальный технический университет

«Харьковский политехнический институт»

г. Харьков, ул. Пушкинская 79/2, тел. 707-64-60,

e-mail: [email protected]

С развитием социальных сетей, различных фото- видео хостингов в Ин-

тернете накопилось большое количество изображений и видео, а вместе с ними

и текстовой информации, которая сопровождает эти файлы. Примерами таких

ресурсов являются Instagram (www.instagram.com), Picasa

(picasaweb.google.com), Photobucket (s5.photobucket.com), Flickr

(www.flickr.com), Facebook и др.

Одной из первых задач в этой области стал релевантный поиск информа-

ции, который зависит от качества обработки изображений и текста. Например,

для Flickr ключевые слова или теги являются очень важными, именно с помо-

щью них и происходит поиск необходимого изображения.

Ключевым моментом в истории развития методов обработки мультиме-

дийной информации стало создание такого ресурса как ImageNet (www.image-

net.org). Он был создан в 2009 году и на данный момент составляет 14,197,122

изображений для 27 различных категорий.

Сейчас задачи обработки мультимодальной информации очень разнооб-

разны. Например, обработка изображения и разметка его текстовой информа-

цией - тегами или предложениями, описывающими это изображение. Для этого

используются методы Machine Learning, Deep Learning, основанные на много-

слойных нейронных сетях. Примеры таких программ можно увидеть на рисун-

ках 1, 2.

Рис. 1 Интерфейс программы MetaMind для автоматической генерации ключе-

вых слов на основе изображений (www.metamind.io)

Page 26: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

25

Рис. 2 Интерфейс программы Imagga для автоматической генерации ключевых

слов на основе изображений (imagga.com)

Другой задачей, связанной с обработкой мультимодальной информации,

является создание вопросно-ответной системы, которая на основе имеющихся

свойств изображений позволяет ответить на вопросы, связанные с изображени-

ем. Пример работы таких систем представлен на рисунке 3.

Question: How many chairs in the

kitchen?

Answer: Four

Question: What is the color of this

ball?

Answer: Red

Рис. 3 Примеры работы программы вопросно-ответной системы, основанной на

обработке визуальной и текстовой информации

Обработка мультимодальной информации не ограничивается только изоб-

ражениями и текстом. В качестве объекта исследования может использоваться

видео. Задача программного обеспечения в таком случае - определить объекты,

которые встречаются в видео и провести текстовую разметку или отдельными

словами и словосочетаниями, или целыми предложениями.

В рамках решения задачи разметки изображения тегами, возникают другие

сопутствующие этому процессу подзадачи. Например, перевод тегов с англий-

ского языка на другие. Надо отметить, что подобные программы в настоящее

время в основном работают с английским языком (так как именно для англий-

ского языка имеется большое количество размеченных данных), но сейчас

намечается тенденция перевода ключевых слов и текстовой информации изоб-

ражений на другие языки. Примеры таких реализаций приведены на рисунке 4.

Page 27: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

26

Рис. 4 Пример работы программы перевода ключевых слов

на другие языки

При ближайшем рассмотрении этих переводных ключевых слов, можно

увидеть, что часть слов и словосочетаний переведено неправильно, так как пе-

ревод тегов реализован простым частотным методом.

В основном для решения рассмотренных выше задач используют методы

Deep Learning, основанные на использовании нейронных сетей. Понятие Deep

Learning возникло относительно недавно, в 2000 году. Сейчас этот подход ис-

пользуют активно такие компании как Google, Microsoft и другие софтверные

фирмы, которые обрабатывают изображения, видео и текст.

Еще одной задачей, связанной с обработкой изображений, является распо-

знавание текста на картинках/фото. Пример такой программы представлен на

рисунке 5.

Рис. 5 Интерфейс программы распознавания состава продуктов компании

Sugarwise (aboutsugarwise.com)

Достаточно сложной и неоднозначной является задача определения эмо-

ций, которые присутствуют на изображении. Распознавание эмоций человека

осложняется тем, что не всегда по его лицу можно определить какие эмоции он

в настоящий момент испытывает (Рис. 6, 7). Бывает так, что на изображении

нет людей, но есть красивый пейзаж или туристическая достопримечатель-

Page 28: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

27

ность, которая вызывает те или иные эмоции у человека и их также надо распо-

знать.

Рис. 6 Microsoft Project Oxford. Emotion API

(www.projectoxford.ai/emotion)

Рис. 7 Google Cloud Vision API (cloud.google.com/vision)

Конечно все эти программы пока находятся на начальных стадиях и тре-

буют дальнейшего улучшения и доработки, но полученные результаты позво-

ляют оптимистично смотреть в будущее этой научной области.

Необходимо отметить, что развитие направления обработки мультимедий-

ной информации достаточно интенсивно развивается, и в настоящее время про-

водится много конференций, семинаров и тренингов, связанных с этой обла-

стью. Специалисты по обработке изображений (Vision Processing) и естествен-

ного языка (Natural Language Processing) объединяют свои знания и усилия для

создания методов и моделей, которые позволили бы улучшить уже существу-

ющие.

Page 29: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

28

РОЛЬ КОНЦЕПТУАЛЬНЫХ ИНВАРИАНТОВ ТЕКСТОВ В

СОВЕРШЕНСТВОВАНИИ СИСТЕМЫ АВТОМАТИЧЕСКОГО

РЕФЕРИРОВАНИЯ

Лазаренко О.В.

Харьковский гуманитарный университет «Народная украинская академия»

г. Харьков, ул. Лермонтовская, 27, тел. 050-300-82-83

e-mail: [email protected]

Более полувека во всем мире осуществляются попытки разработать си-

стему автоматического реферирования (АР). Желание людей научить компью-

тер реферировать тексты можно понять. Слишком много информации сегодня

циркулирует в мире, найти ее и всю просмотреть не под силу никому из нас.

Вместе с тем потребность в информации существует у огромного числа специ-

алистов, занятых в различных сферах деятельности. Удовлетворить существу-

ющую потребность в информации в значительной степени помогают рефераты.

Но они по-прежнему составляются человеком. И лишь до некоторой степени, с

большими оговорками ее можно доверить компьютеру. Поэтому разработка си-

стем автоматического реферирования не теряет своей актуальности и сегодня.

Наша работа над созданием интеллектуальной системы автоматического

реферирования вышла на этап анализа глубинного смысла текста для интеллек-

туализации разрабатываемой нами системы. Двигаясь от изучения реферата к

вопросам смыслового анализа первичного текста [1, 2] и обосновав необходи-

мость построения текстовой базы для полноценного смыслового наполнения

модели реферата, мы вышли на понятие ситуационной модели [3]. Поскольку

реферат играет роль информационной модели первичного документа, первич-

ный документ и его реферат должны быть подобны в семантическом отноше-

нии, так как содержательным прообразом для них служит одна и та же реальная

действительность, конкретная ситуация. Поэтому разработка ситуационной мо-

дели позволяет обеспечить семантическое подобие текста и синтезируемого

реферата данного текста.

Кроме этого мы пришли к выводу о том, что ситуационная модель явля-

ется достаточно эффективным инструментом обеспечения универсализации ал-

горитма смыслового анализа текстов различной тематики и различных пред-

метных областей.

Эта универсализация достигается за счет того, что ситуационные модели

позволяют выделить характеристики определенной ситуации. Набор наиболее

важных признаков, выделенных на основе характеристик ситуаций, образуют

инвариантную репрезентацию ситуаций, в которой возможны существенные

упущения в сравнении с конкретной ситуацией, описываемой в конкретном

тексте [4], что делает ее универсальной для схожих ситуаций [5].

Попытка разработать процедуру формирования инвариантной репрезен-

тации ситуаций из текстов схожей тематики имеет под собой вполне реальную

основу – именно в таком виде информация хранится в мозге, что позволяет ему

Page 30: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

29

распознавать новую информацию, содержащую в себе схожие смысловые со-

ставляющие [6].

Логично предположить, что инвариантная репрезентация ситуаций

включает в себя, в том числе, признаки, извлекаемые из заголовков, поскольку

заголовки рассматриваются нами как концептуальные инварианты текстов и

используются для создания текстовых баз и, соответственно, ситуационных

моделей как накопителей текстовых баз из текстов определенной тематики. По-

этому мы уделяем большое внимание изучению смысловой структуры заголов-

ков и на каждом новом этапе исследований находим новые подтверждения

необходимости использования их для повышения качества смыслового анализа

текстов и построения рефератов, семантически адекватных реферируемым тек-

стам.

В работе [5] дано сравнительное описание двух алгоритмов синтеза рефе-

рата на разных этапах наших исследований.

Так, алгоритм анализа заголовка в первой версии системы «АвтоРеферат»

выглядел следующим образом:

В соответствии с разработанной моделью [1] заголовок разбивается на

составные элементы.

1. Выделяются выражения с предлогом в начале заголовка (если такие

есть). Для этого используется составленный в процессе анализа заголовков сло-

варь выражений, встречающихся в начале заголовка.

2. Определяется существительное в соответствующем падеже (родитель-

ном, дательном или предложном, если есть соотвествующее выражение с пред-

логами, или именительном (если такого выражения нет) и стоящие слева от не-

го слова в таком же падеже. Выделенные слова соответствуют смысловому ас-

пекту в модели заголовка со значением результат.

3. Ищется следующее существительное в родительном падеже и предше-

ствующие ему слова в таком же падеже. Выделенные слова соответствуют

смысловому аспекту в модели заголовка со значением объект.

Аналогичным образом выделяются в заголовке все имеющиеся в нем

смысловые аспекты, и на их основе выбираются необходимые для синтеза ре-

ферата актантные цепочки из текста.

Конечно, встречаются заголовки, не отражающие корректно смысл ста-

тьи. Но в таких случаях, благодаря разработанной модели правильного заголов-

ка, мы имеем возможность дополнить недостающие для реферата аспекты, ис-

пользуя информацию из текстовых баз.

Алгоритм анализа заголовка во второй версии системы «АвтоРеферат»

представляет собой процедуру заполнения реферативного предложения соот-

ветствующими актантами и предикатам с использованием текстовых баз.

Алгоритм синтеза реферата работает в двух блоках: условно блок 1

можно назвать – «поиск влево», блок 2 – «поиск вправо», то есть в одном блоке

анализируются слова, стоящие слева от выбранного слова, а в другом блоке –

слова, стоящие справа. По результатам этого анализа формируется актант. Да-

лее все последующие актанты добавляются справа от предыдущих. В рефера-

Page 31: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

30

тивных текстах предложения могут включать в себя различное количество ак-

тантов (от одного до четырех). На этом заканчивается построение актантной

цепочки для первого предложения реферата.

На следующем этапе завершается построение всего реферативного пред-

ложения. Главной задачей этого этапа является выбор предикативного ядра. В

первой версии системы выбор предиката осуществлялся автоматически из сло-

варя, в который вошли глаголы, не несущие важной семантической информа-

ции и являющиеся взаимозаменяемыми, без соотнесения с реальными значени-

ями по тексту оригинала. Для проверки правильности синтеза реферативных

предложений, что являлось главной задачей первой версии системы автомати-

ческого реферирования «АвтоРеферат», это было допустимо, поскольку семан-

тический блок не был еще разработан. Но для полноценной семантической об-

работки необходим точный выбор предиката. При оформлении окончательного

варианта реферативных конструкций с помощью предикатов из других словар-

ных групп, действует совсем другой механизм, который предполагает поиск

необходимого слова в исходном тексте, и только после этого можно использо-

вать его в реферативной конструкции. При использовании текстовой базы эта

задача была решена.

На нынешнем этапе совершенствования системы «АвтоРеферат» мы осо-

бое внимание уделяем разработке процедуры формирования инвариантной ре-

презентации ситуаций с использованием заголовков. Это позволит унифициро-

вать инвариантные репрезентации схожих ситуаций, что, в свою очередь, мо-

жет обеспечить более качественный глубинный анализ текста.

Не стоит думать, что нам удалось разрешить все вопросы автоматизации

процесса реферирования. Предстоит большая кропотливая работа по совершен-

ствованию разработанного нами на данном этапе исследований алгоритма

смыслового анализа текста. И кто знает, какие сюрпризы ждут нас на этом пу-

ти. Как остроумно заметили работники одной из исследовательских лаборато-

рий:

Теория – это когда вы знаете все, но ничего не работает.

Практика – это когда все работает, но никто не знает почему.

В нашей лаборатории теория и практика соединились:

Ничего не работает и никто не знает почему.

Наша задача состоит в том, чтобы все работало, и мы знали почему.

Подводя итог сказанному, можно сделать следующие выводы:

1. Разработка интеллектуальных систем автоматического реферирования

с опорой на знания все еще, к сожалению, остается одной из задач, ждущих

своего решения.

2. Предложенный нами подход к созданию системы автоматического ре-

ферирования находится в развитии, претерпевает изменения, которые позволя-

ют постоянно совершенствовать ранее разработанную нами версию системы

«АвтоРеферат».

3. Одним из важных объектов анализа научных статей является заголо-

вок, использующийся нами на всех этапах смыслового анализа текста и синтеза

реферата в системе автоматического реферирования.

Page 32: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

31

Список литературы

1. Лазаренко О.В. Моделювання процесу узагальнення в системі автоматично-

го реферування / О.В. Лазаренко, А.А. Яковенко. – Х.: Изд-во НУА, 2007. – 136 с.

2. Лазаренко О.В. Моделювання семантичних зв’язків «Текст-Реферат» в сис-

темах автоматичного реферування / О.В. Лазаренко, Д.І. Панченко. – Х.: Изд-во НУА,

2014. – 176 с.

3. Лазаренко О.В. Разработка интеллектуальной системы автоматического ре-

ферирования с использованием текстовых баз и ситуационных моделей / О.В. Лазаре-

нко // MegaLing’2013. Горизонти прикладної лінгвістики та лінгвістичних техноло-

гій : доп. міжнар. наук. конф., Україна, Київ, 20-23 листопаду 2013 г.

4. Лазаренко О.В. Моделирование процесса понимания текста с использовани-

ем инвариантной репрезентации ситуаций в системе автореферирования / О.В. Лаза-

ренко // Бионика интеллекта: науч.-техн. журнал. – Харьков : ХНУРЭ, 2014. – Вип.

2(83). – С. 15-19.

5. Буряк Е.Ю., Лазаренко О.В., Панченко Д.И. Разработка алгоритма смыслово-

го анализа текста для синтеза реферата в системе автоматического реферирования / Е.Ю. Буряк, О.В. Лазаренко, Д.И. Панченко / Бионика интеллекта: науч.-техн.

журнал. – Харьков : ХНУРЭ, 2015. – Вип. 2 (85) – С. 127 – 130.

6. Хокинс Дж. Об интеллекте / Дж., Хокинс, С. Блейксли. – М. : Издательский

дом "Вильямс", 2007. – 240 с.

Page 33: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

32

КОМП’ЮТЕРНІ ЛЕКСИКОГРАФІЧНІ СИСТЕМИ ГРАМАТИЧНОГО

ТИПУ ДЛЯ МОВ АНАЛІТИКО-СИНТЕТИЧНОГО ЛАДУ

(НА ПРИКЛАДІ НІМЕЦЬКОЇ МОВИ)

Любченко Т.П.

Український мовно-інформаційний фонд НАН України,

м. Київ, просп. Голосіївський,3, 044-525-61-85, e-mail: [email protected]

Граматичні лексикографічні системи (ГЛС) розробляються в Українському

мовно-інформаційному фонді НАН України для різних мов у межах проекту зі

створення Національної словникової бази України.

У праці подається опис концептуальної моделі словозмінної системи мови

із флективним та аналітичним компонентами у словозміні, а також структури

ГЛС. Головне призначення ГЛС – використання їх в системах автоматичного

опрацювання текстів, а саме для визначення граматичного статусу текстових

слів, їхньої вихідної форми та синтезування словозмінних форм. Виклад мате-

ріалу здійснюється на прикладі німецької мови.

Концептуальну основу наших розробок становить теорія лексикографічних

систем [1]. Досвід застосування цієї теорії показав, що вона уможливлює побу-

дову з єдиних позицій систем граматичного типу не тільки для мов із флектив-

ним словозмінним елементом [2, 3], але й для таких, що мають у словозміні

флективний та аналітичний елементи [3]. Концептуальні моделі, покладені в

основу створюваних ГЛС, враховують широкий спектр параметрів, що забезпе-

чує гнучкість цих систем і уможливлює виконання основних їхніх функцій,

спрямованих на автоматичне опрацювання природної мови. Також створювані

ГЛС можуть бути використані для здійснення більш глибоких досліджень сло-

возмінних систем мов.

На початковому етапі створення ГЛС здійснюється моделювання словоз-

мінних процесів, будується парадигматична класифікація лексики природної

мови. Словниковий склад німецької мови поділяється на такі класи слів – імен-

ники, ад’єктиви, дієслова, артиклі, займенники та незмінювані слова. Деякі з

цих класів слів за своїми класифікаційними ознаками розподіляються на кілька

підкласів. Отримані у такий спосіб класи слів називаємо граматичними. У ме-

жах граматичних класів визначаються словозмінні класи, які ми називаємо па-

радигматичними.

У роботі прийнято означення парадигматичного класу, за яким в один клас

об’єднуються лексеми з однаковими правилами утворення їхньої словозмінної

парадигми щодо кількості словозмінних форм у парадигмі, набору квазіфлек-

сій, а також моделей утворення відповідних аналітичних форм (йдеться про мо-

ву з аналітичним словозмінним елементом).

Визначення парадигматичних класів у межах певного граматичного класу

слів зумовлюється тим, що словозмінні процеси для слів різних граматичних

класів характеризуються своїми відповідними словозмінними параметрами

Page 34: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

33

(так, словозмінні параметри для класу дієслів, класу ад’єктивів та класу імен-

ників не є однаковими).

Парадигматичний клас формально визначаємо наступним чином. Для мови

з флективним компонентом словозміни довільну лексему x (з урахуванням її

словозмінних варіантів) розглядаємо як таку, що складається з незмінюваної та

змінюваної частин: ),(*)( xfxcx (1)

де )(xc – частина лексеми х, яка в усіх словозмінних формах залишається не-

змінною (квазіоснова), )(xf – її змінювана складова (квазіфлексія), символом

«*» позначено операцію конкатенації. Змінювана та незмінна складові лексеми

можуть мати як нульову довжину, так і повністю збігатися з лексемою. Слово-

зміна парадигма лексеми x репрезентується у вигляді:

)},({*)()( xfxcx j (2)

де )(,...,2,1,0),(ij

Tnjxf – змінювані частини слова у відповідних граматичних

формах, причому в деяких з них може існувати більше однієї словоформи, тоб-

то у загальному випадку:

},{)( fl

jjxf

(3)

де l=l(j)= 0,1,2,...ν – кратність граматичної форми.

Для розбиття множини слів певного граматичного класу на парадигматич-

ні класи будуються відношення парадигматизації i, які визначаються наступ-

ним чином: kkkk

iiFffxcxfxcxxxPxx ][,*)(,*)(:, 22112121 , (4)

де kF][ – набір квазіфлексій, який є характерним для певної групи слів, які ма-

ють у відповідних граматичних значеннях певного парадигматичного типу од-

накові змінювані складові. Відношення парадигматизації є відношенням екві-

валентності, оскільки воно має властивості рефлексивності, симетричності та

транзитивності. Фактор-множина ii

P / складає множину парадигматичних

класів {j

} граматичного класу Pi (парадигматичного типу i

T ): n

jji

P1

.

До одного парадигматичного класу належать слова, що мають однакові на-

бори квазіфлексій для відповідних граматичних форм, а відрізняються один від

одного лише незмінною складовою )(xc . Слова з одного класу еквівалентності,

визначеного таким чином, мають відповідно й однакові правила словозміни.

Для автоматичного отримання повної парадигми за її початковою формою

0x

будується оператор парадигматизації:

)},(*)(),...,(*)(),(*)({

)}(),...,(),({*)(][:

10

100

xfxcxfxcxfxc

xfxfxfxcxx

n

n

(5)

дія якого визначається відношенням ),( 21 xx .

Оператор парадигматизації для кожного парадигматичного класу визнача-

ється незалежно:

Page 35: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

34

)()()(ijk

TWPWWx kj

i ij

k

Fxcx ][*)(:0 , (6)

де kj

i – оператор парадигматизації, що діє в межах парадигматичного класу Πk;

індекси i= 1,2,…,N; j=1,2,…,pj; k=1,2,…,nj використовуються відповідно для па-

радигматичних типів, граматичних класів та парадигматичних класів; N – кіль-

кість парадигматичних типів; pj – кількість граматичних класів, які мають пара-

дигматичний тип Ti; nj – кількість парадигматичних класів у граматичному

класі j

P ; k

ijF][ – множина наборів квазіфлексій слів парадиграматичного класу

Πk.

Оператор парадигматизації, який діє на множині слів кожного граматично-

го класу, визначається через оператори парадигматизації kj

i , що діють у межах

своїх конкретних парадигматичних класів Πk:

j

kn

kk

j

i

j

ix

1

),( , де функція

)(,0

)(,1);(

k

k

kWx

Wxx , (7)

k, j, i – індекси відповідно парадигматичного класу, граматичного класу і пара-

дигматичного типу.

Оператор парадигматизації H відображає лексему x на її повну парадигму

[x]. Алгоритмічна реалізація оператора H-1

здійснює процес лематизації: цей

оператор забезпечує побудову канонічної форми слова за будь-якою її слово-

формою.

Викладена формальна модель становить концептуальну основу для

комп’ютерного моделювання та реалізації парадигматичних відношень у мові з

флективним словозмінним компонентом.

Поняття парадигматичного класу, формально визначене формулами (1)–

(7), узагальнимо на випадок флективної мови з елементами аналітизму (тобто

такої, в якій певним граматичним значенням відповідають аналітичні форми).

Аналітична форма (АФ) у загальному випадку може складатися з двох або бі-

льше компонентів, тобто x = x1 + x2 + … + xQ. При цьому кожний з компонентів

АФ xq, де 1≤ q ≤ Q, може бути змінюваним або незмінним. У такому випадку

аналітична форма репрезентується у вигляді:

Q

qqq

xfxcx1

))()(( , (8)

де q = 1, 2, …, Q – індекс компонента АФ , Q – кількість компонентів АФ. Якщо

Q=1, маємо один компонент, тобто x репрезентується за формулою (1). Складо-

ві елементи компонентів АФ такі: )(q

xc – квазіоснова і )(q

xf – квазіфлексія

компонента АФ qx. Квазіоснова )(

qxc може набувати таких значень: )(

qxc =0

(пустий рядок) у випадку суплетивних словозмінних форм; )(q

xc = q

x , якщо

qx – незмінюване слово; )(

qxc =

qx – )(

qxf . Квазіфлексія )(

qxf =0, якщо компо-

нент q

x є незмінюваним; )(q

xf =q

x , якщо всі словозмінні форми суплетивні; в

інших випадках квазіфлексією є деяка послідовність букв, що збігається з кін-

цевою частиною слова q

x .

Page 36: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

35

Словозмінна парадигма відповідно до репрезентації (8) має вигляд:

},)}({*)({)(1

Q

qqjq

xfxcx (9)

де )(,...,2,1,0),(iqj

Tnjxf – квазіфлексії компонента q

x у відповідних граматич-

них станах. При цьому будь-який граматичний стан може виражатися більше

ніж однією формою (аналітичною або синтетичною).

Відношення парадигматизації i за наявності аналітичних форм визнача-

ються так. Два слова (що мають у словозмінній парадигмі аналітичні форми)

належать до одного парадигматичного класу, якщо аналітичні форми будують-

ся за однаковими схемами (мають ті самі допоміжні складові, а розрізняються

лише смисловим компонентом) і відповідні компоненти АФ мають однакові

набори квазіфлексій:

Q

qq

xx1

11,

i

Q

qq

Pxx 1

22:

:21 xxi

Q

q

k

qqfxcx

1

11 )( , ,)(1

22

Q

q

k

qqfxcx k

q

k

qFf ][ (10)

де k

qF][ – набори квазіфлексій слів-компонентів АФ у відповідних граматичних

значеннях. За відношенням парадигматизації отримуємо фактор-множину

iiP / , яка є множиною парадигматичних класів {

j } граматичного класу Pi.

Таким чином, у загальному випадку, коли словозмінна парадигма може

складатися як з синтетичних, так і з аналітичних форм, до визначення парадиг-

матичного класу додається ознака однаковості схем побудови аналітичних

форм: АФ для відповідних граматичних значень будуються з однакових допо-

міжних складових (які, взагалі кажучи, можуть бути змінюваними); усі словоз-

мінні складові АФ мають однакові набори квазіфлексій для відповідних грама-

тичних форм.

Створена словозмінна класифікація німецької мови охоплює іменники,

ад'єктиви та дієслова. Визначено 480 парадигматичних класів (ПК), зокрема 95

ПК іменників, 6 – ад'єктивів, 365 – класів дієслів. Обсяг побудованої бази ГЛС

німецької мови становить понад 52 тис. одиниць.

Структура даних комп’ютерної граматичної системи німецької мови ре-

презентується реляційною моделлю, яка містить кілька певних чином

пов’язаних між собою таблиць.

Для супроводу (перегляду та редагування) ЛБД німецької мови розроблено

і створено спеціальну програму, яка працює під управлінням операційної сис-

теми Microsoft Windows. Програма реалізує наступні функції: перегляд реєстру;

отримання повної словозмінної парадигми обраного з реєстру слова та його ос-

новних граматичних характеристик; виведення і перегляд частини реєстру (за

частиною мови, за номером парадигматичного класу, за довільним запитом (на

мові SQL); видача кількісних характеристик відносно наповнення парадигма-

тичних класів, частин мови, омонімів тощо; пошук слів у реєстрі; побудова

прямого або інверсійного словника (встановлення прямого або інверсійного со-

ртування в реєстрі); введення нових та редагування вже наявних реєстрових

Page 37: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

36

слів, видалення слів із реєстру; введення, редагування, видалення парадигмати-

чних класів (задавання їхніх диференційних характеристик; введення та редагу-

вання квазіфлексій – для флективних мов, типів процедур утворення аналітич-

них форм).

У роботі використано словники та джерела з граматики німецької мови [4-

8]. Список літератури

1. Широков В. А. Інформаційна теорія лексикографічних систем / В. А. Широ-

ков.— К. : Довіра, 1998.— 331 с.

2. Шевченко І. В. Моделі та алгоритмічно-програмне забезпечення лексико-

графічних систем: Дис... канд. техн. наук: 05.13.06 / І. В. Шевченко; НАН України;

Український мовно-інформаційний фонд. - К., 2000. – 167 с.

3. Любченко Т. П. Лексикографічні системи граматичного типу та їх застосуван-

ня в засобах автоматизованого опрацювання природної мови. Дис… канд. техн. наук:

10.02.21 / Т. П. Любченко; НАН України, Український мовно-інформаційний фонд. –

К., 2011. – 294 с.

4. Русско-немецкий словарь (основной): Ок. 53000 слов. / Под ред. Лейна. – Рус-

ский язык, 1989. – 736 с.

5. G. Wahrig. Deutsches Wörterbuch. Wissen Media Verlag GmbH, Gütersloch/

München 2002 (vormals Bertelsmann Lexikon Verlag GmbH). – 1451 p.

6. Helbig G. Deutsche Grammatik / G. Helbig, J. Buscha. – VEB Verlag Enzyklopädie

Leipzig, 1979. – 629 p.

7. Deutsche Wörterbücher und Grammatik [Електронний ресурс]. – Режим досту-

пу : http://www.canoo.net

8. Das Digitale Wörterbuch der deutschen Sprache [Електронний ресурс]. – Режим

доступу : http://www.dwds.de

Page 38: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

37

МОДЕЛИ ИЗВЛЕЧЕНИЯ ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ В

СИСТЕМЕ ФОРМИРОВАНИЯ БИБЛИОГРАФИЧЕСКИХ ОПИСАНИЙ

ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ НАУЧНОЙ БИБЛИОТЕКИ

Аджит Пратап Сингх Гаутам

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60,

e-mail: [email protected]

Сегодня научные библиотеки работают над созданием электронного фон-

да документов по следующим направлениям: оцифровывание документов с це-

лью сохранения и доступа к изданиям, составляющим историко-культурную

ценность; оцифровывание в рамках создания отдельных тематических проек-

тов; запросам пользователей и внешнее поступление электронных документов.

Наличие электронного фонда библиотеки позволяет предоставлять услуги

пользователям не только документационного, но и фактографического поиска,

для чего осуществляется разработка фактографических баз данных, содержа-

щих информацию по персоналиям, датам, географическим наименованиям [1].

Задача извлечения фактов, при работе с библиографическими текстами

электронного фонда библиотеки, была реализована для извлечения даты, места

рождения и деятельности персоналии. В модели были определены три семанти-

ческих падежа, выражающих семантическую информацию, соответствующую

поставленной задаче: темпоралис – временная характеристика события, позво-

ляющая определить дату рождения человека; локатив – падеж, характеризую-

щий местонахождение, или состояние объекта (определяет место рождения че-

ловека); фактитив – падеж, характеризующий созданный предмет или суще-

ство (в данном случае определяет сферу и продукт деятельности человека) [2].

В процессе реализации модели был определен набор глаголов, требую-

щих конкретного семантического падежа членов предложения. Для этого с ис-

пользованием толковых и переводных словарей были проанализированы около

130 биографий ученых и деятелей искусств ресурса Wikipedia.org. Были выде-

лены наиболее распространенные в данных типах текстов глаголы английского

языка, выражающие предикат требуемого действия. Каждый неправильный

глагол представлен в базе данных во всех его формах (например, глагол write

имеет формы write-writes-wrote-written-writing), формы правильных глаголов

определяются алгоритмически. Количество и список глаголов может меняться в

зависимости от цели и объектов (фактов) поиска.

Осуществление детального анализа текстов биографий позволило опре-

делить дополнительные условия выражения семантических падежей, опреде-

ляющих дату, место и род занятий персоналии: семантический падеж темпора-

лис после глагола и предлога on требует даты в формате: месяц, число, год или

4-значное число после предлога in; семантический падеж локатив выражается

именем собственным (обычно графически выражаемым большой буквой), так

Page 39: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

38

как нас интересует населенный пункт, а не местоположение, как, например, in

mansion; семантический падеж фактитив допускает несколько вариантов вы-

ражения: значащее слово написано с большой буквы, слово или словосочетание

взято в скобки или оно является существительным.

Определение глагола, семантических и морфологических характеристик

существительных, построение предикатов отношения морфосемантических

признаков существительных предложения, определяющего факты даты, места

рождения и деятельности человека, представляют собой основные этапы разра-

ботанных алгоритмов: определения даты рождения, места рождения лица, рода

деятельности персоналии [3, 5]. Программа представляет собой веб-

приложение, анализирующее текст или список анализируемых текстовых фай-

лов. При нажатии кнопки checkname программа выделяет первые 2 слова с

большой буквы в первом предложении и выводит их на экран как возможное

имя и фамилию лица, о котором идет речь. Так как правила написания биогра-

фий, представляющих слабоформализованные тексты на естественном языке,

практически одинаковы, было определено, что первые 2 слова с большой бук-

вы, с вероятностью 99,5 %, определяют имя и фамилию персоналии, о которой

идет речь в данной библиографии. В случае, если выделенные данные не верны,

пользователь может сам вписать имя. Например, это может понадобиться в раз-

боре биографии Пабло Пикассо, имеющего полное имя Pablo Diego José Francis

code Paula Juan Nepomuceno María de los Remedios Cipriano de la Santísima

Trinidad Ruiz y Picasso [2, 4].

Информация о деятельности записывается последовательно, каждый факт

с нового абзаца. Факты располагаются в порядке значимости, то есть те, кото-

рые система определила, как более значимые – будут в начале списка деятель-

ности. Экспериментальная проверка, проведенная на 47 полнотекстовых биб-

лиографических текстах электронного фонда, показали правильность определе-

ния даты рождения – 97,9 % случаев, правильность определения места рожде-

ния – 95,7 % , деятельность персоналии – 89,4 %. Список литературы:

1. Ермаков А.Е. Автоматизация онтологического инжиниринга в системах из-

влечения знаний из текста / А.Е.Ермаков // Труды Международной конференции Диа-

лог 2008. – С.137.

2. Лингвотехнологии идентификации знаний в информационных системах :

монография / О. В. Канищева, Н. В. Шаронова. – Saarbrücken, Deutschland : LAP

LAMBERT Academic Publishing, 2013. – 173 с. – На рус. яз.

3. Бондаренко М. Ф. Мозгоподобные структуры: Справочное пособие. /

М. Ф. Бондаренко, Ю. П. Шабанов-Кушнаренко. Том первый. Под редакцией акад.

НАН Украины И.В. Сергиенко. – К.: Наукова думка, 2011. – 460 с.

4. Хайрова Н.Ф., Шаронова Н.В. Лингвистические технологии экстракции и

идентификации знаний // Тези доповідей Міжнародної науково-технічної конференції

"Інтелектуальні технології лінгвістичного аналізу" (м. Київ, 22-23 жовтня 2013 р.). –

К.: НАУ, 2013. – С. 7.

5. Павленко М.А. Анализ методов решения задачи извлечения информации из

текстов / М.А.Павленко // Системи обробки інформації. – 2013. – Т.1.– С.29.

Page 40: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

39

ОСОБЛИВОСТІ ПРЕДСТАВЛЕННЯ ЛЕКСИКОГРАФІЧНОГО

МАТЕРІАЛУ В ЦИФРОВОМУ СЕРЕДОВИЩІ

Білятинська І.М.

Український мовно-інформаційний фонд Національної академії наук України,

м. Київ, вул. Заболотного 148-а, +380939870631, e-mail: [email protected]

Словники завжди були та залишаються засобом накопичення та отриман-

ня лінгвістичної інформації, який повинен відображати сучасні тенденції в мо-

вознавстві, актуальні відомості науки та інших сфер діяльності людини із вра-

хуванням досвіду багатьох поколінь лексикографів. Стрімкий розвиток всіх га-

лузей людських зацікавлень зумовив зміну поглядів на традиційні словники,

висунувши до них ряд вимог: вони повинні вчасно оновлюватися відповідно до

змін, які відбуваються в науці та техніці, забезпечувати швидкий та зручний

доступ до лексикографічної інформації, гнучку систему пошуку, в тому числі і

за окремими параметрами. Задоволення цих вимог стало можливим завдяки ви-

никненню на базі традиційної лексикографії нового напряму – комп’ютерної

лексикографії, зумовленого прискореним розвитком інформаційних технологій.

Комп’ютерна лексикографія уможливила представлення лексикографіч-

ного матеріалу в цифровому середовищі, причому це представлення не обме-

жується формою словника: результатами роботи лексикографів можуть бути

складні інтегровані системи накопичення, подання, дослідження лексикографі-

чного матеріалу, віртуальні системи професійної взаємодії мовознавців, бази

лінгвістичних знань тощо.

Можливості сучасних комп’ютерів, розвиненість мов програмування та

платформ розробки дозволяють створити електронний словник, що надаватиме

користувачеві можливості здійснення складних вибірок, маніпуляцій із зовніш-

нім виглядом словникових статей, перегляду їх структури, відображенні стати-

стичних даних, та, навіть, при потребі вносити зміни до лексикографічного ма-

теріалу. Проте, виникає логічне питання: а чи завжди користувачеві потрібний

весь цей функціонал, і чи готовий він жертвувати ресурсами свого персональ-

ного комп’ютера (а складні системи зазвичай висувають ряд вимог до програм-

ного та апаратного забезпечення обчислювальної машини) заради функціоналу,

яким він навіть не користується? Звичайно що ні. Тому, на нашу думку, під час

проектування інформаційних систем представлення лексикографічного матері-

алу, в першу чергу, слід орієнтуватися на аудиторію, на яку розрахованих слов-

ник та цілей його розробки. Відповідно до цієї точки зору в Українському мов-

но-інформаційному фонді НАН України, останні роки з’явилася тенденція до

розробки систем двох типів:

1) системи представлення лексикографічного матеріалу орієнтовані на

широку аудиторію (вчителі, студенти, учні та всі, хто користується електрон-

ними словниками для отримання лексикографічного матеріалу);

2) системи підтримки технологічного процесу створення лексикографіч-

них продуктів різних типів, в тому числі і паперових словників.

Page 41: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

40

Ця типізація дозволяє сформулювати вимоги до програм обох типів. Роз-

глянемо їх більш детально.

Системи представлення лексикографічного матеріалу, орієнтовані на ши-

року аудиторію, повинні бути легкими та зручними у використанні, не потре-

бувати від користувачів спеціальних умінь та навичок роботи з комп’ютером,

використовувати відкриті стандарти для того, щоб бути доступними не залежно

від програмного та апаратного забезпечення пристрою, з якого здійснюється

доступ; працювати в різних операційних середовищах (Windows, Linux,

Android, iOS...). Важливо щоб такі застосунки були орієнтовані не тільки на

стаціонарні комп’ютери, а й на мобільні пристрої (планшети, смартфони), які

набувають все більшої популярності. Кінцевий програмний продукт користувач

повинен отримувати у вигляді завершеного додатку, в якому він може налаш-

товувати деякі специфічні для нього параметри, а всією інфраструктурою, логі-

кою програми, її розгортанням повинен керувати постачальник послуги. Інтер-

фейс такого додатку повинен бути простим, інтуїтивно зрозумілим та адаптува-

тися до різних типів екранів з різною роздільною здатністю. Системи повинні

підтримувати можливість обслуговування великої кількості користувачів.

Програми підтримки технологічного процесу створення лексикографіч-

них продуктів різних типів за визначенням є набагато складнішими об’єктами із

широкими функціональними можливостями. Вони, традиційно, мають широкий

функціонал щодо роботи з елементами відповідних лексикографічних систем

(додавання, вилучення, копіювання, внесення змін, фільтрування за низкою

критеріїв, пошук, друк) та ін. З метою контролю цілісності, робота користувачів

таких систем – а ними, зазвичай, виступають лексикографи-укладачі словни-

ків – повинна суворо регламентуватися правами доступу, які присвоюються ві-

дповідно до їх обов’язків.

Такі системи забезпечують роботу в наукових установах, тому передбача-

ється що працівники мають можливість пройти навчання, а в процесі роботи

забезпечуються підтримкою адміністратора бази даних. З цих причин системи

підтримки технологічного процесу створення лексикографічних продуктів мо-

жуть орієнтуватися на конкретні операційні системи, використовувати додатко-

ве програмне забезпечення. Часто такі застосунки можуть включати в себе та-

кож інструменти підтримки та реалізації лінгвістичних досліджень. Враховую-

чи ці особливості, в процесі проектування подібного програмного забезпечення

використовується досить широке коло інструментальних засобів, сторонніх бі-

бліотек, готових модулів, що спрощує процес розробки.

Звичайно, що запропонований поділ не є чітким і системи представлення

лексикографічного матеріалу, орієнтовані на широку аудиторію, можуть вклю-

чати в себе більш складний функціонал, накладати обмеження на апаратне чи

програмне забезпечення користувача, так само як і програми підтримки техно-

логічного процесу створення лексикографічних продуктів можуть базуватися

на відкритих стандартах. З огляду на викладене врахування запропонованих

особливостей програмних продуктів зазначених типів дозволить спроектувати

системи, які кращою мірою задовольнятимуть потреби цільової аудиторії, тим

самим забезпечуючи більш зручну роботу з лексикографічним матеріалом.

Page 42: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

41

ОПИСАНИЕ ОБЩЕЙ МОДЕЛИ ЗАГОЛОВКОВ С ПРЕДЛОГАМИ В

СИСТЕМЕ АВТОРЕФЕРИРОВАНИЯ

Буряк Е.Ю.

Харьковский гуманитарный университет «Народная украинская академия»

г. Харьков, ул. Лермонтовская 27, т. 099-228-75-22, e-mail: [email protected]

Панченко Д.И.

Харьковский гуманитарный университет «Народная украинская академия»

г. Харьков, ул. Лермонтовская 27, т. 050-816-01-51,

e-mail:[email protected]

В современном информационном мире человек имеет широкий доступ к

информации и знаниям, которые были накоплены человечеством за многие ве-

ка. Такая доступность ставит перед человеком следующую задачу – найти и

выбрать в этом информационном массиве нужное именно ему, что требует

большого количества времени. Вследствие всего этого, системы автоматиче-

ского реферирования (АР), предназначенные для помощи человеку в ускорении

и упрощении ориентации в современном информационном пространстве, явля-

ются крайне востребованными. Однако существующие до настоящего времени

системы АР далеки от качественного смыслового анализа текстов и ограничи-

ваются, главным образом, частотно-позиционным анализом, в лучшем случае, с

элементами смыслового анализа на базе ограниченных по тематике словарей-

онтологий. Наши исследования ориентированы на разработку модели процесса

понимания текста в системе АР для любых предметных областей.

Для моделирования процесса понимания текстовой информации на дан-

ном этапе необходимым является решение нескольких задач:

1. Проведение анализа заголовка текста с целью определения ключевых

понятий для данного текста, основываясь на разработанной ранее модели заго-

ловка [1].

2. Изучение когезиальной и когерентной связности текста.

3. Разработка методики построения текстовой базы, которая представ-

ляет собой «информационное ядро» текста, с использованием глубинного ана-

лиза заголовка как смыслового инварианта текста [3].

По нашему мнению, анализ заголовка является неотъемлемой частью

анализа содержания текста. Заголовок мы рассматривает как реферат мини-

мального объема или как текст с максимальным уровнем обобщения содержа-

ния.

В каждом заголовке были выделены результат, объект, метод, цель и

область исследования как актантные цепочки в синтаксической структуре заго-

ловка, а также дополнительные (необязательные) вводные слова типа о(об), к

вопросу… и т.п.

Ранее построенная синтаксическая конструкция заголовка (СКЗ) имеет

вид:

Page 43: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

42

СКЗ : Pp – V(m5) – А(m4) – А(m7) – А(m9) – А(m8),

где Pp – выражения с предлогами: Об одном..., К вопросу о…, Еще раз о…,

Ученые о… и т.п., - необязательные элементы заголовка,

V(m5) – отглагольное существительное (аналог предиката) со значением

результат,

А(m4) – актант со значением объект,

А(m7) – актант со значением цель,

А(m9) – актант со значением область исследования,

А(m8) – актант со значением метод.

Все обозначения подробно описаны в [1; 3].

На данном этапе исследований для составления общей модели заголовка

были взяты и проанализированы типичные заголовки с предлогами из научных

статей, которые в свою очередь разделились на две группы: со словом «как» и

без него.

Проанализированные нами заголовки состоят из объекта, области иссле-

дования и выражений с предлогами:

СКЗ: А(m4) объект

Некоторые постмодернистские основания лингвистических гендерных иссле-

дований

СКЗ: Pp - А(m4) объект

К вопросу об англоязычном сказочно-фантазийном анекдоте

СКЗ: Pp - А(m4) - А(m9) объект + область исследования

О роли образа автора в формировании художественного текста

СКЗ: А(m4) - А(m9) объект + область исследования

Интенсификаторы в современном английском языке

Как видно из приведенных примеров конкретных реализаций общей

структуры заголовка, в них возможны различные комбинации смысловых ас-

пектов.

В заголовках второй группы объект состоит из двух частей, между кото-

рыми стоит слово «как». Вторая часть объекта всегда имеет больше компонен-

тов, т.к. расширяет значение первой части объекта.

СКЗ: А(m4) - как – А(m4) - А(m9) объект + область исследования

Аппроксимация как средство объективации комической картины мира автора

в текстах пародии и бурлеска

СКЗ: А(m4) – как – А(m4) объект

Категоризация как этап формирования когнитивной структуры

После составления общих моделей для двух групп заголовков, мы объ-

единили полученные модели в единую общую модель, которая имеет следую-

щий вид:

СКЗ : Pp1 – V(m5) – [А(m4) – как – А(m4)] – для - А(m7) – в - А(m9) – Pp2 - А(m8),

где [А(m4) – как – А(m4)] - объект А(m4) или объект А(m4) – как – А(m4),

Pp1 - выражения с предлогами: Об одном..., К вопросу о…, Еще раз о…,

Ученые о… и т.п., - необязательные элементы заголовка,

Pp2 – … методом…, с использованием…. и т.п. - необязательные элементы

заголовка.

Page 44: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

43

Углубленный анализ структуры заголовков помог составить общую мо-

дель заголовков, позволяющую в дальнейшем, опираясь на заголовки как кон-

цептуальные инварианты текстов, более точно выделять инвариантные репре-

зентации ситуаций [2] в процессе автоматического анализа смысла текстов. Все

это дает возможность шаг за шагом совершенствовать разрабатываемую нами

систему автоматического реферирования. Список литературы

1. Лазаренко О.В. Анализ смысловой структуры заголовка как текста с макси-

мальным уровнем обобщения / О.В. Лазаренко, Т.В. Попова // Проблеми семантики

слова, речення та тексту: Збірник наукових праць. – К.: КНЛУ, 2004. – Вип. 12. –

С. 143–149.

2. Лазаренко О.В. Моделирование процесса понимания текста с использовани-

ем инвариантной репрезентации ситуаций в системе автореферирования /

О.В. Лазаренко // Бионика интеллекта: научно-технический журнал. – Харьков :

ХНУРЭ, 2014. – № 2(83) – С. 15–19.

3. Лазаренко О.В. Разработка алгоритма смыслового анализа текста для синтеза

реферата в системе автоматического реферирования/ Е.Ю. Буряк, О.В. Лазаренко,

Д.И. Панченко // Бионика интеллекта: научно-технический журнал – Харьков :

ХНУРЭ, 2015. – Вип. 2 (85). – С. 127–130.

Page 45: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

44

ДИСКУРСНІ ОДИНИЦІ: ПРОБЛЕМИ ЛІНГВІСТИЧНОГО ОПИСУ

Вербиненко Ю.І.

Український мовно-інформаційний фонд

Національної академії наук України

м. Київ, Голосіївський проспект, 3 тел. +38 (044) 525 81 65,

e-mail: [email protected]

Серед лексично неповнозначних одиниць, що керують процесом спілку-

вання (таких як модальні слова, сполучники тощо) можна виділити клас диску-

рсних одиниць. Це мовні конструкції, що забезпечують зв’язність тексту та пе-

редають відношення мовця до сказаного, спрямовують увагу на контекст; дис-

курсні одиниці надають мові чіткості, структурованості, регулюють емоційну

забарвленість, роблять текст зрозумілішим. Функції маркерів у контексті до-

сить різноманітні: організація висловлювання, перехід з однієї теми до іншої,

вираження макроструктури тексту, маркування індивідуального судження, ста-

влення до твердження, його оцінка тощо. Зазначена спрямованість дискурсних

одиниць дозволяє досить однозначно кваліфікувати їх як одиниці, що забезпе-

чують певні функції лінгвістичної прагматики. У той же час, кількість таких одиниць, частота вживання та їх формально-

граматична структура пов’язані не лише із будовою конкретної мови, але й з інди-

відуальною мовною картиною світу мовця, що спричиняє певні труднощі в процесі

їхнього перекладу. Оскільки мова та культура неподільні, використання іноземної

мови у відриві від культури неможливе, а різниця культур у словниках зазвичай не

має чіткої фіксації, то дослідники зауважують, що міжмовний культурний бар’єр

для лінгвальної комунікації створює додаткові проблеми. Особливого значення ви-

кладене набуває у сучасній науковій комунікації.

Складність опису дискурсних одиниць полягає ще й у нерозробленості

теорії їхнього семантичного опису та його лексикографічного представлення.

Викликають певні утруднення при формулюванні словникових дефініцій оди-

ниць цього класу, оскільки вони часто бувають дуже сильно інтегрованими в

контекст. Через це важко окреслити системні границі одиниць цього класу та

побудувати коректну їх класифікацію.

Деякими авторами (К. Holker, 1991, L. Brinton, 1996, А. Jucker & Y. Ziv,

1998) було зроблено спроби виділення мовних одиниць із дискурсними марке-

рами, до яких, зокрема, віднесено фонологічні, семантичні, синтаксичні, функ-

ціональні, соціолінгвістичні та стилістичні подібності та відмінності. Пізніше

лінгвісти намагались класифікувати дискурсні маркери за належністю до пев-

них лексико-граматичних класів (прийменники, сполучники – сурядні і підряд-

ні, вигуки, вставні слова, модальні частки, деякі прислівники).

Проте на сьогодні ще не сформульовано замкненого переліку дискурсних

маркерів, так само як і комплексу їхніх системних ознак. У працях зарубіжних

учених різні дискурсні маркери та їхні групи досліджуються, переважно, зі

структурно-семантичної позиції. При цьому між лінгвістами немає єдності у ві-

Page 46: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

45

днесенні тих чи інших лексичних одиниць до класу дискурсних маркерів

(Rouchota 1998; Schiffrin 1987; Dijk 1977; Blakemore 1992; Вишневская, Лихаре-

ва 2000; Тюрина 2003). Отже, теоретичних і, особливо, лексикографічних праць

у галузі лінгвопрагматики дискурсних одиниць дуже мало, і майже не має та-

ких, де була б представлена українська мова. Зокрема, в українській лексиког-

рафії близькі проблеми досліджує А. Лучик («Еквіваленти слова в українській

мові», «Російсько-український і українсько-російський словник еквівалентів

слова»).

У цій праці зроблено спробу класифікації та опису дискурсивних одиниць

української мови та їх відповідників в англійській і російській мовах. Дослі-

дження проводилось на матеріалі словників: Юдіна С. М. «Російсько-

українсько-англійський словник для фізиків», Циммерман М. К. «Русско-

английский научно-технический словарь переводчика», Ігнатьєв-Каллехен Л.

«Русско-английский политехнический словарь».

В основу розроблюваної нами класифікації було покладено п’ять груп

дискурсивних слів, виділених Вікторовою Є.Ю.:

– організаційно-структурні (поскольку – оскільки – as long as / because /

since; однако – but / howewer);

– суб’єктивно-модальні (фактически – фактично – actually / in fact / as a

matter of fact; казаться – здаватися – appear as / seem to);

– акцентно-видільні (следует отметить, что – слід відзначити, що – it

should be observed that / it should be pointed out that);

– рефлексиви (а именно – а саме – namely / that is; с точки зрения – з точ-

ки зору – from a viewpoint of);

– дискурсиви безпосередньої адресації (рассмотрим – розглянемо – let us

consider). Список літератури:

1. Викторова Е.Ю. Вспомогательные и коммуникативные единицы в политиче-

ском дискурсе: проблемы перевода (на материале русского и английского языков) /

Е.Ю. Викторова // Изв. Сарат. ун-та. – Саратов, 2010. – Т. 10, №4. – С. 40-47. – (Новая

сер.: Филология. Журналистика)

2. Еремина, Ирина Сергеевна Установление английских эквивалентов русского

как бы (Экспериментально-сопоставительное исследование на материале английского

и русского языков) : диссертация ... канд. филол. наук : 10.02.20. – Пятигорск, 2005. –

133 с.

3. Каменский, Михаил Васильевич Социолингвистическая парадигма дискурсных

маркеров на материале английского языка : диссертация ... кандидата филологических

наук : 10.02.19. – Ставрополь, 2007. – 179 с.

4. Правикова Л.В. Дискурсивные маркеры: современное состояние проблемы /

Л.В. Правикова // Вестник ПГЛУ, 2000. – №4.

5. Хачатурян Елизавета Владимировна. Семантика и синтактика дискурсивных

слов глагольного происхождения в современном итальянском языке : диссертация ...

кандидата филологических наук : 10.02.05. – Москва, 2000. – 171 с.

Page 47: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

46

ІНФОРМАЦІЙНО-ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ РЕАЛІЗАЦІЇ

СИСТЕМНИХ МЕТОДІВ ВИЗНАЧЕННЯ СТАНУ СКЛАДНИХ СИСТЕМ

Козуля М.М.

Національний технічний університет «Харківський політехнічний інститут»,

Харків, Україна, e-mail: [email protected]

Сучасна теорія систем передбачає існування системних утворень у вигля-

ді соціально-економічних, соціально-екологічних, еколого-економічних систем

і об’єктів природно-техногенних об’єктів, що відносять до складних систем, які

з урахуванням положень сталого розвитку об’єднують у соціально-еколого-

економічні об’єкти дослідження [1, 2]. Особливим для таких системних ком-

плексів є інформаційна компонента, яка враховує якісні характеристики як

окремих складових, так і їх відношень. Нестійкий стан систем призводить до

криз, які умовно прирівнюють до якісних перетворень їх внутрішнього середо-

вища. Для опису поводження складних систем використані терміни ентропія,

негентропія, узагальнена негентропія й ентропійний баланс [3].

Мета даної роботи спрямована на розробку комплексу інформаційно-

програмного забезпечення реалізації системних методів визначення стану скла-

дних системних об’єктів для підвищення ефективності прийняття рішень з уре-

гулювання безпечності на основі ідентифікації знань.

Першочерговою задачею інформаційних технологій, пов’язаною з фор-

муванням нових методологій аналізу даних стосовно складних системних утво-

рень, об’єктивно обумовлена необхідністю співіснування техногенних і приро-

дних систем. Необхідність практичного забезпечення автоматизації обробки

інформаційних потоків даних моніторингових досліджень складних об’єктів

спрямований на встановлення відхилень у цільових відповідностях, що не до-

зволяє досягти рівноваги системи.

Оцінка відхилення від апріорі прийнятого природного регулювання гоме-

остазу «об’єкт (система) – навколишнє середовище» визначається як виникнен-

ня і розвиток ризику. Розв’язання цієї задачі розглядає змістовність управління

як встановлення початкової рівноваги на будь-якому рівні організації системи.

За умови створення цілеспрямованої системи певної якості реалізують керовані

зміни за системою заходів спеціалізованого управління. Досягнення точки від-

повідності гарантується при мінімальному ризику прийняття рішення: не втру-

чання, а контроль самовільної адаптації за рахунок довільних процесів; регу-

лювання і управління до максимального упорядкування і самоорганізації

об’єкта ( min,0 1 SS max,0 2 SS ) (рис. 1).

Згідно з встановленими умовами відповідності у продукційній системі і=0

та 0i вирішуються задачі розв’язання невизначеності та оптимального рі-

шення щодо досягнення мети: стабілізація об’єкта і систем відповідно до влас-

тивостей початкового (природного) гомеостазу і управління змінами до реалі-

зації нового стану за метою (збільшення ефективності чи функціональності, по-

ява нових складових і перепрофілювання змістовності й, таким чином, підходів

до встановлення безпеки і т.п.).

Page 48: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

47

Рисунок 1 – Ентропійна оцінка стану системи і ризик-факторів

Таким чином, обґрунтованість запровадження ентропійного ризик-оцінки

для стану моніторингових систем будь-якого рівня дослідження дозволило на-

дати комплексну змістовність в методичне забезпечення обробки моніторинго-

вої інформації. На основі наданої методики розробляється програмний ком-

плекс для підтримки прийняття рішень при обробці даних [4]. Література:

1. Мельник Л.Г. Методология развития: Монография/ Л.Г. Мельник. – Сумы:

ИТД «Университетская книга», 2005. – 602 с.

2. Згуровський М.З. Основи системного аналізу / М.З. Згуровський,

Н.Д. Панкратова. – К.: Видавнича група BHV, 2007. –544 с.

3. Прангишвили И.В. Энтропийные и другие системные закономерности: Во-

просы управления сложными системами/ И.В. Прангишвили; Ин-т проблем управле-

ния им. В.А. Трапезникова. – М.: Наука, 2003. – 428 с.

4. Козуля Т.В. Формування знань-орієнтованих баз даних для визначення ком-

плексної методики ідентифікації якості складних систем / Т.В. Козуля,

Н.В. Шаронова, М.М. Козуля, Я.В. Святкін // Восточноевропейский журнал передо-

вых технологий – Харьков, 2016 – С. 13–21.

Page 49: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

48

ФОРМАЛІЗАЦІЯ ІНФОРМАЦІЙНО-ЛІНГВІСТИЧНИХ СУТНОСТЕЙ

ТА ВІДНОШЕНЬ ЗАСОБАМИ ШТУЧНОГО ІНТЕЛЕКТУ

Петрасова С.В.

Національний технічний університет

«Харківський політехнічний інститут»,

м. Харків, вул. Пушкінська 79/2, тел. 707-63-60,

e-mail: [email protected]

Однією із проблем сучасного суспільства є інформаційне переповнення,

що вимагає переходу від зберігання та обробки даних до накопичення та обро-

бки знань. У зв’язку з цим стає актуальним завдання інтелектуалізації лінгвіс-

тично-інформаційних технологій представлення та обробки знань.

Основним засобом накопичення та передачі знань при цьому служить

природна мова. Однак з точки зору вирішення поставленого завдання природна

мова має істотні недоліки: вона неповна, надлишкова, неоднозначна, неточна та

граматично некоректна.

Неповнота природної мови виражається у відсутності в ній слів для ви-

раження смислових особливостей (нюансів) в діалозі або нових понять.

Прикладом вираження надлишковості мови є наявність в ній слів-

синонімів, що виражають один і той самий зміст.

Неоднозначність природної мови виражається в наявності в ній слів-

омонімів, що мають різний зміст у різних контекстах.

Неточність природної мови виражається в «розмитості» шкали смислових

інтерпретацій слів.

Граматична некоректність мови проявляється в наявності винятків у бага-

тьох правилах мови [1].

Отже вирішення завдання автоматичної обробки знань ускладнюється

проблемами полісемії, синонімії, омонімії природномовних джерел знань, які

властиві мові на всіх рівнях її представлення (морфологічному, синтаксичному,

семантичному і прагматичному), що, в першу чергу, проявляється в проблемі

визначення відношення семантичної еквівалентності.

При цьому складність завдання підвищується у рази, коли мова йде про

смислову близькість не слів як основної значущої, синтаксично самостійної

одиниці мови, а багатослівних словосполучень (колокацій) – синтаксичних

конструкцій, що складаються з двох або більше слів (колокатів), з'єднаних за

типом підрядного зв'язку (узгодження, управління, примикання).

З наведених причин ідентифікація інформаційно-лінгвістичних сутнос-

тей, зокрема колокацій, та відношень в текстах з характерними для людського

мовлення гнучкістю та багатозначністю вимагає інтелектуальних засобів сема-

нтичної обробки природномовних текстів.

Для розв’язання вказаних завдань застосовуються статистичні, морфоло-

гічні, синтаксичні та семантичні методи аналізу природномовних виразів, а та-

кож методи представлення формалізованих моделей зовнішнього світу, що є

Page 50: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

49

предметом людино-машинного діалогу і сприяють розумінню машиною приро-

дної мови [2].

Тим не менш більшість існуючих формальних моделей смислової іденти-

фікації слів, рідше колокацій, не дозволяють автоматизувати процедуру іден-

тифікації або видають низьку точність при практичній реалізації. Це пов’язано з

тим, що для реалізації автоматичного смислового аналізу природномовних тек-

стів використовуються лексико-граматичні підходи, контекстний аналіз, стати-

стичний аналіз, та рідше застосовуються семантичні методи у комплексі з ін-

шими методами, що стає обов’язковим при ідентифікації інформаційно-

лінгвістичних сутностей та відношень.

В дослідженні для розпізнавання відношення смислової близькості вико-

ристовуються граматичний і семантичний описи таких мовних сутностей як ко-

локації, що містять інформативну формальну складову.

Основна ідея підходу полягає в тому, що використання методів штучного

інтелекту, а саме, апарату алгебри кінцевих предикатів, компараторної іденти-

фікації та компонентного аналізу, а також множини граматичних і семантичних

характеристик для формалізації інформаційно-лінгвістичних одиниць дозво-

лить локалізувати семантично близькі кореляції (відношення семантичної екві-

валентності) в природномовних текстах.

Лінгвістично-інформаційна технологія покликана підвищити ефектив-

ність роботи існуючих інтелектуальних систем семантичної обробки текстів,

наприклад, при усуненні смисловий неоднозначності, добуванні фактів та ін. за

рахунок формалізації як синтаксичної, так і семантичної інформації та автома-

тизації виявлення відношення семантичної еквівалентності.

Таким чином, ідентифікація бінарних відношень семантичної еквівалент-

ності між колокаціями, як найбільш конкретних змістовних інформаційно-

лінгвістичних сутностей, дозволяє формалізувати відношення семантики, неяв-

но виражене в природномовних конструкціях, та підвищити точність, повноту і

релевантність запитуваної інформації. Список літератури:

1. Иванов В.М. Интеллектуальные системы / В.М. Иванов. – Екатеринбург,

2015. – 92 с.

2. Шенк Р. Обработка концептуальной информации / Р. Шенк. – М. : Энергия,

1980. – 360 с.

3. Хайрова Н.Ф. Концептуальная схема идентификации смысла лингвистиче-

ских единиц / Н.Ф. Хайрова // Збірник наукових праць Військового інституту Київсь-

кого національного університету імені Тараса Шевченка. – 2013. – Вип. 39. – С. 217-

223.

4. Бондаренко М.Ф. Мозгоподобные структуры / М.Ф. Бондаренко,

Ю.П. Шабанов-Кушнаренко. – Под. ред. акад. НАН Украины И.В. Сергиенко. – К. :

Наукова думка, 2011. – 460 с.

Page 51: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

50

РОЛЬ ПСИХОФИЗИЧЕСКОГО ЭКСПЕРИМЕНТА В

АВТОМАТИЗИРОВАННОЙ ОБРАБОТКЕ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ

Бабкова Н.В.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 0507127702,

e-mail:[email protected]

Повсеместное применение компьютерной техники, ее быстрое развитие

обусловили высокие темпы развития методов создания интеллектуальных си-

стем (ИС) разнообразного назначения. Разработаны методологический и техни-

ческий подходы к созданию и использованию информационных систем. Име-

ющиеся в настоящее время интеллектуальные информационные системы спо-

собны выполнять функции, которые раньше считались исключительно прерога-

тивой человека: доказывать математические теоремы, переводить тексты с од-

ного языка на другой, диагностировать болезни и выполнять много других

функций [1]. Однако в перспективе идеальная вычислительная машина должна

превосходить способности человека логически мыслить, делать анализ посту-

пающей информации, решать сложнейшие задачи, взаимодействовать с окру-

жающей средой.

Область науки, изучающей законы преобразования информации органами

чувств человека, называется психофизикой. Объектами исследования в психо-

физике служат: ощущение человека; физические процессы, которые действуют

на органы чувств и вызывают ощущение; отношение, которым связаны ощуще-

ния с соответствующими им предметами внешнего мира. В психофизике выде-

ляется два направления экспериментальное и теоретическое. К настоящему

времени экспериментальная психофизика накопила большой фактический ма-

териал [2].

Теория психофизических процессов ставит своей задачей разработку ма-

тематического описания зависимости ощущений от физических процессов, ко-

торые действуют на рецепторы человека. Она рассматривается как один из раз-

делов теории интеллекта. Эта теория прошла довольно большой путь в своем

развитии и имеет многочисленные практические и технические приложения.

Одной из основных задач, решаемых в рамках данной теории, является задача

идентификации [4]. Математическое описание зависимости ощущений от фи-

зических процессов рассматривается как многопараметрическая задача иден-

тификации. Однако в случае исследования высокотемпературных физических

процессов она имеет определенную специфику.

Ощущения не имеют систематизированных объективных единиц измере-

ния, что приводит к ситуации, когда выход y f x в традиционном понима-

нии [2] отсутствует. При этом присутствует реакция человека на входное влия-

ние, которое не подвергается непосредственному физическому измерению. По-

этому в психофизике для исследования применяют компараторный метод, или

Page 52: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

51

метод сравнения, сущность которого сводится к использованию такого субъек-

тивного анализа ощущений испытуемого, который бы завершался его объек-

тивно регистрируемым ответом типа «да» - «нет». Во многих случаях опыты

такого типа могут служить достаточным экспериментальным основанием для

объективного и целиком корректного математического описания ощущений че-

ловека и процессов их формирования.

Применение компараторного метода неявно вносит проблему расширения

знаний и, соответственно, оценок параметров физического процесса с целью

выявления способов субъективного анализа ощущений человеком.

Одним из результативных направлений развития информационных тех-

нологий искусственного интеллекта является использование принципа «фор-

мального содержания» [1] при разработке интеллектуальных систем. Это

направление включает моделирование восприятия или поведения человека и

технологического процесса, а также службы коррекции моделей на основании

исходных данных и данных результирующих отчетов. Среди реализованных

результативных продуктов в этой области известны информационные системы,

информационно-управляющие, экспертные системы, системы диагностики и

управления объектами и процессами и т.д. Почти все эти системы программ-

ные продукты, использующие широкий спектр информационных технологий

искусственного интеллекта. В связи с этим задача адаптации математических

моделей технологических процессов при использовании в технологиях искус-

ственного интеллекта актуальна и сводится к выбору вариантов с возможно-

стью получения решений в дискретном виде (1 = «да», 0 = «нет»).

Известный в изучении и контроле состояния высокотемпературных про-

цессов (ВТП) принцип, реализованный в пирометрии [2], стал аналогом базо-

вых идей при разработке программы эксперта ВТП. Привлекательно для разра-

ботчиков то, что пирометр в момент измерения не имеет непосредственного

контакта с объектом контроля при высокой температуре. Это определило

направление его дальнейшего развития.

Решение-отчет, предлагаемое экспертом, получается при допущениях,

принимаемых на любом из шагов его работы. Таких условий накапливается до-

статочно много, анализ их влияния позволяет его успешно использовать.

Система, заменяющая эксперта, специалиста по теплофизике, в процессе

исследования позволяет использовать как входной источник информации

оцифрованные фотоснимки высокотемпературных процессов. В связи с этим,

уменьшается риск непосредственного контакта оператора и аппаратуры в опас-

ной зоне. Кроме того, существенно снижаются затраты на организацию и про-

ведение экспериментов. Список литературы

1. Бондаренко М.Ф. Теория интеллекта / М.Ф. Бондаренко, Ю.П. Шабанов-

Кушнаренко. – Харьков: “Смит”. − 2006. – 594 с.

2. Вавилов В.П. Тепловые методы неразрушающего контроля: Справочник /

В.П. Вавилов. – М. : “Машиностроение”. − 1991. – 240 с.

3. Смирнов А.Д. Математические модели теории передачи изображений /

А.Д. Смирнов. – М. : “Связь”. − 1979. − 96 с.

Page 53: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

52

BRAINSTORMING AS A PART OF LEARNING PROCESS

Gulieva D.O. National Technical University

“Kharkiv Polytechnic Institute”, Kharkiv, Pushkins’ka street, 79/2, tel. 707–63–60,

e-mail: [email protected]

Brainstorming can play a large role in any English teacher's class. Brainstorming

with a group of people is a powerful technique. Brainstorming creates new ideas,

solves problems, motivates and develops teams. Brainstorming motivates because it

involves members of a team in bigger management issues, and it gets a team working

together. However, brainstorming is not simply a random activity. Brainstorming

needs to be structured and it follows brainstorming rules. The brainstorming process

is described below, for which you will need a flip chart or alternative. This is crucial,

as Brainstorming needs to involve the team, which means that everyone must be able

to see what is happening. Brainstorming places a significant burden on the facilitator

to manage the process, people's involvement and sensitivities, and then to manage the

follow up actions. Use Brainstorming well and you will see excellent results in im-

proving the organization, performance, and developing the team [2].

There are hundreds of options for brainstorming—and new ones arriving all the

time in our fast-paced digital world. However, for some a classic approach might be

better than the latest app. It's all about finding what works best for you, taking into

account learning styles, preferences, and any props you might have available [4].

Effective brainstorming can be accomplished by following simple brainstorming

do’s and don’ts with your team. A brainstorming session is a tool for generating as

many ideas or solutions as possible to a problem or issue. It is not a tool for determin-

ing the best solution to a problem or issue.

Before beginning any effective brainstorming session, ground rules must be set.

This does not mean that boundaries are set so tightly that you can’t have fun or be

creative. It does mean that a code of conduct for person to person interactions has

been set. It’s when this code of conduct is breached that people stop being creative.

The best way to have meaningful ground rules is to have the team create their own.

Try performing a mini-brainstorming session around creating brainstorming ground

rules. It should provide a nice opportunity to practice the skills necessary for an effec-

tive brainstorming session. This also allows the team to take ownership of acceptable

and unacceptable behaviors. Only if the team hasn’t addressed the key ground rules

should you (as the facilitator) add to the list. Once the ground rules list is generated

be sure to gain consensus that the session will be conducted according to them, and

post them in a highly visible location in the room.

Here are four key ground rules that are useful when conducting a brainstorming

session:

1. There are no dumb ideas. Period. It is a brainstorming session, not a serious

matter that requires only serious solutions. Remember, this is one of the more fun

tools of quality, so keep the entire team involved!

Page 54: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

53

2. Don’t criticize other people’s ideas. This is not a debate, discussion or forum

for one person to display superiority over another.

3. Build on other people’s ideas. Often an idea suggested by one person can

trigger a bigger and/or better idea by another person. Alternatively, a variation of an

idea on the board could be the next “Velcro” idea. It is this building of ideas that

leads to out of the box thinking and fantastic ideas.

4. Reverse the thought of “quality over quantity.” Here we want quantity; the

more creative ideas the better. As a facilitator, you can even make it a challenge to

come up with as many ideas as possible and compare this team’s performance to the

last brainstorming session you conducted [5].

How to use brainstorming

Prepare the group: although brainstorming is, one of the oldest and most recog-

nized creative tools, although surprisingly few people know Alex Osborn's original

four rules, so do remind them (see next section).

Define the problem: describe the problem for which ideas are wanted and ensure

everyone understands it. It is very easy for people to head off in the wrong direction.

A good way of doing this is to write it down on a flipchart page and tape it to the

wall.

Generate ideas: ideas are now created and collected. This is usually done by

people calling them out and the facilitator or scribe writing them down on a flipchart.

This person should ideally be someone who can write both legibly and fast, as they

need to keep up with the torrent of ideas.

It is useful for all ideas to remain visible to help trigger further ideas, so when

the flipchart page is full, rip it off and tape it to the wall where everyone can see

them.

All people should remember and follow the four rules of Brainstorming. No crit-

icism or debate, which are convergent activities and can inhibit people from giving

ideas; quantity over quality, because quality assessment is also convergent. It has also

been shown that the best ideas arrive unpredictably spread out over time; freewheel,

which means using one idea as a stimulus for the next. Like the 'Random word' tool,

this helps you out of 'stuck rut' thinking, leading you in unexpected directions. It also

encourages people to think about each other’s ideas; mutate and Combine, where

'Mutate' means to deliberately distort and modify existing ideas and 'Combine' means

to deliberately try to build new ideas from combinations of existing ones. Again,

these helps you out of ruts and makes people work better together.

Wild ideas are just fine in most brainstorming sessions. They keep things mov-

ing, stimulate deeper thinking and can lead to other ideas that may just work. When

facilitating this, ensure everyone follows the rules - it is very easy to get bound up in

your own ideas - and also that all people can contribute. Watch the quiet ones in the

corner - they often are the people who come up with really good thoughts that, if oth-

ers hear, can lead to even better ideas. When ideas start to wane, you can take a break

and start again or move to reducing the list to those that will be taken forward. Sepa-

rate from idea generation is idea reduction. Sometimes this is best done another time,

another day or even by another group. Usually, however, it is done immediately after

the idea creation session. There are a number of ways of reducing ideas such as eve-

Page 55: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

54

ryone voting for favorites or just discussing and seeing what comes to the surface[3]

Brainstorm ideas pro and contra to the thesis. Remember that no idea should be

ignored. As a class, decide on main ideas that can be further developed into body par-

agraphs. Brainstorm ideas on supporting points and examples for each paragraph.

Make sure to keep track of the process on the board. Provide students with a work-

sheet of essay ideas and ask them to brainstorm in small groups in the same manner

to come up with another outline. For homework, students should complete their own

brainstorming session and turn in an essay outline [1]. LITERATURE:

1. Hall Houston / The Creative Classroom/ 2003 by LYNX PUBLISHING

2. http://www.businessballs.com/brainstorming.htm

3. http://creatingminds.org/tools/brainstorming.htm

4. http://www.inc.com/john-boitnott/10-longtime-brainstorming-techniques-that-still-

work.html

5. http://www.isixsigma.com/tools-templates/brainstorming/brainstorming-rules/

Page 56: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

55

ВИКОРИСТАННЯ МОДЕЛЕЙ ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ

SENTIMENT ANALYSIS З МЕТОЮ МОНІТОРИНГУ НАДЗВИЧАЙНИХ

СИТУАЦІЙ ТЕХНОГЕННОГО ТА ПРИРОДНОГО ХАРАКТЕРУ

Ігнатьєв О.М.

Національний університет цивільного захисту України

м. Харків, вул. Чернишевська, 94, тел. 063-104-92-35,

e-mail:[email protected]

В 1996 р. була ухвалена Програма створення Урядової інформаційно-

аналітичної системи з питань надзвичайних ситуацій (УІАСНС) [1]. Зокрема

передбачалось створення Кризового центру у складі Центру інформаційних ре-

сурсів в Кабінеті Міністрів України. Хоча з моменту ухвалення першої Програ-

ми створення УІАСНС пройшло майже двадцять років, процес створення цієї

системи ще й досі не завершений. На жаль, нині далеко не всі заплановані еле-

менти цієї системи впроваджені у життя. Більш того, як свідчать дані

ДСНС України (лист ДСНС від 13.02.2014р. № 03-2024/162), в 2013 р. у зв’язку

з відсутністю фінансування не виконувалися заходи Загальнодержавної цільо-

вої програми захисту населення і територій від надзвичайних ситуацій техно-

генного та природного характеру щодо забезпечення функціонування та розви-

тку УІАСНС (п. 30 цільової Програми) [2].

В європейських країнах усвідомлення необхідності створення організацій-

них структур, що здійснюють підтримку прийняття рішень в умовах надзви-

чайних ситуацій різного походження, реалізується в конкретні кроки. Напри-

клад, в Німеччині в 2002 р. на базі Федерального управління цивільного захис-

ту та допомоги при стихійних лихах був створений Спільний інформаційний та

ситуаційний центр (Gemeinsames Melde- und Lagezentrum – GMLZ). Подібну

увагу до цих питань демонструє і Швейцарія, де в структурі органу виконавчої

влади (Federal Office for Civil Protection) функціонує Національний центр з над-

звичайних ситуацій (National Emergency Operations Centre), який є федеральним

центром експертної підтримки прийняття рішень в умовах надзвичайних ситуа-

цій. Цей центр може функціонувати і в режимі цілодобового моніторингу.

Аналіз здійснених в Україні кроків щодо створення ситуаційного центру

стратегічного рівня з питань надзвичайних ситуацій показує, що сформульовані

ще в середині 1990-х років задачі донині залишаються повністю не вирішени-

ми. Потрібно відмітити, що на сьогодні в системі забезпечення національної

безпеки України відсутній дієвий механізм моніторингу та формування рішень

щодо попередження можливих «кризових ситуацій». Дане питання залишилося

не вирішеним як в організаційному, так й в нормативно-правовому аспектах.

Як свідчить багаторічний досвід, без урахування даних моніторингу і про-

гнозування НС неможливо планувати розвиток територій, приймати рішення на

будівництво промислових і соціальних об’єктів, розробляти програми і плани з

попередження та ліквідації можливих НС. Від ефективності і якості проведення

моніторингу та прогнозування залежить ефективність і якість програм, планів,

Page 57: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

56

прийняття рішень щодо запобігання та ліквідації надзвичайних ситуацій. Необ-

хідно підкреслити, що якість моніторингу і прогноз надзвичайних ситуацій зна-

чною мірою впливає на ефективність діяльності у сфері зниження ризиків їх

виникнення і зменшення їх масштабів.

На наш погляд, система моніторингу на теперішній час не є досконалою та

потребує деяких доповнень. Для чіткого спостереження за потенційно-

небезпечним об’єктом потрібно мати дуже розвиту систему технічного контро-

лю. Це не завжди можливо у зв’язку зі значними матеріальними витратами. На-

приклад, до загальнодержавної і територіальних мереж спостереження і лабо-

раторного контролю включені існуючі сили і засоби Державної системи моні-

торингу довкілля України (до складу якої входять підсистема медико-

гігієнічного моніторингу, підсистема моніторингу водного басейну, підсистема

моніторингу повітряного басейну, підсистема моніторингу геологічного сере-

довища, підсистема моніторингу ґрунтів та інш., які здійснюють організацію

збирання, опрацювання та передачі інформації про стан довкілля, забруднення

продуктів харчування, харчової сировини, фуражу, води радіоактивними, хімі-

чними речовинами та інфекційними мікроорганізмами.

З метою підвищення точності і достовірності моніторингу на основі об'єд-

нання інтелектуальних, інформаційних і технологічних можливостей на нашу

думку необхідно використання одного з основних методів аналізу, який широко

використовується в Opinion Mining для практичних додатків - Sentiment

Analysis [3]. Цей метод призначений для виявлення емоційних, оцінних су-

джень, суб'єктивного ставлення до якого-небудь об'єкту, явища і т.д. текстової

інформації. Одна з основних змістовних завдань Sentiment Analysis - автомати-

чне оцінювання будь-якого об'єкта (персона, повідомлення ЗМІ, подія, органі-

зація і т. д.) в текстових повідомленнях, наприклад, з допомогою позитивних,

негативних, нейтральних оцінок, сприятливих і несприятливих думок, кількіс-

них індексів і т. д. В якості об’єкту, якій оцінюється, пропонується розглядати

потенційно-небезпечний об’єкт, а в якості текстових повідомлень – відгуки

звичайних громадян про об'єкт в різноманітних соціальних мережах.

Таким чином встановлено, що об'єднання інтелектуальних, інформаційних

і технологічних моделей дає можливість підвищити оперативність оповіщення

про потенційну небезпеку, яка може виникнути (або про небезпеку, яка вже ви-

никла) за рахунок використання у процесі моніторингу інформації, отриманої

від звичайних громадян та її обробки методами Sentiment Analysis. Список літератури

1. Постанова Кабінету Міністрів України від 16.01.1996 № 96 «Про Програму

створення Урядової інформаційно-аналітичної системи з питань надзвичайних ситуа-

цій на 1996 рік» [Електронний ресурс]. – Режим доступу:

http://zakon1.rada.gov.ua/laws/show/96-96-п

2. Закон України «Про Загальнодержавну цільову програму захисту населення і

територій від надзвичайних ситуацій техногенного та природного характеру на 2013-

2017 роки» // ВВР, 2013, № 19-20, ст. 173 [Електронний ресурс]. – Режим доступу:

http://zakon3.rada.gov.ua/laws/show/4909-17

3. Pang B., Lee L. Opinion Mining and Sentiment Analysis. N.Y.:Now Publishers Inc.,

2008. - 135 р.

Page 58: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

57

СПЕЦИФИКА ОБЩЕНИЯ В ИНТЕРНЕТ

Красноперов П.В.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60,

e-mail: [email protected]

Что же такое интернет-коммуникация?

И. Н. Розина рассматривает интернет-коммуникацию как использование

людьми электронных сообщений (чаще мультимедийных) для формирования

знаний и взаимопонимания в разнообразных средах, контекстах и культурах [1,

c.32]. На наш взгляд, в данном определении учитываются такие важные состав-

ляющие этого процесса, как цели коммуникации (правда, в реальности цели

шире и включает реализацию ряда интернет-функций: презентационную, ре-

лаксационную, коммуникативную, консолидирующую и прочее); характер

средства связи (электронный), форму представления информации (мультиме-

дийная); человеческую составляющую этого процесса, а также охват различных

форм социальной коммуникации.

С.В. Бондаренко считает интернет-коммуникацией, или виртуальным об-

щением, опосредованное компьютером общение двух или более лиц, характе-

ризующееся невидимостью коммуникантов, письменной формой посылаемых

сообщений, возможностью незамедлительной обратной связи, а также взаимо-

действием или обменом электронными сообщениями или же взаимным обме-

ном и правом доступа к информации, хранящейся в компьютерах коммуникан-

тов [2, c.181]. Однако приводимое здесь определение С.В. Бондаренко, на мой

взгляд, является неполным, т.к. оно исключает из рассмотрения канал передачи

информации – Интернет, и неточным, т.к. развитие скайп-технологий делает,

например коммуникантов видимыми в сети, а форма сообщения может быть не

всегда письменная.

На настоящий момент существует несколько классификационных основ

для структурированного описания этого типа коммуникации, однако наиболее

распространенная классификация базируется на количестве человек, участву-

ющих в этом общении. В зависимости от этого выделяют следующие типы ин-

тернет-общения:

от человека – к компьютеру;

от одного (человека) – к одному;

от многих – к одному;

от одного – ко многим;

от многих – ко многим [2, с.157].

Однако существуют и другие классификации. Так, в зависимости от типа

субъектов, с которыми осуществляется интернет-коммуникация, различают:

общение реального субъекта с реальным партнером (электронная почта,

группы новостей, ICQ и другие интернет-пейджеры, SMS-сообщения, дискус-

Page 59: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

58

сионные форумы, электронные рассылки и т.д.);

общение реального субъекта с субъективированным объектом как иллю-

зорным партнером (взаимодействия с почтовыми роботами, компьютерные иг-

ры, веб-сайты и т.д.);

общение воображаемых партнеров (взаимодействие компьютерных ин-

теллектуальных агентов, взаимодействия с DNS-серверами и т.д.) [2, с.198].

Необходимо подчеркнуть, что анализ работ в области изучения интернет-

коммуникаций, показывает, что базовыми, конститутивными характеристиками

этой форму коммуникации выступают такие категории: электронная форма су-

ществования текста, гипертекстуальность, мультимедийность, интерактив-

ность, синхронность/асинхронность, вариативность количества и эксплициро-

ванности коммуникантов [3, с.59].

Ряд авторов также отмечает, что компьютерное общение характеризуется в

определенной степени: отсутствием визуального контакта (т. е. невидимости

субъектами коммуникации друг друга); высокой степенью анонимности; сла-

бой социальной регламентированностью вербального поведения, снятием жест-

ких социальных конвенций и культурных границ; добровольностью и желаемо-

стью контактов; затрудненностью эмоционального компонента общения в со-

четании со стойким стремлением к эмоциональному наполнению текста как

компенсаторной практики [4, c.60][5].

Исследователи интернет-общения также подчеркивают, что на специфич-

ность этого общения влияет ряд факторов.

Во-первых, неоднородность самой социальной среды Интернета, многооб-

разие его сервисов, что не может не сказаться на способах общения человека в

Глобальной паутине.

Во-вторых, создание Интернетом иллюзии свободы, однако эта иллюзор-

ная свобода может регулироваться некоторым сводом норм, нарушение кото-

рых порождает непонимание и негативное отношение участников друг к другу.

В-третьих, большая степень анонимности этого общения позволяет пре-

одолевать многие коммуникативные барьеры, связанные с внешним обликом,

полом, возрастом и социальным положением его участников. Она дает больше

творческой свободы, а также сильно сокращает социальную дистанцию по

сравнению с обычным общением.

В-четвертых, практическое отсутствие элементов невербального общения

в Сети, что влияет на особенности функционирования языка в Интернете, раз-

вивая компенсаторные практики, связанные с заменой или изобретением нечто

другого, чтоб компенсировать именно эту сторону общения, в особенности на

эмоциональном уровне.

В-пятых, в основном письменный характер коммуникации в Сети, снижает

темп общения, являя более медленный способ коммуникации чем устная речь.

Благодаря этому обмен информацией становится более интенсивным по отно-

шению содержания текста к объему.

В-шестых, некоторые исследователи подчеркивают и толерантность этого

общения, которая потенциально снижает его конфликтность и способствует

выработке более гибких коммуникативных стратегий, нацеленных на непосред-

Page 60: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

59

ственное сотрудничество.

В-седьмых, распространение стратегии достраивания (доконструирования)

коммуникативной ситуации или образа партнера по общению, усиливает влия-

ние стереотипов и установок, что потенциально может повысить степень сте-

реотипности всего коммуникативного процесса в целом [6, с.41-43].

Все перечисленные выше особенности создают особую уникальную атмо-

сферу Интернета и приводят к возникновению таких феноменов как интернет-

аддикция, смена виртуальной идентичности и многое другое, делая сеть Ин-

тернет – виртуальной агорой и экспериментальной коммуникативной площад-

кой XXI века, позволяющей реализовываться самым фантастичным коммуни-

кативным практикам и устремлениям. Список литературы:

1 Розина И.Н. Педагогическая компьютерно-опосредованная коммуникация:

теория и практика / И.Н. Розина. - М.: Логос, 2005. – 437 с.

2 Бондаренко С.В. Социальная структура виртуальных сетевых сообществ: дис.

доктора социол. наук: 22.00.04. – Ростов-на-Дону, 2004. – 399 с.

3 Щипицина Л.Ю. Компьютерно-опосредованная коммуникация: Лингвистиче-

ский аспект анализа / Л.Ю. Щипицина. – М.: КРАСАНД, 2010. – 296с. 4 Кузнецова Ю.М. Психология жителей Интернета / Ю.М. Кузнецова,

Н.В. Чудова. – М.: УРСС, 2008. – 224с.

5 Донскова О.А. Тенденции становления паравербальной графемики в системе

интернет [Электронный ресурс] – режим доступа: http://pn.pglu.ru/index 6 Одинцова М.С. Особенности идентичности людей, активно общающихся в се-

ти Интернет / М.С. Одинцова, Н.В. Антонова // Журнал практического психолога. –

2010. - №4. – С.37-58.

Page 61: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

60

ГРУППОВАЯ ДИСКУССИЯ КАК МЕТОД ОБУЧЕНИЯ

ИНОСТРАННОМУ ЯЗЫКУ

Лутай Н.В.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60.

[email protected]

Групповое обсуждение представляет собой модифицированную форму

классных занятий, когда для передачи информации основное внимание распре-

деляется между преподавателем и студентами. Как правило, преподаватель

стоит перед классом и представляет необходимую информацию студентам, при

этом они отвечают на вопросы и приводят примеры.

Аргументом в пользу групповой дискуссии как метода обучения является

тот факт, что этот вид работы позволяет обеспечить более активное взаимодей-

ствие между студентами и преподавателем.

Преподаватели способны поддерживать контроль над тем материалом, что

отрабатывается, и направлять дискуссию. Они могут проверить, как студенты

усваивают материал через поставленные вопросы. Групповое обсуждение

удобно для многих преподавателей, потому что это модифицированная форма

лекции.

Учащиеся, которым легче воспринимать информацию на слух (аuditory

learners) находят такие занятия привлекательными для их стиля обучения. Сту-

денты остаются сосредоточенным на занятии, потому что их могут попросить

ответить на вопрос, многие чувствуют себя более уверенно, участвуя в группо-

вой дискуссии.

Негативной стороной данного вида работ является то, что групповые дис-

куссии требуют создания и соблюдения основных правил для студентов. Если

эти правила не соблюдаются, то существует вероятность того, что дискуссия

может быстро отклониться от темы.

У студентов со слабо развитыми умениями записывать ключевую/опорную

информацию могут возникнуть проблемы с пониманием того, что из групповых

дискуссий они должны запомнить, иногда даже больше, чем на лекциях, пото-

му что не только преподаватель, но и однокурсники говорят о занятии.

Некоторые студенты могут чувствовать себя некомфортно, находясь в цен-

тре внимания в течение всей групповой дискуссии, они часто стесняются вы-

ражать свое мнение по целому ряду причин, либо не могут что-то сказать по

обсуждаемой теме. Это представляет некую трудность для преподавателей, и,

как следствие, может привести к тому, что классная дискуссия превращается в

лекцию. Групповые обсуждения являются отличным методом обучения в соче-

тании с другими методами. Задания должны варьировать изо дня в день, чтобы

охватить как можно больше студентов. Конечно же, преподаватели должны

научить своих студентов вести конспект/ делать пометки перед началом обсуж-

Page 62: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

61

дения. Важно, чтобы преподаватели умели управлять дискуссиями, а также

правильно проводить подобные виды работ.

К наиболее эффективным видам вопросов можно отнести следующие ти-

пы:

1. Серия последовательны вопросы.

Это самая простая форма эффективного опроса. Вместо того, чтобы

напрямую задавать студентам такое задание Compare Ноlistic/Alternative

Medicine и Traditional/Conventional Medicine, преподаватель может задать чет-

кую последовательность мелких вопросов, которые приводят к одному боль-

шому обобщающему вопросу. Такие вопросы являются важными, поскольку

они создают основу для сравнения, которая и является конечной целью занятия.

2. Гипотетико-дедуктивные вопросы.

Преподаватель начинает с контекста для предстоящего вопроса. Затем со-

здается гипотетическая ситуация, c использованием условных предложений

(начинающихся с глаголов suppose, providing, imagine, etc.), которую препода-

ватель связывает с вопросом при помощи слов-связок along with, with a view of,

as, however, on the ground that, for further discussion, etc. Например:

The film we’ve just watched about the roots that led to War of the Roses. Let's

suppose that this was the case. Assuming this, does that mean that war was

inevitable?

3. Вопросы, основанные на контексте.

В этом случае, преподаватель дает контекст для предстоящего вопроса, что

подталкивает студентов к интеллектуальной работе. Условные предложения

обеспечивают связь между контекстом и вопросом, который будет задан.

Например:

In the Lord of the Rings trilogy, Frodo Baggins is attempting to get the One

Ring to Mount Doom to destroy it. The One Ring is seen as a corrupting force, nega-

tively affecting all who have extended contact with it. This being the case, why is

Samwise Gamgee unaffected by his time wearing the One Ring?

Преподаватели, которые используют подобную практику опроса на заня-

тиях, подчеркивают, что качество студенческих ответов значительно возраста-

ет. Reference:

1. Thornbury S. Conversation: From Description to Pedagogy / S. Thornbury,

D. Slade. – Conversation. CUP, 2006 – 364p.

2. Tantillo S. The Literacy Cookbook / S.Tantillo. – Jossey-Bass, Inc., 2013- 238p.

3. http://712educators.about.com/od/teachingstrategies/a/Effective-Questioning-

Techniques.htm

Page 63: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

62

РАЗВИТИЕ НАВЫКОВ УСТНОЙ КОММУНИКАЦИИ У

СПЕЦИАЛИСТОВ ПО ПРИКЛАДНОЙ ЛИНГВИСТИКЕ ДЛЯ РАБОТЫ

С КЛИЕНТАМИ ИТ КОМПАНИЙ

Никоноров С.И.

Национальный Технический Университет

«Харьковский Политехнический Институт»

г. Харьков, ул. Пушкинская 79/2, тел.707-63-60,

e-mail: [email protected]

Созданная около 10 лет назад, кафедра «Интеллектуальные компьютер-

ные системы» в 2016 отмечает пятый выпуск специалистов в области приклад-

ной лингвистики. Выпускники кафедры находят применение своим знаниям как

в сфере компьютерных технологий и программного обеспечения, так и в обла-

сти компьютерных услуг. В частности, большое число наших выпускников

успешно обеспечивают техническую и консультативную поддержку клиентов

международных компаний в сфере хостинга – факт, еще раз подтверждающий

перспективность концепции объединения обучения программированию и ино-

странным языкам.

Благодаря активной обратной связи с выпускниками, преподаватели ка-

федры имеют возможность учитывать требования к уровню владения англий-

ским языком в сфере технической поддержки и вносить изменения в учебные

планы с тем, чтобы повысить уровень квалификации будущих выпускников для

работы в условиях постоянно возрастающей международной конкуренции.

Анализ характера коммуникации операторов хостинговой компании с

клиентами позволяет выделить два основных типа их взаимодействия.

1. Обмен письменными сообщениями в режиме онлайн. Это является ос-

новным видом общения.

2. Устное общение по телефону или с применением систем коммуника-

ции типа Skype. Этот тип применяется намного реже, но именно он вызывает

наибольшее затруднение в силу лингвистических, психологических и культур-

ных различий между коммуникантами и стрессового характера общения по те-

лефону.

Эти оба вида языкового взаимодействия предъявляют общие требования

к профессиональному владению языком:

знание терминологии в сфере услуг хостинга;

знание норм речевого этикета в деловом английском языке и умение

применять соответствующие лексические и грамматические обороты в ситуа-

циях профессионального общения с клиентами компании.

С другой стороны, специфика устной коммуникации с иностранными

клиентами определяет следующие основные аспекты речевой деятельности:

1. Восприятие на слух английской устной речи с большим многообра-

зием акцентов и темпа речи.

Page 64: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

63

2. Продуцирование высказывания на английском языке на уровне, не-

обходимом для решения коммуникационной задачи.

Для успешного выполнения этих задач необходимо максимально снизить

коммуникационные барьеры между коммуникатором и реципиентом. Послед-

нее возможно при условии, если речь оператора по своим характеристикам (ло-

гическая связность, точность формулировок, темп речи, произношение и ак-

цент) в наибольшей степени приближается к речи клиента.

В условиях ограниченного времени для аудиторных занятий актуальным

становится обучение студентов наиболее эффективным методикам самоподго-

товки, которые способствовали бы развитию вышеуказанных аспектов в наибо-

лее комбинированной форме.

К их числу можно отнести следующее:

1. Метод имитации речи носителей языка с применением устройств вос-

произведения речи в цифровой записи – компьютеров, МРЗ и 4 плейеров, мо-

бильных телефонов. Сначала используются записи речи в медленном темпе, при

этом несколько раз максимально точно проговариваются вслух фразы, воспроиз-

водятся интонация, мелодика и смысловые паузы. На следующем этапе с приме-

нением того же текста, но в более ускоренной записи, отрабатывается беглость и

высокий темп речи.

2. Метод взаимной корректировки произношения. Основная идея этого

метода – совместная работа с иностранцем-носителем языка, который, в свою

очередь, изучает язык, носителем которого является студент. Занятия проводятся

дистанционно, по Skype. Каждое занятие состоит из двух равных по времени

частей, в течение которых один из участников читает фразы или текст на ино-

странном языке, а другой корректирует его произношение. При этом процесс

корректировки записывается на диктофон или с применением облачных серви-

сов и звуковые файлы высылаются участниками друг другу для последующей

отработки.

Метод был апробирован автором статьи совместно с Лю Синьтун, препо-

давателем китайского языка Института Конфуция в Харькове.

Экспериментальный характер изложенного материала отражает стремле-

ние преподавателей кафедры «Интеллектуальные компьютерные системы» по-

высить качество подготовки и помочь выпускникам – специалистам в области

прикладной лингвистики найти приложение своим знаниям в одной из наибо-

лее перспективных отраслей – в сфере компьютерных технологий и информа-

ционных услуг.

Page 65: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

64

МОДЕЛИ ПРЕДСТАВЛЕНИЯ ГЛАГОЛОВ ДЛЯ ЗАДАЧИ

АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ОНТОЛOГИИ

ПРЕДМЕТНОЙ ОБЛАСТИ

Оробинская Е.А.

Лионский университет Lyon-2 Lumier,

лаборатория ERIC,

Брон, ул. Мендес-Франс, 5, тел. (+33) 04-78 77 33 54,

e-mail: [email protected]

Одним из способов представления знаний в информационных системах

являются онтологии. С информационной точки зрения онтология представляет

собой модель предметной области, а с точки зрения технической – это иерархия

классов объектов, описанная на языке разметки, включающем элементы де-

скрипторной логики (как правило, используется OWL) [1].

Традиционно первым этапом построения онтологии считается обнаруже-

ние кандидатов-терминов, под которыми обычно подразумеваются существи-

тельные или именные группы. Формирование концептов и определение связей

между ними выполняется на последующих этапах. Изменить эту парадигму

можно, сформировав классы близких по значению глаголов, связывающих не-

большое количество общих терминов, выражающих основные понятия пред-

метной области, поскольку именно глаголы чаще всего выступают в роли пре-

дикатов, т.е. указывают на состояние или действие субъекта высказывания [2].

Определив характеристические для данной предметной области глаголы,

можно с высокой точностью находить в корпусе термины для пополнения ими

базовой онтологии.

Идея использовать глагол в качестве основного элемента, формирующего

структуру фразы, впервые была выдвинута Тесньером (Tesnière) еще в 1959 г.

Она также перекликается с моделью семантических фреймов Минского и суб-

категориальными фреймами Филлмора [3]. В настоящее время определение в

тексте глаголов как грамматического класса осуществляется с высокой точно-

стью благодаря морфологическим анализаторам (Stanford Parser, TreeTagger,

АОТ). Сложности остаются в определении таких характеристик глагола, как

валентность, грамматическая функция в предложении, семантические роли ар-

гументов, схемы управления.

Отдельной проблемой является снятие семантической неоднозначности

глаголов для последующего их объединения в семантические классы. В рамках

NLP решение этой задачи сводится к автоматическому выбору наиболее подхо-

дящего для данного глагола смысла из нескольких возможных вариантов. Су-

ществует два основных подхода для решения этой задачи. Первый заключается

в построении правил вывода на основе использования внешних лексических

ресурсов, таких как электронные словари или лексические базы данных, содер-

жащие в эксплицитной форме определение значений, описание синтаксических

структур, в которых фигурирует данное слово, особенности морфологии и т.д.

Page 66: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

65

За последнее десятилетие число ресурсов, специально разработанных для целей

NLP, заметно возросло. Помимо традиционного тезауруса WordNet, сегодня

можно использовать такие ресурсы как FrameNet и VerbOcean для английского

языка, VerbNet для французского языка, РуТез семантический тезаурус для

русского языка, а также многоязычный словарь BabelNet, использующий соб-

ственный алгоритм снятия полисемии на основе определений из WordNet и

dbpedia. Основными трудностями на пути использования этих ресурсов для це-

лей построения онтологии предметной области остаются: отсутствие единого

подхода к выработке критериев объединения глаголов в семантические классы;

отсутствие единой формы определения и описания аргументов; а также слабое

наличие профессиональных терминов в лексических базах общего назначения

[4,5].

Другой подход основан на обучении. В нем различают два вида методов:

так называемые методы обучения с учителем и полностью автоматические ме-

тоды. В первом случае требуется предварительно размеченный вручную кор-

пус. Однако ручная разметка специализированного корпуса очень трудоемка и

требует привлечения не только лингвистов, но и экспертов данной предметной

области. Именно недостаточное количество обучающей базы затрудняет ис-

пользование таких методов.

Во втором случае предполагаетсят определение значений на основе оцен-

ки совместной встречаемости данного глагола с другими словами. В последнее

время подобные методы совершенствуются за счет использования автоматиче-

ских синтаксических анализаторов, позволяющих с высокой точностью опреде-

лять синтаксические роли слов в предложениях.

Метод, основанный на формировании классов глаголов для построения и

расширения базовой онтологии, был испытан на примере области радиацион-

ной безопасности. Объединение глаголов в классы было выполнено с помощью

словаря синонимов CRISCO, а для снятия семантической неоднозначности был

адаптирован метод FCA. Для построения текстового корпуса использовались

официальные отчеты IAEA на французском языке. Список литературы

1. Buitelaar, P. Topic Extraction from Scientific Literature for Competency Man-

agement. / P. Buitelaar, T. Eigner //In Proceedings of the 3rd Expert Finder Workshop on

Personal Identification and Collaborations: Knowledge Mediation and Extraction October,

Germany, Karlsruhe, 2008.

2. Cimiano, P. Ontology-Based Interpretation of Natural Language. / P. Cimiano,

C. Unger, J. McCray // Ed. Canada: Morgan & Claypool publishers, 2014.

3. Fabre, C. Extraction de relations sémantiques entre noms et verbes au-delà des

liens morphologiques. / C. Fabre, D. Bourigault // Actes de Traitement automatique des

langues, 2006, P. 121-129.

4. Flati T., Navigli R. SPred: Large-scale Harvesting of Semantic Predicates. /

T. Flati, R. Navigli // In Proceeding of Annual Meeting of the Association for Computation-

al Linguistics, 2013, P.1222-1232.

5. Tchami, O.W. Les modèles de description du verbe dans les travaux de

Linguistique, Terminologie et TAL / O.W. Tchami, N. Grabar // In proceeding of

TALN’2014 – France, Marseille, 2014.

Page 67: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

66

ІНТЕРНЕТ ЯК ЗАСІБ СОЦІАЛЬНОЇ КОМУНІКАЦІЇ

Печенікова Л.М.

ДВНЗ «Київський національний економічний університет

імені Вадима Гетьмана»

м. Київ, проспект Перемоги, 54/1

e-mail: [email protected]

На сучасному етапі розвитку суспільства Інтернет є основним засобом

масової інформації та міжособової комунікації. Більшість науковців схильні до

думки, що поряд з усною та письмовою формами виникла особлива третя –

електронна мережна мова, а також певне комунікативне середовище, яке вона

обслуговує.

Дослідженням інформаційно-комунікативного процесу в умовах всебічного

впровадження інтернет-технологій займались вітчизняні та зарубіжні науковці,

зокрема Ф. Бацевич, А. Бєлова, Б. Гаспаров, В. Бурбело, В. Карасик, А. Князев,

М. Макаров аналізували специфіку інтернет-дискурсу; О. Винарієва,

Є. Галичкіна, С. Данилюк, М. Коломієць описували структурно-змістові та

функціонально-технічні характеристики веб-сайтів, комп’ютерних конференцій,

інтернет-новин у гіпертекстовому форматі.

Термін „комунікація” (лат. сommunicatio – роблю спільним, зв'язую)

ввійшов у науковий простір на початку XX століття, однак сьогодні він має

щонайменше три варіанти трактування: а) засіб зв'язку будь-яких об'єктів

матеріального і духовного світу; б) спілкування – передача інформації від

людини до людини; в) передача і обмін інформацією в суспільстві з метою дії

однієї людини на іншу. Так, М. Бахтін обґрунтував інтерактивний характер

комунікації та спирався на ідею обов’язковості діалогічності комунікації,

оскільки вважав, що комунікація є реакцією на попередній вислів і передбачає

комунікативну реакцію на себе. Дослідник В. Шрамм відстоював трансакційну

модель комунікації та зауважував, що комунікація – це одночасний процес

відправлення та прийняття повідомлень комунікаторами-співтворцями

комунікативного акту. Така позиція характеризує комунікацію як складний та

багатовекторний процес взаємодії адресанта та адресата, які виконують

зазначені комунікативні функції одночасно.

Кількість параметрів інтернет-комунікації обчислюється десятками,

зокрема комунікативне багатоголосся, поліфункціональність, неієрархічність,

децентралізація, переважно горизонтальні комунікативні взаємодії учасників,

високий ступінь гнучкості, рухливості, швидкість створення й розпаду

комунікативних структур і спільнот тощо (Є. Горошко, Н. Мечковської,

І. Розиної, М. Сидорової, Л. Щипициної, S. Barnes, B. Danet, S. Herring, K. Hillis,

C. Marshall, J. Suler та інші).

Характерними рисами інтернет-комунікації Н. Асмус визначає

"...діалогічність, наявність категорії авторизації з чітко вираженим суб'єктом,

включеність у соціальну діяльність, особливий характер авторства, суміщення

Page 68: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

67

категорії автор – читач, особливе уявлення про об'єкт дослідження, зняття

тимчасових і просторових обмежень, статусну рівноправність учасників,

формування загальної картини світу, необмеженість у виборі мовних засобів”

[1, с. 43].

О. Горошко зробила спробу систематизувати та визначити головні ознаки

інтернет-комунікації:

• поліфонічність;

• гіпертекстові та інтерактивні можливості;

• анонімність, дистантність, можливість “приєднатися” або “від'єднатися”

в потрібний момент спілкування, відсутність можливості примусу;

• емоційність спілкування;

• добровільний вибір контактів в Мережі [2, с. 230].

Вчені А. Атабекова, К. Іванов, Ф. Смирнов, Р. Трофімова звертають увагу,

що з появою інформаційних технологій, Інтернету виникли глобальні зміни

мови, які призвели до утворення мережевої (електронної) мови, вона обслуговує

електронні засоби комунікації. Варто відмітити, що відмінності мови, яка

функціонує в Мережі, виявляються на різних рівнях, зокрема

• змішання мовних стратегій практично в будь-якому комунікативному

інтернет-форматі (блог, форум, чат, персональна сторінка і т. д.);

• інтенсивне генерування комп'ютерного сленгу;

• відродження епістолярного жанру;

• використання мовної гри;

• висока ступінь динамічності, інтерактивності, інтер- і

гипертекстуальности текстів майже у всіх форматах інтернет-комунікації [3, с

278].

Таким чином, інтернет-комунікація є феноменом, що впливає на

діяльність усіх структур суспільства і формує його картину світу,

характеризується різноманіттям мовленнєвих практик, різними особливостями

мови, зникненням одних жанрів і появою нових, що функціонують в

електронному середовищі. На сьогодні інтернет-лінгвістика є надзвичайно

перспективною галуззю мовознавства і безсумнівно представляє великий

інтерес для дослідників, оскільки ставить перед ними нові завдання. Список літератури

1. Асмус Н. Г. Лингвистические особенности виртуального коммуникативного

пространства: дис. ... канд. филол. наук: 10.02.19 / Нина Геннадьевна Асмус. –

Челябинск, 2005 – 266 с.

2. Горошко Е.И. Лингвистика Интернета: формирование дисциплинарной

парадигмы / Е.И. Горошко // Жанры и типы текста в научном и медийном дискурсе. –

Орел: Картуш, 2007. – Вып. 5. – С. 223-237.

3. Горошко Е.И. От психолингвистики 2.0 к психолингвистике 3.0: Quo Vadis? /

Е.И.Горошко // Язык и сознание: психолингвистические аспекты. – Сб. ст. – М.:

Калуга: Эйдос, 2009. – С. 272-289.

Page 69: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

68

РОЗРОБКА ЕЛЕКТРОННОГО СЛОВНИКА ФРАЗЕОЛОГІЗМІВ

Бабаскіна В. О.

Національний технічний університет

«Харківський політехнічний інститут»

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Комп’ютерна лексикографія займає чільне місце в комп’ютерній лінгвіс-

тиці як комп’ютерний лексикографічний інструментарій у мовознавстві. За-

вдання комп’ютерної лексикографії – розробити комп’ютерні алгоритми, про-

грами, системи та технології для укладання та використання словників. Лекси-

кографічні системи дають змогу формувати словникові статті; зберігати тексто-

ву, візуальну та звукову інформацію; здійснювати обробку словникової інфор-

мації (аналіз, пошук, фільтрування, відтворення тощо) [1].

На сьогодні існують тематично різні словники. Але поза увагою науков-

ців залишились окремі галузі культури українського та російського народу, які

представлені фразеологією. Метою дослідження є створення тематичного дво-

мовного словника фразеологізмів. Представлені фразеологічні одиниці україн-

ської та російської мов.

ФО класифіковані за такими параметрами: семантико-граматичним, стру-

ктурним, експресивно-стилістичним. Вибір саме таких лексикографічних пара-

метрів зумовлений тим, що саме вони репрезентують ФО як із графічної, так і зі

смислової сторони [2].

Семантико-граматичний параметр показує яке синтаксичне місце займає

обраний фразеологізм, яким членом речення виступає, яке синтаксичне напов-

нення несе. Експресивно-стилістичний параметр показує до якого часу, стилю

відноситься ФО, в якій ситуації доречно буде використати той чи інший фразе-

ологізм. Структурний параметр графічно відображає фразеологічні одиниці.

Також кожен фразеологізм буде проілюстрований цитатним матеріалом з ху-

дожньої літератури [3].

У словниковій статті подана українська/російська ФО, її тлумачення (зна-

чення), параметри цієї ФО та переклад на російську/українську мову. Перекла-

дна функція представлена таким чином: до обраної ФО буде подаватися еквіва-

лент(и) з паралельної мови; якщо не існує повного еквівалента, то подається

описовий переклад, тобто синонім або синонімічний ряд. В російській та украї-

нській мовах, як у мовах споріднених, дуже часто трапляються повні еквівален-

ти, але синонімічний ряд при цьому теж має місце [4].

Представимо приклад структури словарної статті фразеологічного слов-

ника. Зауважимо, що обсяг граматичної інформації в словниковій статті варію-

ється в залежності від властивостей конкретної ФО.

Приклад структури словникової статті ФО “Влетіти в копієчку”:

Page 70: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

69

Влетіти в копієчку Влететь [вскочить, обойтись, встать,

влезть] в копеечку

Дорого коштувати, обійтися

кому-небудь.

что? кому? какую?

Потребовать очень больших затрат; стоить

очень дорого.

Сл.с. своб.п.с.к. дист.р.к., в предл. — сказ.

Каждый подрядчику должен остался: Ста-

ли в копейку прогульные дни. (Некрасов. Же-

лезная дорога).

Решил Поликарп в школу отдать Яшку с

Дунькой, а школы-то нет в деревне у них...

Придется в чужое село отдавать, за восемь

верст... Если на квартиру поставить там —

хлеба много потребуется. Влезет тогда

ученье в копеечку! (А. Неверов. Горшки).

Если строить прядильную машину так, как

рекомендует изобретатель «Бронзовой пря-

лки», то заводу новая затея влетит в копее-

чку. (Е. Катерли. Бронзовая прялка).

Наш словник призначений для широкого кола користувачів: наукових

працівників, письменників, журналістів, редакторів видавництв, викладачів ву-

зів, учителів, студентів, учнів та просто шанувальників українського слова. Список літератури

1. Широков В.А. Інформаційно-енергетичні трансформації та інформаційне су-

спільство / В.А. Широков // Українсько-польський науково-практичний журнал «Нау-

ка, інновація, інформація». – К. , 1996. – С. 48–66.

2. Дубічинський В.В. Українська лексикографія : історія, сучасність та

комп’ютерні технології : навч. посібник / В.В. Дубічинський. – Х. , 2004.

3. ФСУМ 1999: Фразеологічний словник української мови : В 2-х кн. / Уклад.

В.М. Білоноженко та ін. – К. : Наук. думка, 1999. – Кн.1: А-Н. – 528 с.; Кн.2: Н-Я. –

С. 529-980.

4. Фразеологический словарь русского языка / Под ред. Л.А. Войновой,

В.П. Жукова и др. – М.: Советская энциклопедия, 1967. - 543 с.

Page 71: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

70

НАИБОЛЕЕ «ПРОДУКТИВНЫЕ» ЛАТИНСКИЕ МОРФЕМЫ И ИХ

ОТРАЖЕНИЕ В ЗАПАДНОЕВРОПЕЙСКИХ И СЛАВЯНСКИХ ЯЗЫКАХ

Березовская Е.Г., Юрченко Е.Н. Национальный технический университет

“Харьковский политехнический институт”,

г.Харьков, ул.Пушкинская, 79/2, тел. 707–63–60,

e-mail:[email protected],

[email protected]

Вопросы изучения и классификации продуктивных морфем латинского

языка до сих пор остаются актуальными вопросами лингвистики, поскольку

лексика большинства западноевропейских языков заимствована из латинского

языка, и ее освоение и запоминание изучающими иностранные языки напрямую

зависят от понимания основ словообразования.

Существует большое количество морфем латинского происхождения, не-

сущих определенное лексическое и грамматическое значение, которые могут

являться продуктивными в современных западноевропейских (английском,

немецком, французском) и славянских (русском, украинском) языках.

Морфема – минимальная значимая часть слова. Различают такие морфе-

мы, как основа, корень, префикс, суффикс, постфикс, интерфикс, флексия.

Каждая морфема выражает грамматическое и/или лексическое значение.

Продуктивностью в языкознании называют пригодность морфемы, сло-

вообразовательной или словоизменительной модели для образования новых

слов и словоформ. Морфемы с высокой продуктивностью называются продук-

тивными, с низкой – непродуктивными. Продуктивность характеризует частот-

ность появления морфемы в неологизмах [1].

Так, в латинском языке имена существительные и прилагательные, реже

глаголы часто образуются методом суффиксации. Наиболее продуктивными

основами латыни являются глагольные формы инфекта и супина, к которым

для образования основ добавляются различные суффиксы. Причем существует

классификация образования существительных от разных основ и конечных

словообразовательных элементов с вытекающим из этого сочетания значением.

Например, в латинском языке от основы супина при помощи -torium/-sorium

образуются существительные: лат. auditorium – рус. аудитория. Таким же спо-

собом образуется ряд слов в современных языках: conservatoire (англ.);

Konservatorium (нем.); консерватория, санаторий (рус.) [2].

Некоторые латинские префиксы составляют часть значения слова, и мно-

гие стали частью корня. Префиксы con-, co- означают ‘сближение, пребывание

совместно’: лат. constituere – рус. составить, лат. concordia – рус. согласие, ко-

торые в итоге стали частью таких слов, как constitution, collect (англ.);

Konkretum, Kollektion (нем.); коллекция, коммуникация (рус.) [2].

Согласные некоторых латинских префиксов ассимилировались, оставив

от себя в качестве части корня, только гласную, которая, однако, не потеряла

Page 72: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

71

изначальное значение префикса. Также эти префиксы могут иметь разное зна-

чение в зависимости от того, какой частью речи является слово, в которое они

входят. Например, префикс prae- в глаголах означает ‘предшествование,

нахождение впереди’, а в прилагательных – ‘усиление качества предмета’:

predict (англ.), Präsident (нем.), превосходный (рус.) [2].

Практическое значение в изучении этой темы имеет также создание авто-

матизированных словообразовательных гнездовых словарей, автоматизация ко-

торых позволит, по нашему мнению, значительно облегчить носителям русско-

го и украинского языков изучение и запоминание лексики иностранных запад-

ноевропейских языков (английского, немецкого, французского).

В истории языкознания неоднократно предпринимались попытки создать

словообразовательные словари, что свидетельствует о пристальном внимании

филологов-теоретиков и лингвистов к прикладным проблемам словообразова-

ния. Однако, первый большой гнездовой словарь русского языка появился

только в конце ХХ века [5]. После монографического изложения принципов

разработки словообразовательных гнездовых словарей, проведенного впервые в

языкознании А. Н. Тихоновым, особую значимость приобрели вопросы лекси-

кографического обеспечения активно развиваемой словообразовательной

науки. При этом лексикографические исследования проводились в двух основ-

ных направлениях: теория и практика создания специального словообразова-

тельного гнездового словаря и критический разбор подачи словообразователь-

ной информации в существующих словарях различных типов (прежде всего в

толковых). Изучение закономерностей гнездования лексики подтвердило зна-

чимость таких важных понятий, как словообразовательное гнездо (СГ), отра-

жающее общность семьи однокоренных слов в плане выражения и содержания;

упорядоченное сорасположение элементов гнезда в словообразовательных па-

рах и цепях в соответствии с установленными направлениями производности;

внутренняя иерархичность построения СГ, дифференцируемого по характеру

словообразовательной деривации каждого из его производных и др. [3].

Дальнейшей целью и задачей наших исследований мы видим разработку

автоматизированной системы многоязычного словообразовательного гнездово-

го словаря, основой словника которого послужат «продуктивные» морфемы ла-

тинского языка. Список литературы

1. Продуктивность (лингвистика) [Электронный ресурс]. – Режим доступа :

https://ru.wikipedia.org/wiki/Продуктивность_(лингвистика)

2. Лапина М.С. Латинский язык и античная цивилизация: Учеб. пособие для

студентов гуманитарных факультетов / М.С. Лапина. – Изд. допл. и дораб. – Х., 1998.

3. Латыпова И.А. Словообразовательные словари гнездового типа в русском и

татарском языках [Электронный ресурс]. – Режим доступа :

http://cyberleninka.ru/article/n/slovoobrazovatelnye-slovari-gnezdovogo-tipa-v-russkom-i-

tatarskom-yazykah

4. Тихонов А.Н. Проблемы составления гнездового словообразовательного

словаря современного русского языка / А.Н. Тихонов. - Самарканд, 1971. - С. 18.

5. Тихонов А.Н. Словообразовательный словарь русского языка : В 2 т. Ок.

145000 слов / А.Н. Тихонов. - 2-е изд., стер. – М. : Рус. яз., 1990.

Page 73: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

72

АВТОМАТИЗОВАНА ЛЕМАТИЗАЦІЯ ДІЄСЛІВ

З ВІДОКРЕМЛЮВАНИМИ ПРЕФІКСАМИ У НІМЕЦЬКІЙ МОВІ

Борисова Н.В., Оліфенко І.В. Національний технічний університет

«Харківський політехнічний інститут», м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60

e-mail: [email protected], [email protected]

Вирішення однієї з задач морфологічного аналізу, а саме задачі лематиза-

ції, є актуальним для розв’язання багатьох завдань автоматизованої й автомати-

чної обробки будь-якої природної мови, наприклад, таких як індексування, по-

шук та класифікація веб-документів; визначення унікальності текстового кон-

тенту; створення машинних словників; машинний переклад; морфологічна роз-

мітка корпусів текстів; розробка навчальних систем з вивчення іноземної мови

та ін. Вибір у якості об’єкта дослідження дієслів німецької мови з відокремлю-

ваними префіксами зумовлений тим, що вони мають певні особливості, що

представляють інтерес для лінгвістичного дослідження. Складність лематизації

німецьких дієслів з відокремлюваними префіксами полягає у тому, що такий

префікс може знаходитися на певній відстані від дієслова, частиною якого він є.

Префікс може стояти або в кінці речення, або у кінці головного речення у скла-

ді складнопідрядного, наприклад:

– Ich hole selbst das Buch wieder. – Я сам заберу книгу (відокремлюваний

префікс wieder знаходиться у кінці речення);

– Horst teilte unseren Kollegen mit, dass wir sämtliche Versuche durchgeführt

haben. – Хорст повідомив нашим колегам, що ми провели всі експерименти.

(відокремлюваний префікс mit зайняв останнє місце у головному реченні, що

входить до складу складнопідрядного).

Також відокремлювані префікси можуть частково або повністю змінюва-

ти семантику дієслова, уточнювати та конкретизувати його, наприклад:

● brechen – зламати / durchbrechen – проломити (уточнення);

● bauen – будувати / einbauen – вбудувати (уточнення);

● streuen – розсіювати / drüberstreuen – посипати зверху (конкретизація);

● machen – робити / zumachen – закрити (повна зміна семантики).

Також вибір об’єкта дослідження зумовлений тим, що існуючі лематиза-

тори німецької мови мають певні недоліки, наприклад: обробляють переважно

іменники, часто в аналізі не враховують контексту, в якому вживається те чи

інше слово, працюють під певною операційною системою, на певній апаратній

платформі і т.д.

З урахуванням описаних вище особливостей та для усунення зазначених

недоліків було розроблено наступний алгоритм автоматизованої лематизації

німецьких дієслів з відокремлюваними префіксами:

1. Введення або завантаження тексту користувачем.

2. Поділ тексту на речення.

3. Пошук у реченнях відокремлюваного префікса із заданого списку.

Page 74: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

73

4. Відбір речень, у яких було знайдено відокремлювані префікси. Якщо

таких речень немає, програма видає відповідне повідомлення і пропонує корис-

тувачеві повернутися до аналізу текстів.

5. Пошук дієслів у реченні.

6. Приєднання префікса до дієслова.

7. Нормалізація дієслова, тобто приведення словоформи до її початкової

словникової форми – інфінітива.

8. Представлення користувачеві нормалізованого дієслова з його перекла-

дом у вікні з результатом.

Для перекладу дієслів використовуватиметься онлайн-перекладач Google.

Робоче вікно програми лематизації, яка розробляється, з текстом та ре-

зультатом роботи матиме вигляд, представлений на рисунку 1.

ЛемматизаторЛемматизатор

Spät am Abend ruft mich Erika an und teilt mir ihre Freude mit: Sie und ihre Familie ziehen morgen in eine neue Wohnung ein! Ich gratuliere Erika und ihrer Familie. "Danke, danke vielmals, liebe Birgit! Ich bin so glücklich!", sagt Erika. – "Wie groß ist die Wohnung?", frage ich. – "Oh, sie besteht aus 3 Zimmern. Es gibt natürlich auch eine Küche und ein Badezimmer. Die Wohnung ist ganz modern, sie hat allen Komfort: Gas, Zentralheizung, warmes und kaltes Wasser, Telefon und sogar einen Müllschlucker im Treppenhaus! Aber verzeih mir bitte, ich habe es eilig. Komm doch zu uns und du siehst alles selbst. Ich richte meine Wohnung ein. Ich brauche deinen Rat und deine

Загрузить текст Анализ текстаОчистить

Результат

einziehen – переезжатьeinrichten – обставлять мебельюaufschreiben – записатьauflegen – вешать трубкуaufstehen – вставатьaussteigen – выходить

Рисунок 1 – Робоче вікно лематизатора

Вікно з повідомленням про відсутність у тексті дієслів з відокремлюва-

ними префіксами матиме вигляд, представлений на рисунку 2.

Глаголы не найденыГлаголы не найдены

В данном тексте не найдены глаголы с отделяемыми приставками.

Вернуться к анализу текстов?

Да Нет

Рисунок 2 – Вікно з повідомленням

Таким чином, можна стверджувати, що програма, яка розробляється, задо-

вольнятиме потреби користувача щодо лематизації німецьких дієслів з відокрем-

люваними префіксами.

Page 75: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

74

СТВОРЕННЯ ЕЛЕКТРОННОГО НАВЧАЛЬНОГО

ТЕРМІНОЛОГІЧНОГО СЛОВНИКА З ПРИКЛАДНОЇ ЛІНГВІСТИКИ

Борисова Н.В., Тимошенко А.О.

Національний технічний університет «Харківський політехнічний інститут»,

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60 e-mail: [email protected], [email protected]

Актуальність створення електронного навчального термінологічного сло-

вника з прикладної лінгвістики обумовлена, по-перше, відсутністю словників

такого типу у мережі Інтернет, і, по-друге, тим, що існуючі електронні словни-

ки, що містять терміни з прикладної лінгвістики, мають певні недоліки, напри-

клад, мають обмежені можливості пошуку; не містять джерела походження те-

рмінів; мають надмірний обсяг; не завжди мають гіперпосилання на інші слов-

никові статті термінів, що зустрічаються у тлумаченні даного терміну; не міс-

тять перекладних еквівалентів; їх не можна завантажити повністю або частково.

Виділивши ці недоліки можна створити словник вільний від них, але зі

збереженням усього необхідного з точки зору користувача функціоналу.

Планується створити електронний навчальний термінологічний словник з

прикладної лінгвістики у вигляді окремого веб-сайту, тобто декількох веб-

сторінок, а саме:

1) головна сторінка з привітанням до відвідувачів;

2) сторінка з інформацією щодо можливостей використання веб-сайту;

3) сторінка пошуку;

4) сторінка додавання термінів з відповідною формою;

5) сторінка, на якій можна завантажити словник;

6) сторінка зі статистичною інформацією щодо осіб, які надсилали термі-

ни до словника.

Користувачеві надаватимуться такі можливості використання веб-сайту:

вхід на російській або українській мові; різні варіанти пошуку термінів: за відпо-

відною буквою російського або українського алфавітів, у повному списку термі-

нів, у пошуковому вікні; додавання термінів до словника; завантаження словника.

Аналіз даних словникових статей паперових та електронних словників рі-

зних типів дозволяє зробити висновки про те, що словники можуть містити такі

поля: 1) вхід словникової статті; 2) заголовне слово; 3) зона значення; 4) зони

синонімів, паронімів, омонімів, антонімів; 5) інформація про словотворчі особ-

ливості; 6) зона контекстів, сполучуваності; 7) орфоепічна й орфографічна ін-

формація; 8) зона наголосів; 9) стилістичні помітки; 10) зона форм;

11) приклади, ілюстрації; 12) інформація про фразеологізми; 13) зона семанти-

чної інформації; 14) моделювання дискурсу.

При цьому узагальнена словникова стаття зазвичай містить такі типи лек-

сикографічної інформації:

1. Базова інформація: ключ запису (заголовне слово словникової статті);

фонетична інформація, як правило, транскрипція ключа запису; набір ознак клю-

Page 76: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

75

ча (частина мови, рід, семантичний клас і т.п.); короткий коментар або помітка.

2. Група даних з інформацією щодо перекладів: короткий коментар до пе-

рекладів; список перекладів; приклади використання перекладів.

3. Групи пов’язаних записів: ідентифікатор даних (фразеологізм, у складі

якого є ключ запису); коментар до пов’язаного запису;

4. Групи тематично пов’язаних записів – інформація щодо інших слів та

виразів, які пов’язані з ключем за змістом.

5. Коментарі до записів – інформація щодо ключа в цілому: дані про ви-

користання ключа; граматична інформація і т.п.

6. Тлумачення – інформація про значення та відтінки значення ключа.

7. Групи синонімів: короткий коментар до групи; набір синонімів, що

входять до групи; опис даних; приклади використання.

8. Групи антонімів (аналогічно до інформації групи синонімів).

Проаналізувавши наведену вище інформацію було обрано наступну стру-

ктуру словникової статті електронного навчального термінологічного словника

з прикладної лінгвістики:

1. Заголовне слово.

2. Переклад заголовного слова на англійську та німецьку мови.

3. Тлумачення.

4. Джерело інформації, з якого було взяте тлумачення.

5. Дата включення в словник.

6. Особа, яка надіслала термін та його тлумачення.

У тексті тлумачення можуть бути присутні посилання на інші терміни,

що містяться у словнику. Посилання оформлені у вигляді гіперпосилань, при

переході за якими користувач може побачити словникову статтю до відповід-

ного терміну. На рисунку 1 представлено приклад оформлення словникової

статті майбутнього словника.

КОМП’ЮТЕРНА ЛЕКСИКОГРАФІЯ (англ. Computational lexicography, нім.

Computer Lexikographie) – це багатоаспектна галузь, що являє собою:

а) прикладну наукову дисципліну на межі мовознавства та інформатики, яка

вивчає способи і прийоми застосування методів інформаційної науки і техно-

логії у теорії та практиці створення широкого спектра лексикографічних сис-

тем; б) галузь комп’ютерної індустрії, яка швидко розвивається головним чи-

ном завдяки тому, що лексикографування знань є одним із ефективних спо-

собів їх виявлення та поширення.

Джерело: Широков В.А. Комп’ютерна лексикографія / В.А. Широков. – Київ : Нау-

кова думка, 2011. – 352 с.

Дата додавання: 21.12.2015

Особа, яка надіслала: Тимошенко Анастасія, студентка групи ІФ-82а, НТУ «ХПІ»

Рисунок 1 – Приклад оформлення словникової статті майбутнього словника

Таким чином, можна стверджувати, що словник, який розробляється, за-

довольнятиме усі потреби користувача щодо його використання та поповнення.

Page 77: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

76

СЕМАНТИКО-ФУНКЦИОНАЛЬНЫЙ АСПЕКТ ИНТЕРНЕТ-СЛЕНГА

Бородина А.Р. Национальный технический университет

“Харьковский политехнический институт”, г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60,

e-mail: [email protected]

В современном Интернет-пространстве сленг стал неотъемлемым ин-

струментом коммуникации и одним из актуальных направлений исследований

внутриязыковой мобильности лексики в лексикологии.

Интернет-сленг – набор новых особых слов или значений уже извест-

ных слов, используемый как профессиональной группой IT-специалистов, так и

другими пользователями компьютеров и Интернета [1].

Появление Интернет-сленга обусловлено развитием информационных

технологий и, как следствие, большого количества связанных с ними терминов

и понятий, например, инсталляция, винчестер и т.д. Вместе с тем широкое рас-

пространение получили компьютерные игры, где присутствуют определенные

обозначения понятий, например, квест («Quest» – поиск), RPG («Role-Playing

Game»), скилл («Skill» – умение) и т.д. [2].

При этом основные пути пополнения сленга – это заимствование из дру-

гих языков и из других жаргонов, образование новых слов от основ слов лите-

ратурного языка по словообразовательным моделям, различные формальные

преобразования слов литературного языка и семантическая деривация [3].

Сленговые слова, в частности, Интернет-сленг, образуются с помощью

трансформации термина, как правило, большого по объему или труднопроизно-

симого. Это объясняется тем, что пользователи Интернета ищут способы мак-

симально сократить слова для максимально лаконичного выражения сообще-

ний. Так, например, в игровом сленге, из-за динамичности игр и недостаточно-

го для игрока времени на написание развернутых сообщений, преобладают,

например, такие лексические сокращения, как: ХП («Health point»), БМ («Bad

manners») и др [4].

Стремление к лингвистической экономии, особенно необходимой в элек-

тронном языке, диктует продуктивность акронимического метода формирова-

ния инновационных единиц: cul – see you later, thx – thanks и др. Например,

фразу «In my humble opinion», которая используется для выражения непредвзя-

того мнения, сокращают до акронима «IMHO». В русском языке сокращение

«ИМХО» остается непереводимым, но выражает тот же смысл.

Главный источник иноязычных заимствований в современном сленге –

английский язык. Например, мэн (man - мужчина), фэн (fan - поклонник, бо-

лельщик). К основным способам образования сленговой лексики, заимствован-

ной из английского языка, относятся:

1. Калька. Включает в себя заимствования слов, которые грамматически

не присущи русскому языку. При этом слово заимствуется полностью со своим

произношением, грамматикой и значением (bug – баг, stream – стрим).

Page 78: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

77

2. Полукалька. При переходе термина из английского языка в русский,

последний подгоняет принимаемое слово под нормы не только фонетики, но и

грамматики. Например, к глаголам добавляются флексии: to use – юзать, to

click – кликать.

В связи с необходимостью сокращения длинных профессионализмов для

образования сленговой лексики используется такой способ, как универбация

(strategic game – стратегия, first play shooter – шутер). Из словосочетания за-

имствуется одно слово и при этом оно получает значение всего словосочетания.

3. Перевод. Очень часто сленговая лексика образуется способом перевода

английского термина. Одним из способов является перевод слова с использова-

нием уже существующих в русском языке нейтральных слов, которые при этом

приобретают новое значение (e-mail – мыло) [5].

Образование новых сленговых слов и выражений так же происходит бла-

годаря Интернет-мемам. Интернет-мем – единица культурной передачи или

инициации, приобретшая популярность в Интернет-пространстве посредством

распространения в социальных сетях, на форумах, в блогах, в мессенджерах и

др. [6]. Интернет-мемы представляют собой фразу или изображением с подпи-

сью. Затем такие «фразеологизмы» из Интернета переходят в речь, становясь

сленговыми. Однако, они так же быстро могут и исчезать, становясь неактуаль-

ными. Одним из самых ярких примеров является аббревиатура LOL («Laughing

Out Loud» или «Lots of Laught»). Термин является акронимом и используется в

сетевой коммуникации для выражения смеха в письменной форме. Следует за-

метить, что в 2011 году вместе с акронимом OMG («Oh my God») был внесен в

Оксфордский словарь.

Таким образом, исследование показало, что Интернет является основным

генератором сленга, поскольку из-за его общедоступности и распространенно-

сти Интернет-сленг быстро входит в обиход. Кроме того, в ситуации общения

онлайн Интернет-сленг служит для обозначения предметов и понятий в случае,

когда пользователь Интернет-коммуникаций не находит соответствующей (ла-

коничной) лексемы в литературном языке. При этом образование новой сленго-

вой лексики может способствовать развитию словарного состава того или ино-

го языка. Список литературы:

1. Калита И.В. Стилистические трансформации русских субстандартов, или

книга о сленге / И.В. Калита. – М. : Дикси Пресс, 2013. – 240 с.

2. Орлова Н.О. Сленг vs жаргон: проблема дефиниции / Н.О. Орлова // Яро-

славский педагогический вестник. – Ярославль : ЯГПУ имени К.Д. Ушинского, 2004.

3. Гловинская М.Я. Современный русский язык: Активные процессы на рубеже

XX— XXI веков / М.Я. Гловинская, Е.И. Галанова и др. – Ин-т рус. яз. им. В. В. Ви-

ноградова РАН. – М. : Языки славянских культур, 2008. – 712 с.

4. Лихолитов П.В. Компьютерный жаргон [Электронный ресурс]. – Режим до-

ступа : http://linguistic.ru/index.php?op=content&module=main&id=136

5. Мелконян Н.И. К вопросу о способах образования компьютерного сленга

[Электронный ресурс]. – Режим доступа: http://cyberleninka.ru/article/n/k-voprosu-o-

sposobah-obrazovaniya-kompyuternogo-slenga#ixzz44PZN5ovY

6. Докинс Р. Эгоистичный ген / Р. Докинс. – М. : Мир, 1993. – 318 с.

Page 79: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

78

ВПРОВАДЖЕННЯ АВТОМАТИЗОВАНОЇ НАВЧАЛЬНОЇ СИСТЕМИ З

ФІЛОСОФІЇ

Бугай К.В. Національний технічний університет

"Харківський політехнічний інститут", м.Харків, вул.Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Впровадження нових систем навчання, використання всього нового і про-

гресивного в світовій науці і практиці, підготовка висококваліфікованих фахів-

ців широкого профілю, безперервність і ступеневість навчання, її випереджаю-

чий характер – такі завдання стоять перед сучасною вищою освітою. Реалізація

нових педагогічних технологій сьогодні неможлива без ефективного викорис-

тання комп'ютера від допоміжних засобів до основних у дистанційному на-

вчанні, отже, створення навчальних систем на базі комп’ютера – це один із пер-

спективних способів підвищення ефективності навчання [1].

Автоматизовані навчальні системи (АНС) – це сукупність пов'язаних в

єдине ціле технічних, програмно-алгоритмічних, лінгвістичних та інформацій-

но-методичних засобів, які призначені для автоматизації навчального діалогу,

пошуку та обробки навчальної інформації. На сьогоднішній день дистанційне

навчання стало популярною (іноді додатковою) формою отримання освіти [2].

Предметом даного дослідження є саме розробка та впровадження автоматизо-

ваної навчальної системи з філософії.

За джерелом [3], під філософією будемо розуміти особливу форму пізнан-

ня світу, що виробляє систему знань про фундаментальні принци-

пи буття людини, про найзагальніші суттєві характеристики людського став-

лення до природи, суспільства та духовного життя у всіх його основних про-

явах. Авжеж, виникає питання: чому ж саме буде розроблятися АНС з філософії

та хіба сучасні науки не надають необхідної інформації про все, що потрібно

знати спеціалісту? Відповідь на це питання представлено у роботі [4], де сказа-

но, що наукові дослідження та розуміння тих чи інших явищ залежать від суку-

пності загальнонаукових концептуальних і методологічних принципів, які фор-

муються у філософії. Це особливо очевидно, коли предмет наукового дослі-

дження, наприклад, розвиток атомної енергетики, можна аналізувати з економі-

чного, екологічного, технологічного, відомого та ін. поглядів, розглядаючи різ-

ні аспекти одного й того самого питання або поняття.

На основі аналізу роботи [5], можна зобразити одну з можливих структур

даної автоматизованої навчальної системи з філософії з використанням елемен-

тів штучного інтелекту. Вона буде складатися з таких блоків:

1. Об'єкт навчання – учень, студент.

2. Інтерфейс користувача (ІК) – дружній інтерфейс взаємодії об'єкту на-

вчання з системою на основі діалогу «учень-комп'ютер». Через нього здійсню-

ється обмін інформацією між об'єктом навчання і АНС.

Page 80: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

79

3. Підсистема теоретичних відомостей здійснює подачу навчальної інфор-

мації по каналу прямого зв'язку об'єкта навчання через ІК.

4. Інформаційно-довідкова підсистема (підсистема «Допомога») видає до-

відки по користуванню навчальною системою.

5. Підсистема введення – через неї об'єкт навчання вводить числові вели-

чини та вибирає певні значення відповіді з допомогою системи меню.

6. Підсистема контролю організовує та проводить процес навчання, пере-

віряє правильність розв'язку поставлених проблем, генерує внутрішні помилки

системи.

7. Підсистема обробки помилок визначає характер помилки, допущеної

об'єктом навчання при тестуванні, і фіксує її черговість.

8. Машина висновків повідомляє про помилку допущену учнем і у відпові-

дності до її характеру та черговості видає коригуючу інформацію, використо-

вуючи базу знань.

9. Внутрішній інформаційний інтерфейс використовується для передачі

інформації між окремими підсистемами АНС.

10. Підсистема обчислень здійснює еталонні обчислення для перевірки

правильності відповідей при тестуванні.

11. Підсистема результату призначена для обробки результатів навчання,

оцінювання знань учня та видачі результатів на екран дисплею і запису їх в

файл результатів.

12. БЗ – база знань, яка містить дидактичний матеріал для підсистеми тео-

ретичних відомостей, а також коригуючу інформацію для машини висновків.

13. СУБЗ – система управління базою знань.

14. БД (база даних) – різнорідна інформація, яку використовує підсистема

«Допомога» та машина висновків.

15. СУБД – система управління базою даних, яка забезпечує доступ підси-

стеми «Допомога» до необхідної інформації з бази даних.

Запропонована АНС з філософії розробляється у вигляді сайту з підклю-

ченням JavaScript та БД. Меню сайту має лекції з курсу філософії на різні теми,

відео лекцій та графічні матеріали. Після закінчення лекції учню буде запропо-

новано пройти контроль знань, після якого він матиме змогу отримати сертифі-

кат з вивчення курсу. У перспективах розвитку даної АНС, буде розроблятися

словник з основних термінів з філософії, який буде здійматися з декількох дже-

рел та поповнюватися. Список джерел інформації

1. Меняйленко О.С. Автоматизовані педагогічні навчальні системи : Моногра-

фія / О.С. Меняйленко – Луганськ: Альма-матер, 2003. – 274 с.

2. Полат Е.С. Дистанційне навчання : Монографія / Е.С. Полат, М.Ю. Буханкіна,

М.В. Моїсеєва, 2004. – 416с.

3. Новітній філософський словник: 3-е вид., випр. – Мн.: Книжковий Будинок.

2003.— 1280 с.

4. Як і для чого вивчати філософію?: [Електронний ресурс]. – Режим доступу: -

http://vlp.com.ua/files/130441_vstup.pdf.

5. Розробка автоматизованих навчальних систем на основі методики програмо-

ваного навчання: [Електронний ресурс]. – Режим доступу: - http://uchi.ucoz.ru/.

Page 81: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

80

ІНТЕРНЕТ-ЛІНГВІСТИКА:

ВІДРОДЖЕННЯ ЕПІСТОЛЯРНОГО ЖАНРУ

Верховець М.В.

Національний технічний університет «Харківський політехнічний інститут»

м. Харків, вул. Пушкінська, 79/2, тел. 0509972673, e-mail: [email protected]

Інтернет-лінгвістика – це нова проблемна область знань в рамках якої ви-

вчаються основні фонетичні, граматичні, семантичні, словотворні особливості

функціонування природної мови у віртуальному просторі Інтернету. Також у

сферу досліджень даного лінгвістичного напрямку входять мови спілкуваня у

мережі, термінологічна система Інтернету, література, породжена на його прос-

торах, тощо [1].

Основною метою Інтернет-лінгвістики є опис та пояснення особливостей

функціонування мови в Інтернеті з врахуванням складної взаємодії деякої відк-

ритої множини факторів при початковій включеності людини до соціально-

культурного контексту взаємодії у мережі.

Об’єктом дослідження Інтернет-лінгвістики є електронна комунікація, а

саме комунікативна взаємодія в глобальній комп’ютерній мережі Інтернет.

Предметом досліджень є лінгвістичні релеватні особливості електронної кому-

нікації на різних мовних рівнях: морфологічному, лексичному, синтаксичному,

текстовому, комунікативному і т.д. [2]

Активне функціонування Інтернету в усіх сферах життєдіяльності люди-

ни впливає на комунікативні особливості соціуму, зумовлює вироблення нових

форм спілкування. Зміна формату і способу комунікації трансформує лінгвальні

одиниці, продукуючи видозміну значень слова, появу нових лексем, зміну гра-

матичної структури, спричиняє появу нових особливостей у стилях і жанрах.

Сучасні технічні можливості дають змогу реалізувати такі форми текстових по-

відомлень, які раніше ніхто не міг передбачити. Нові форми комунікації вияв-

ляються в усіх стилях та жанрах, проте не завжди однаковою мірою. Зважаючи

на те, що комунікативне середовище сучасного Інтернету передбачає значно

швидше, структурно простіше, часто некодифіковане, ненормативне спілкуван-

ня, найсуттєвіших змін зазнали саме розмовний стиль та стилі й жанри, які бі-

льшою мірою тяжіють до розмовності, зокрема епістолярний жанр.

Інтернет став джерелом нових слів, нової термінології, нових можливос-

тей епістолярного жанру. Електронні листи, з одного боку, відродили цей дав-

ній жанр, а з іншого — видозмінили його до коротких, редукованих форм, на-

ближаючи цей жанр ще до більшої розмовності тексту.

Як відомо, до епістолярних творів належать перш за все листи, а також

щоденники, записки, мемуари тощо.

Для листування (звичайного і електронного) характерні такі ознаки: ши-

роке використання у кличній (часто пестливій) формі звертань; наявність тра-

диційних форм на початку і в кінці послання; наявність у тексті особливих сло-

Page 82: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

81

восполучень з дієсловами наказового способу; використання побажань, вітань;

невимушеність у доборі мовних засобів; безпосередність у вираженні емоцій;

вживання граматичних конструкцій, властивих розмовній мові. А втім, елект-

ронна кореспонденція відрізняється від звичайних листів. Їй властива довільна

й необмежена практика обміну листами, при цьому скорочується відстань у часі

й електронні листи набувають ознак діалогічної (чи полілогічної) розмови, чого

немає у звичайних листах. Часто тематика листування справляє враження про-

довження тієї самої розмови. В такому разі комуніканти навіть нехтують одні-

єю з найвиразніших ознак жанру — привітально-прощальними конструкціями.

Сучасні технічні засоби дають змогу отримувати й надсилати електронні листи

дуже швидко, що скорочує часову відстань між електронними листами-

повідомленнями. А через це сучасний епістолярний жанр набуває динамічності.

Така специфіка призводить до використання спрощених синтаксичних конс-

трукцій, що впливає на змістову й стилістичну форму повідомлення [3].

Зовнішні атрибути оформлення листа теж змінилися при спілкуванні еле-

ктронною кореспонденцією. Якщо в звичайному листі обов’язкова поштова ад-

реса комуніканта, то сьогодні адресу змінила коротша інформація — електрон-

на адреса особи чи організації. І знову ж видно, як спрацьовує механізм кон-

денсування часу та власне його економії — сьогоднішній лист передбачає ви-

користання такого інформативно-технічного атрибуту, як зазначення теми, чо-

го, звичайно ж, у неелектронних листах немає.

Диференційна ознака одного з різновидів епістолярного жанру — щоден-

ників, яка відрізняє їх від листів, що мають двосторонній характер, — односто-

ронній характер спілкування. Саме орієнтування на адресата, нехай навіть уяв-

ного, вирізняє цей різновид епістолярного жанру. Він реалізувався у сучасній

інтернет-комунікації у формі блогів — специфічних мережевих щоденників.

Особливість цього різновиду комунікації виявляється в тому, що такий щоден-

ник (на відміну від звичайного) відкритий для багатьох користувачів. На блог

як різновид електронного щоденника покладається вагома комунікативна фун-

кція, оскільки він передбачає сторонніх читачів, які можуть вступити в публіч-

ну полеміку з автором. Здебільшого блог має публічний характер, однак є й

приватні блоги, закриті для загалу.

Отже, поява Інтернету значно звузила сферу функціонування звичайних

форм епістолярного жанру, проте разом із тим дала змогу реалізуватися цьому

стилістичному різновидові мови у новій формі. Епістолярний жанр почав нове

життя в електронній кореспонденції та блогах, а для окремих, звичайних листів

залишається дедалі менше місця у житті людини. Список літератури:

1. Ланде Д.В. Інтернетика: Навігація в складних мережах: Моделі та алгорит-ми / Д.В. Ланде. – М. : Лабирикон, 2009, –264с.

2. Горошко Е.И. Лингвистика Интернета: формирование дисциплинарной па-радигмы / Е.И Горошко. – СПб, 2012, – 165с.

3. Иванов Л.Ю. Язык в электронных средствах коммуникации / Л.Ю. Иванов. – М. : Флинта, Наука, 2003. – С.791-793.

4. Чемеркін С.Г. Нове життя епістолярного жанру / С.Г. Чемеркін. – К., 2014, С.1-4.

Page 83: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

82

ИСПОЛЬЗОВАНИЕ МОДАЛЬНЫХ ГЛАГОЛОВ ДЛЯ КЛАССИФИКЦИИ

ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ

Гайденко Т.В.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60,

e-mail:[email protected]

Инструкция по эксплуатации представляет собой описание изделия и

правил его использования. Большинство производителей включают буклеты с

инструкцией по эксплуатации в комплект доставки. Такие буклеты содержат

описание частей изделия, если необходимо, последовательность его сборки, ре-

комендации по настройке, пользованию и обслуживанию. Эти описания снаб-

жаются иллюстрациями, схемами и чертежами. Особое внимание в правилах по

эксплуатации уделяется правилам безопасности. Для изделий, экспортируемых

в разные страны, инструкции по эксплуатации часто выполняются на несколь-

ких языках.

Руководство пользователя (англ. user guide или user manual), руководство

по эксплуатации, руководство оператора — документ, назначение которого —

предоставить людям помощь в использовании некоторой системы. Документ

входит в состав технической документации на систему и, как правило, подго-

тавливается техническим писателем. Большинство руководств пользователя

помимо текстовых описаний содержит изображения. В случае программного

обеспечения, в руководство обычно включаются снимки экрана, при описании

аппаратуры — простые и понятные рисунки или фотографии. Используется

стиль и язык, доступный предполагаемой аудитории, использование жаргона

сокращается до минимума либо подробно объясняется.

В данном исследовании проверялась гипотеза возможности классифика-

ции некоторых видов технической документации по наличию определенных

видов модальных глаголов в документах. Модальные глаголы английского язы-

ка выражают не действие, а только отношение к действию (возможность, веро-

ятность, необходимость и т.д.), в то время как само действие выражается инфи-

нитивом смыслового глагола без частицы to.

Для проверки данной гипотезы рассматривались фрагменты текстов ру-

ководств пользователей мобильных телефонов, которые необходимо разделить

или классифицировать на три группы (инструкция, описание и связанная ин-

формация).

В ходе работы был создан программный продукт, позволяющий опреде-

лить частоту всех видов модальных глаголов в различных текстах. В результате

были выделены следующие модальные глаголы, которые были объединены в

смысловые группы.

К первой группе были отнесены модальные глаголы can, cannot, can't. Can

переводится на русский язык как «мочь, уметь, иметь способность к чему-

Page 84: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

83

либо». В инструкциях употребляется для выражения возможности или способ-

ности совершить действие. Также используется в случае запрета или разреше-

ния.

Ко второй группе could, could not, couldn't. Модальный глагол could в ин-

струкциях имеет значение вероятности или возможности в прошлом. Он может

использоваться для выражения просьбы и предложения. Также глагол could ча-

сто используется в условных предложениях в качестве условной формы глагола

can.

К третьей группе may, may not, mayn't. В утвердительных и вопроситель-

ных предложениях инструкций для выражения разрешения выполнить дей-

ствие. В отрицательной форме может выражать запрет выполнять действие.

К четвертой группе might, might not, mightn't. В руководствах пользовате-

лей употребляются в косвенной речи, зависящей от глагола в прошедшем вре-

мени для выражения разрешения или для выражения предположения.

К пятой группе must, must not, mustn't. В утвердительных и вопроситель-

ных предложениях инструкций выражают необходимость, повинность, обяза-

тельство, а также совет или приказ. В отрицательных предложениях выражают

запрет.

К шестой группе need, need not, needn't. В инструкциях означают необхо-

димость совершения действия. В отрицательных предложениях need выражает

отсутствие такой необходимости.

К седьмой группе should, should not, shouldn't. В руководствах пользова-

телей употребляют для выражение установки, рекомендации, совета.

К восьмой группе would, would not, wouldn't. В инструкциях употребля-

ются для выражения повторности действия или настойчивости, для выражения

вежливой просьбы.

В результате проведенного анализа было определено, что модальные гла-

голы наиболее часто встречаются в текстах, которые классифицированы как

инструкции. В текстах, относящихся к описанию, не встречаются группы гла-

голов could и would. Связанная информация не содержит групп глаголов could,

might, must и would. Список литературы

1. Кузнєцова А.В. English. Англійська мова / А.В. Кузнєцова. – Харків : Прак-

тичний довідник, 2013. – 384 с.

2. Валігура О. Англійська мова / О. Валігура, Л. Давиденко. – Тернопіль : Під-

ручники і посібники, 2013. – 608 с.

3. Межгосударственный совет по стандартизации, метрологии и сертификации.

Единая система конструкторской документации. Эксплуатационные документы. –

Москва : 2006. – 32 с.

Page 85: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

84

ВИКОРИСТАННЯ ІННОВАЦІЙНИХ ТЕХНОЛОГІЙ ПРИ ВИВЧЕННІ

АНГЛІЙСЬКОЇ МОВИ

Голуб А.І. Національний технічний університет

«Харківський політехнічний інститут» м. Харків, вул. Пушкінська, 79/2, тел. 0678873972,

e-mail: [email protected]

З кожним днем все більше і більше людей спілкується англійською мо-

вою. Це пов'язане з тим, що за останні роки в Україні заявилася велика кіль-

кість іноземних компаній, більшу частину персоналу яких складають саме іно-

земці. Сьогоднішнє різке підвищення кількості бажаючих вивчати англійську

мову пов'язане з тим, щоб вільно спілкуватися з іноземцями, мати змогу здобу-

ти освіту за кордоном, читати іноземну літературу, дивитися іноземні канали,

спілкуватися в Інтернеті, знайти високооплачувану роботу в Україні та всебічно

розвиватися[1]. Адже досконале володіння англійською мово, за останні роки,

стало невід'ємним навиком, яким повинен володіти кожен з нас.

На сучасному етапі інформатизації освіти спостерігається прогрес у появі

частинно-методичних підходів до методів навчання з метою вдосконалення за-

гально дидактичних методів викладання окремих навчальних дисциплін, в тому

числі іноземних мов. Провідну роль в отриманні, збереженні та переробці інфо-

рмації в сучасних умовах відіграють інформаційно-комунікативні технології

(ІКТ) [2]. Завдяки ним змінюється роль, спосіб, швидкість та ефективність ви-

користання інформації в процесі навчання.

Сьогодні значна увага приділяється таким методам навчання, які здійс-

нюються із застосування навчальних комп'ютерних програм. Навчальні

комп’ютерні програми (НКП) є одним з аспектів застосування мультимедійних

технологій в навчальному процесі. Дослідники відносять до НКП програмно-

методичні комплекси, електронні навчальні курси та електронні посібники,

електронні атласи, бази знань та енциклопедії, навчальні програмні комплекси

та ін., які об’єднує те, що всі вони є засобами безпосереднього використання у

навчальному процесі. Цей перелік постійно розширяється і поновлюється.

Вчені пропонують різні підходи до класифікації НКП. Так, Є. Машбиць

називає п’ять типів НКП: 1) тренувальні; 2) т’юторські; 3) проблемного на-

вчання; 4) імітаційно-моделюючі; 5) ігрові. З. Савченко пропонує наступні типи

НКП (на прикладі електронних навчальних засобів з біології): 1) навчальні; 2)

програми-тренажери; 3) імітаційно-моделюючі; 4) діагностичні, контролюючі;

5) інструментальні; 6) інтегровані [3].

Згідно іншого підходу НКП характеризують як: 1) авторські програми, які

є заздалегідь приготованими шаблонами, що дозволяє викладачеві самостійно

розробляти навчальний контент; 2) спеціальні навчальні програми, розроблені

до підручників або самостійні навчально-методичні комплекси; 3) ігрові навча-

льні програми, які створені, в основному для дітей і мають розважальний хара-

ктер.

Page 86: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

85

За допомогою комп’ютерних програм студенти мають можливість самос-

тійно у нетрадиційній формі тренуватись та перевірити свій рівень знань та

умінь з певної теми, визначити конкретні прогалини, доопрацювати їх та вико-

нати запропоновані завдання ще кілька разів з метою покращення своїх резуль-

татів [2].

Останнім часом широке розповсюдження одержали «інтерактивні муль-

тимедіа системи», які є програмно-методичними комплексами, які зберігають і

відтворюють: тексти, звук, статичні зображення, анімаційні зображення, відео

фрагменти, відповідні засоби відтворення, застосування різних інформаційних

середовищ, що дозволяє більш ретельно вивчити систему управління устале-

них форм спілкування іноземних країн [3].

Сучасне навчальне середовище називають комп’ютерно-орієнтованим,

тому що це поняття охоплює будь-які аспекти використання комп’ютера в на-

вчанні. Дослідники зазначають, що на сьогоднішній день основними напрямка-

ми застосування комп’ютерної техніки на заняттях з іноземних мов є викорис-

тання мультимедійних можливостей комп’ютерних класів й освітніх ресурсів

Інтернету. Існує напрям з застосуванням комп’ютерів при навчанні мов CALL

(Computer-Assisted Language Learning) [3], який «визначають як підхід до ви-

кладання мов, де комп’ютер виступає допоміжним інструментом для представ-

лення та оцінювання матеріалу».

Отже, застосування на заняттях інформаційних технологій – це досить

ефективний та доцільний засіб у навчанні студентів англійської мови, спрямо-

ваний на розвиток комунікативних здібностей студентів. Крім цього викорис-

тання комп’ютерних технологій в викладанні англійської мови дозволяє відійти

від традиційних форм навчання й підвищити індивідуалізацію навчальної дія-

льності студентів, оптимізувати засвоєння мовних структур та граматичних

правил, а також подолати монотонність заняття при формуванні мовленнєвої та

комунікативної компетенції студентів при навчанні англійській мові.

Слід відмітити і деякі проблеми та недоліки, які пов’язані з використан-

ням НКП. Вони стосуються відсутності стандартизованого переліку програм

тих засобів для використання їх в навчальному процесі, відсутності

комп’ютерно-орієнтованого науково-методичного забезпечення. Не виключні

випадки недостатнього технічного забезпечення, необхідного для ефективного

вживання ІКТ в навчальному процесі. Необхідною є розробка нормативної до-

кументації ВНЗ, в якій будуть враховані новітні електронні засоби навчання. Список літератури:

1. Биков В. Ю. Інформаційне забезпечення навчального процесу: інноваційні

засоби і технології / В.Ю. Биков. – К. : Атіка, 2005. – 252 с.

2. Кужель О.М. Використання персонального комп’ютера у вивченні іноземних

мов / О.М. Кужель, Т.І. Коваль // Нові інформаційні технології навчання в навчальних

закладах України : наук.-метод. зб. – Вип. 8. Педагогіка. – Одеса : Друк, 2001. – 242 с.

3. Павлусенко О. В. Сучасні методи викладання англійської мови в технічних

вузах. [Електронний ресурс]. – Режим доступу : http://intkonf.org/pavlusenko-ov-

suchasni-metodi-vikladannya-angliyskoyi-movi-v-tehnichnih-vuzah/

4. Осіпа Р. А. Інформаційно-комп’ютерні технології в освіті: Навч. посібник /

Р.А.Осіпа. – К.: Міленіум, 2005. – 78 с.

Page 87: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

86

ИССЛЕДОВАНИЕ РУССКО-АНГЛИЙСКИХ ЛЕКСИЧЕСКИХ

ПАРАЛЛЕЛЕЙ

Гончар А.Ю.

Национальный технический университет

«Харьковский политехнический институт»,

г. Харьков, ул. Пушкинская 79/2, тел. 707-63-60,

e-mail: [email protected]

В последнее время возрастает количество международных контактов, в

этой связи возрос интерес к переводческой деятельности. Среди проблем тео-

рии и практики перевода все более актуальным становится вопрос о наиболее

точном переводе лексических единиц двух языков.

Существует ряд лексикографических разработок в данной области, в

большинстве которых используется термин «ложные друзья переводчика» [1].

Однако В. В. Дубичинский считает, что от этого традиционного термина необ-

ходимо отказаться «из-за его метафоричности, что зачастую нежелательно для

терминологической лексики» [2]. Автор также будет использовать данный тер-

мин «лексические параллели» (ЛП) для обозначения схожих по внешней форме

(написанию и звучанию) лексических единиц двух или нескольких языков с ча-

стичным или полным совпадением / несовпадением значений.

Понятие лексические параллели объединяет в единую терминологиче-

скую систему такие традиционные лингвистические понятия, как интернацио-

нальные слова (интернационализмы), ложные друзья переводчика, межъязыко-

вые омонимы, межъязыковые паронимы и др. В свою очередь ЛП можно раз-

бить на две большие группы: интерлексемы и ложные ЛП. Более подробно на

рисунке 1.

Рисунок 1 – типология ЛП

Полными ЛП называются внешне сходные слова двух или нескольких

синхронически сравниваемых языков с полностью совпадающими значениями

или с определенными отличиями стилистического, грамматического и других

характеров с расширением / сужением совпадающих значений [2].

Page 88: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

87

Таблица 1 – пример полной ЛП

АВОКА ДО, нескл., ср:

1. тропическое вечнозелёное дерево

семейства лавровых со съедобными

плодами овальной формы: прораста-

ние косточки авокадо;

2. плоды такого дерева: выращивать

авокадо, съесть авокадо.

== Avocado [ˌævə'kɑːdəu], pl avoca-

dos, avocadoes, n:

1. = авокадо 1;

2. = авокадо 2.

Наибольший интерес как для изучения, так и в практике перевода пред-

ставляют неполные лексические параллели. О таких лексических параллелях

говорят в том случае, если определенные значения (семемы) внешне похожи на

лексические единицы другого языка, а другие не совпадают. Совпадающие зна-

чения называются интерсемемами, а лексические единицы со значениями, от-

ражающими национально-культурное своеобразие лексики – идеосемемами.

Более того, даже в интерсемемах можно выделить мелкие смысловые отличия.

Идеосемы – отличные семы, которые подчеркивают национально-культурное

своеобразие совпадающих значений.

Таблица 2 – пример неполных ЛП

КИ’ОСК, -а, м :

1. небольшая легкая постройка на

улицах, вокзалах для мелкой тор-

говли;

2*. павильон на выставке

- exhibition hall;

3. беседка, павильон в турецком

вкусе.

Kiosk, n:

1. = киоск 1;

2*. переговорный пункт;

3. = киоск 3.

Наиболее опасную категорию для переводчиков составляют так называе-

мые «ложные друзья переводчика». Стоит отметить, что в последнее время

данный термин теряет свою актуальность, поэтому, пользуясь выше предло-

женной терминологией, они, соответственно, называются ложными ЛП.

Таблица 3 – пример ложных ЛП

БИСКВИТ, -а, м :

cорт легкого сдобного печенья

sponge-cake, n.

Bisquit, n:

1. cухое печенье; галеты GB;

2. cухарь US;

3. cветло-коричневый цвет.

В данной работе были рассмотрены и представлены лишь некоторые

примеры полных, неполных ЛП, а также ложных ЛП. Нам кажется подобное

Page 89: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

88

представление ЛП наиболее актуальным и удобным для пользования, на осно-

вании того, что каждая семема лексемы языка сравнивается с семемой другого

языка, что наиболее полным образом предоставляет отличия и общее в значе-

ниях конкретных лексем [3].

Таким образом, лексикографический аспект является очень важным в

развитии прикладной лингвистики при создании лингвистических технологий,

он является важной частью систем эффективной автоматизированной обработ-

ки текстовой информации. Словарь лексических параллелей является лексико-

графическим произведением, описывающим похожие по внешней форме (напи-

санием и звучанием) лексические единицы двух или нескольких языков с ча-

стичным или полным совпадением /несовпадением значений и может быть ис-

пользован для улучшения качества автоматизированного перевода [4]. Список литературы

1. Акуленко В.В. Англо-русский и русско-английский словарь "ложных друзей

переводчика" / В.В. Акуленко. – М. : Советская энциклопедия, 1969. – 384 c.

2. Дубичинский В.В. Лексические параллели / В.В. Дубичинский. – Харьков,

1992. – 155 с.

3. Дубичинський В.В. Русско-немецкий словарь лексических параллелей: Ок.

1750 словарных статей / В.В. Дубичинский, Т. Ройтер. – М. : ЭЛИПС, 2011. – 304 с.

4. Широков В.А. Комп’ютерна лексикографія / В.A. Широков. – К. : Наукова

думка, 2011. – 351 с.

Page 90: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

89

ПРОБЛЕМИ ОРГАНІЗАЦІЇ НЕЧІТКОГО ІНФОРМАЦІЙНОГО

ПОШУКУ

Дідусьов В.С., Кочуєва З.А.

Національний технічний університет

"Харківський політехнічний інститут",

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Актуальність повнотекстового пошуку сьогодні обумовлена необхідністю

проводити пошук інформації по зростаючому обсязі інформації. У роботі розг-

лядаються існуючі підходи та методи організації інформаційного пошуку, ви-

користовувані автоматизованими пошуковими системами. У зв'язку з бурхли-

вим розвитком інформаційних технологій і безперервним збільшенням обсягів

інформації, доступної в глобальній мережі Інтернет, все більшої актуальності

набувають питання ефективного пошуку і доступу до даних. Вже давно у всьо-

му світі найбільші комп'ютерні корпорації розробляють всілякі засоби інтелек-

туалізації пошуку.

З погляду вимог, що пред'являються до точності пошукових операцій, за-

гальну задачу пошуку можна розділити на дві великі підзадачі:

а) пошук в глобальних базах текстової інформації (Інтернет);

б) пошук в локальних (корпоративних, сайтовий або персональних) базах.

Інформаційний пошук або пошук інформації (information retrieval, data

search) – це пошук неструктурованої інформації, одиницею представлення якої

є інформація у довільних форматах [1].

Предметом пошуку виступає інформаційна потреба користувача, вираже-

на у формі інформаційного запиту.

Під нечітким інформаційним пошуком мають на увазі вид пошуку, при

якому відбувається порівняння не слів запиту і документа, а «бітових образів»

запиту і документа, тобто відбувається порівняння набору нулів і одиниць, що

становлять бітовий образ запиту, з наборами нулів і одиниць, що становлять

бітові образи документів, за певним оригінальним алгоритмом, що дозволяє

знаходити найбільш схожі поєднання [2].

В результаті користувач ІПС може знайти документи, що містять слова з

помилками в написанні (наприклад після розпізнавання засобами OCR або по-

милкового ручного введення), з неправильною транслітерацією і т.д. Викори-

стання «нечіткого» пошуку за найменуваннями товарних знаків дозволяє

знайти знаки, «схожі» на шуканий або майже еквівалентні за звучанням.

Для реалізації пошуку на неточну відповідність зазвичай використову-

ються наступні методи: послідовного перебору, розширення пошукової

вибірки, n-грамна індексація, вироблення хеш-функцій, trie-дерева (промені),

мережі Хемінга. Мережі Хемінга так само активно використовуються для оп-

тичного розпізнавання символів (OCR). Однак алгоритми Хемінга можуть бути

Page 91: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

90

застосовані не тільки в теорії кодування інформації, але і в питаннях інфор-

маційного пошуку.

Під час дослідження було визначено, що для кодування і декодування ін-

формації актуально використовувати мережі Хемінга, які дозволяють успішно

відновити загублену при передачі інформацію за допомогою створення бітово-

го образу документу. Алгоритми Хемінга в своїй роботі використовують ліній-

ний код, який в порівнянні з іншими кодами, дозволяють реалізовувати більш

ефективні алгоритми кодування і декодування інформації. Для виявлення по-

милок в мережах Хемінга використовують коди виявлення помилок, для

виправлення – коригувальні коди [3].

Також було запропоновано наступний алгоритм.

На першому етапі: визначення довжини інформаційного слова; розділен-

ня вихідного повідомлення на блоки по 16 біт; вставка контрольних біт у пози-

ції з номерами рівними ступеням двійки, при довжині інформаційного слова в

16 біт це будуть позиції 1 (20), 2 (2

1), 4 (2

2), 8 (2

3), 16 (2

4); обчислення контроль-

них біт.

На другому етапі: обчислення знову всіх контрольних біт; порівняння їх з

контрольними бітами, котрі ми отримали; складання номерів позицій непра-

вильних контрольних біт; отримання позиції помилкового біта; інвертування

біт і відкидання контрольних біт; отримання вихідного повідомлення у первин-

ному вигляді [4].

Практична цінність цього алгоритму та його програмна реалізація скла-

дається в їх використані для ряда практичних задач які стосуються пошуком

достовірної інформації користувачем як у локальних (корпоративних, сайтових

або персональних) базах так і в глобальних системах пошуку інформації. Список джерел інформації

1. Маннинг К.Д. Введение в информационный поиск / К.Д. Маннинг,

Р. Прабхакар, Х. Шютце // Пер. с англ. - М. : ООО "И.Д. Вильямс", 2011. –528 с.

2. Захаров В.П. Лингвистические средства информационного поиска в интер-

нете / В.П. Захаров // Библиосфера. – 2005. - № 1. – С. 63-71.

3. Шоркин А.П. Методы и алгоритмы информационного поиска на неточное

соответствие / А.П. Шоркин // Доклады БГУИР. – 2011. - № 2(56). – С. 13-15.

4. Информационный поиск и поиск по сходству [Электронный ресурс]. – Ре-

жим доступа: http://www.itman.narod.ru/

Page 92: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

91

ГРА СЛІВ В АНГЛІЙСЬКІЙ МОВІ ТА ТРУДНОЩІ З ПЕРЕКЛАДОМ НА УКРАЇНСЬКУ МОВУ

Жилін Р.Г.

Національний технічний університет «Харківський політехнічний інститут» м. Харків, вул. Пушкінська, 79/2, тел. 707-63-60, e-mail: [email protected]

З кожним роком Україна все більш залучається до різних міжнародних

програм. З цією метою постає питання взаєморозуміння. Англійська мова є мі-

жнародною мовою і для її розуміння знання має поглиблюватися. Найцікаві-

шим на мою думку є гра слів, адже при перекладі виникають великі труднощі.

Усім видам гри слів (каламбурам) притаманне те, що вони протиставля-

ють одне до одного два, а то й декілька виразів, які мають різні значення але

однакову або ж подібну форму. Саме через це переклад гри слів є досить склад-

ним явищем [1].

Особливістю перекладу художньої літератури є проблема передачі смис-

лових ефектів, які утворюються завдяки співставленню значень слів, тотожних

або близьких одне до одного у звуковому вираженні. На цьому принципі ґрун-

тується і народна етимологія (невірне осмислення незрозумілого слова за ана-

логією фонетично близького слова, що призводить до перекручення його зву-

кового вираження, і гра слів (каламбур) [2].

Починаючи мову про феномен «гри слів», перш за все, необхідно дати ви-

значення цьому глибокому явищу. Гра слів — це спеціальне використання зву-

кової‚ лексичної або граматичної форми слів, а також частин слів‚ фразеологіз-

мів‚ синтаксичних конструкцій для створення певних фонетико- та семантико-

стилістичних явищ‚ що ґрунтується на зіставленні й переосмисленні‚ обігра-

ванні близькозвучних або однозвучних мовних одиниць з різними значення-

ми [3]. Одним з різновидів гри слів‚ який полягає у створенні комічно-

сатиричного ефекту‚ є каламбур. Гра слів будується на використанні багатозна-

чності‚ омонімії‚ паронімії і діє на різних мовних рівнях (оскільки це обігра-

вання не тільки слів‚ даний термін слід сприймати як дещо умовний). Вона від-

бувається за допомогою як уживання існуючих‚ так і творення нових мовних

одиниць [4]. За особливостями семантико-структурної організації конструкцій з

елементами гри слів дослідники виділяють різні типи побудов. Це звичайно

конструкції: а) із зіставленням обіграваних мовних одиниць у межах контексту;

б) із залишенням однієї з таких одиниць за межами контексту – як домислюва-

ної; в) із злиттям двох близькозвучних слів у рамках спільного третього або,

навпаки, з розкладенням одного слова на два; г) з переставленням мовних оди-

ниць [2]. Гра слів найдокладніше вивчена на фонетичному (звукові повтори,

алітерації, асонанси, анаграми і т. ін.) та лексичному рівнях, а серед типів лек-

сико-семантичних відношень – у явищах обігравання слів-омонімів, меншою

мірою значень полісемічного слова й особливо – при парономазії, або (як її час-

тіше тепер називають) паронімічній атракції. Дослідження гри слів у морфеміці

та словотворенні здебільшого проводяться в одному ряду з випадками вияву

цього явища на рівні слів як лексичних одиниць. Вихід досліджень на рівні

Page 93: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

92

морфології та синтаксису також звичайно відбувається без принципового від-

межування їх від власне лексичного рівня – у випадках міжчастиномовних

омонімів та неоднослівних омофонів [5].

Своїм прикладом я хочу навести гру слів з серіалу “How I Met Your

Mother”. Головними комунікантами є друзі Маршала (Marshall) – одного з го-

ловних героїв серіалу, вони знайшли малюнок, де він зображений ню, сидячим

на стільці і тримаючим розу у руках. Вони зрозуміли, що зараз буде весело, але

вони не сказали нічого прямо, а використали гру слів, вказану нижче:

Один з друзів (Barney) каже: I know how much you love stools. Marshall: Thanks. Stools are better for your posture. Одна з друзів (Robin): And I got you’re a rose. Marshall: Thanks guys, that so sweet.

До цього вони лише відтворили ті умови, далі починається гра слів. Barney: Hey guys, guess what I got, a new dart. Friends: Oh, wow a new dart. Hey, that new dart is great. I didn’t know you were such

a fan of new dart. Barney: Oh, yes Robin I just love new dart. NEW DART = NUDE ART [6]

Вся суть в тому, що new dart (новий дротик) та nude art (картини у стилі

ню) схожі за звучанням на всі 100%. Насправді це пекло для перекладача, оскі-

льки практично неможливо передати увесь сенс даної гри слів. Глядач бачить

дротик у руках и йому нізащо на думку не спаде, що мова йде про ню. Перекла-

дачі звісно намагалися перекласти якомога ближче до суті, але ми розуміємо,

що головний сенс закладений саме на основі англійської мови, що наштовхує

на думку про те, що при перегляді серіалів, фільмів, тощо не на оригінальній

мові, не втрачається факт, що ми втрачаємо мінімум 30% загального сенсу того,

що ми дивимось. У даному прикладі, я вважаю, використаний саме прийом,

суть якому у злитті двох близькозвучних слів у рамках спільного третього, що

ми і бачимо.

Отже, розглянутий нами приклад з телесеріалу є яскравим прикладом анг-

лійського гумору з використанням різноманітних прийомів, серед яких чільне

місце посідає гра слів. Як ми бачимо, гра слів дійсно відіграє важливу роль у

національному англійському гуморі. А багатство мови дозволяє різні способи

втілення цього явища в життя. За будь якої зручної нагоди персонажі цього ма-

теріалу вдаються до гумору, показуючи нам, усі прикраси та неймовірності ви-

раження своїх думок цим шляхом, що вказує на важливість цього досліду. ЛІТЕРАТУРА

1. Булаховський Л. А. Виникнення і розвиток літературних мов / Л.А. Булаховський // Вибрані праці: У 5 т. – К.: Наук. думка. – Т. 1, 1975. – С. 321 – 470.

2. Колесниченко С. А. Условия реализации стилистического приема "игры слов" в анг-лийском языке: Дисс …канд. филол. наук: 10.02.04 / С. А. Колесниченко. – Л., 1979. – 190 с.

3. Сниховская И. Э. Механизмы, средства и приемы языковой игры в современном ан-глийском языке : Дис...канд. фил. наук: 10.02.04 / И.Э. Сниховская. - Житомир, 2005. – 170 с.

4. Тараненко О.О. Гра слів / О.О. Тараненко // Культура слова. – 1997. – С. 37-41. 5. Тимчук О.Т. Семантико-стилістичне явище гри слів в українській мові: Дис...канд.

філ. наук: 10.02.01 / О.Т. Тимчук. – ДДПУ ім. І.Франка. - К., 2002. - 183 с. 6. Телесеріал “How I Met Your Mother” – 3 season, episode 19.

Page 94: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

93

ЗАДАЧА АВТОМАТИЧНОГО СПРОЩЕННЯ ТЕКСТУ

Зіньківська О.В. Національний технічний університет

«Харківський політехнічний інститут», м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60

e-mail: [email protected]

Спрощення тексту це процес перетворення тексту у більш зрозумілий ек-

вівалент. Це спрощення є корисним для багатьох груп читачів, таких як люди,

що вивчають мову, літні люди та люди з іншими особливостями читання і ро-

зуміння. Спрощений текст характеризується простим і прямим стилем і мен-

шою кількістю словника, а також простими реченнями. Це означає, що в проце-

сі спрощення складних речень часто відбувається розділення на кілька менших

речень [1, 2].

Спрощення тексту має багато важливих задач, таких як:

полегшення доступу до інформації для людей з низьким рівнем гра-

мотності;

створення новинних статей доступних для людей з інтелектуальною

інвалідністю або людей, які потребують допомоги у читанні;

полегшення доступу до вмісту для іноземних учнів і допомога у під-

готовці адаптованих матеріалів для вивчення мови;

перетворення тексту високої технічної складності (наприклад патенти,

технічні керівництва).

На даний момент існує невелика кількість лінгвістичного забезпечення

для спрощення текстів. Одним з найпоширеніших у використанні лінгвістичних

ресурсів для спрощення є Simple Wikipedia – електронний ресурс (енциклопе-

дія), де усі статті написані базовою англійською мовою. Станом на 16 лютого

2016 року кількість статей дорівнює 117 517. Ще одним ресурсом є онтологія

для англійської мови WordNet, що включає 117 тисяч невпорядкованих наборів

(synsets), що мають “концептуальний зв’язок”. Також для вирішення проблем

при спрощенні тексту часто використовують службу під назвою MS Web N-

gram Corpus, що дозволяє шукати та використовувати дані про частоту зустрі-

чання того чи іншого слова.

Існують декілька основних методів автоматичного спрощення тексту:

1. Лексичний метод спрощення

Цей метод полягає у заміні складних для розуміння слів більш простими.

Одним з методів обчислення складності слова є визначення частоти, з якою во-

но зустрічається у текстах. Слово вважається простим, коли його розуміє широ-

ке коло людей, включаючи людей з низьким розумовим рівнем або когнітивним

сприйняттям, дітей чи іншомовних учнів. Це означає, що простота слова зале-

жить від вживаності цього слова у звичайних текстах.

2. Синтаксичний метод спрощення

Цей метод стосується фраз і речень, які можуть бути спрощенні, щоб

отримати прості і більш зрозумілі тексти. Методи які використовуються для

Page 95: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

94

цього: визначення довжини дискурсивних сегментів (вимірюється кількістю

слів у сегменті), простих (фраз або речень в сегменті) або комплексних (більше

одного), характер використання присудків, кількість підлеглих структур, вико-

ристання безособових і пасивних речень, вставку підрозділів тощо.

З лінгвістичної точки зору, основна мета полягає у виявленні тих явищ і

категорій, які заважають пізнавальній обробці, що відбувається під час і після

читання, і які могли б пройти лінгвістичне спрощення, що дозволяє нам ство-

рювати формальну змінну, доступну для людей з труднощами в розумінні при

читанні, сприяючи тим самим когнітивним процесам читача.

3. Генерація пояснення

Це техніка, яка має складну концепцію у тексті і збільшує його з додатко-

вою інформацією (поясненням), яка покращує розуміння користувача. Було ви-

значено, що в деяких випадках, цей метод є більш підходящим, ніж лексичне

спрощення. Конкретний приклад може бути взятий з медичної літератури, де

пояснення, створені спеціально для медичних термінів. Вони класифікуються за

їх семантичним типом (назва хвороби, анатомічні структури, пристрої і т.д.).

Пояснення потім генерується шляхом знаходження легших термінів і додавання

у більш коротку фразу, щоб пояснити складніше поняття. Наприклад:

"Легенева атрезія (тип вродженого дефекту)"

Термін "Легенева атрезія" семантично пов'язаний з "вродженим дефек-

том" і сполучне слово 'тип' додається для підтримки згуртованості.

Автором у даній роботі запропоновано алгоритм заснований на двох ос-

новних методах спрощення текстів; лексичний та синтаксичний.

Першим методом стане лексичний, бо більш прості слова або словоспо-

лучення можуть спростити завдання синтаксичного спрощення, що стане на-

ступним кроком. Синтаксичне спрощення передбачає можливість збільшення

об’єму тексту, але не його семантичного навантаження.

На першому рівні спрощується лексика. Програма шукатиме та замінюва-

тиме слова до тих пір, доки при пошуку вона буде їх знаходити. Коли на цьому

рівні не залишиться складних слів програма перейде на наступний рівень, де

відбуватиметься синтаксичне спрощення. Спочатку програма розіб’є текст на

речення, де буде проведений їх аналіз. Прості речення залишаться незмінними,

а складні будуть трансформовані у два або більше простих. На наступному рів-

ні відбуватиметься генерація пояснень для термінів. Програма буде визначати

пояснення до термінів та вставляти їх у речення. У результаті всіх спрощень ми

отримаємо текст, який буде зрозумілим та доступним для будь якого читача. Список літератури

1. Wei Xu Problems in Current Text Simplification Research: New Data Can Help /

Wei Xu, Chris Callison-Burch, Courtney Napoles // Computer and Information Science De-

partment, University of Pennsylvania. – 2015.

2. Saggion H. Text Simplification in Simplext: Making Text More Accessible /

H.Saggion, E.Gómez-Martínez, E.Etayo, A.Anula, L.Bourg // Revista de la Sociedad Espa-

ñola para el Procesamiento del Lenguaje Natural, 47. – 2011.

Page 96: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

95

THE ANALYSIS OF THE PART OF STEREOTYPIC GENDER ROLES AND

GENDER BIAS IN MASS CULTURE ACCORDING TO THE LINGUISTIC

DISCOURSE VIA BECHDEL TEST

Zolot’ko D.V.

National Technical University

“Kharkiv Polytechnic Institute”,

Kharkiv, Pushkins’ka street, 79/2, tel. 707–63–60,

e-mail: [email protected]

Introduction. There is a diverse variety of research showing different kinds of

relations between social gender, biological sex and various aspects of human life. The

specific features of gender linguistics are above all researched within applied lin-

guistіcs, lіnguіstіc anthropology, conversatіon analysіs, cultural studіes, femіnіst

medіa studіes, femіnіst psychology, gender studіes, interactіonal socіolinguіstіcs,

lіnguіstіcs, medіated stylіstіcs, socіolіnguіstіcs and medіa studіes [1]. There is also

broad variety of methodological approaches applied within the confines of the given

paradigm depending on what exact aspect of the issue is researched, for instance,

with an emphasis on the receiver and the perceiver involved in a particular conversa-

tion and their gender indications, the gender based behavioural specifications, the

summarized representation of the representatives of certain sex or simply the quantity

factor of the presence of certain gender. The research of gender bias is usually con-

centrated on female gender specifically if referred to prejudgment and different kinds

of sex based oppression.

It is a commonly known fact, that the most picturesque markers of gender bias

and prejudgment are manifested in the mass culture, represented in mass media and

all kinds of fiction works. The attribution of specific and indeed limited gender roles by the entertainment in-

dustry and by society in general is a fascinating subject in its own right. Usually, refer-

ences to women's linguistic behaviour are implicit rather than explicit. There are occa-

sions when deep-rooted expectations and prejudices come to the fore, displaying a stere-

otypical picture of women as creatures who talk a lot, interrupt men and are illogical and

changeable, etc. The portrayal of women in mass culture, including gesture and intona-

tion specialities as well as sustained semantic units has great influence on developing so-

cial behavioural patterns in society in general [2].

My intentions in this article is to superficially research the level of gender bias in

one of the largest and most influential areas of mass culture, specifically cinema. I’ve

chosen to use the Bechdel test as the indicator of representation of socially normalized

forms of human interaction.

The Bechdel test. The Bechdel test examine a work of fiction for featuring at

least two women who talk to each other about somethіng other than a man. It is re-

quired, that women are named in certain fiction. According to user-edited databases

and the media industry press, less than a half of the cinematograph in general meet

such requirements. The test is used to indicate the active presence of women іn films

and other fіctіon, and to call attentіon to gender inequality in fiction due to sexism.

Page 97: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

96

Also known as the Bechdel-Wallace test, the test is named after the Amerіcan

cartoonіst Alіson Bechdel. For the fіrst tіme it appeared in comic strip Dykes to

Watch Out For in 1985. Bechdel credited the idea to a friend, Liz Wallace, and to the

writings of Virginia Woolf. After the test became more widely discussed in the

2000s, a number of variants and tests inspired by it have been introduced, such as

Bechdel test for software, Finkbeiner test, Russo test, Sexy lamp test, Sphinx test.

The website bechdeltest.com is a user-edited database of some 4,500 films clas-

sified by whether or not they pass the test, with the added requirement that the wom-

en must be named characters. As of April 2015, it listed 58% of these films as pass-

ing all three of the test's requirements, 10% as failing one, 22% as failing two, and

10% as failing all three. According to the largest web resource regarding mainstream

cinematograph http://www.imdb.com/, specifically its Top Rated Movies(250) chart,

only 3 of the first top 10 films and 6 of the first top 20 films pass 3 of 3 tests. Fur-

thermore, 5 of the first top 20 films have not passed any of the tests which means that

25% of the most viewable pieces of cinematographic art screenplays does not include

a single scene describing two named women talking to each other about anything be-

sides men. What makes such result even more exponential is the wide definition of

categories which make it possible for the film to fit in them by having a rather brief

determinant episode. I would like to use one of the most popular films as an example

of how that works practically [3].

“Pulp fiction”(1994) ranked 6 in the mentioned earlier top 250 chart manages to

pass Bechdel test in regard to a one scene lasted about 1 minute where two women

are talking about piercing [4].

Trudi: You know how they use that gun to pierce your ears? They don't use that

when they pierce your nipples, do they?

Jody: Forget that gun. That gun goes against the entire idea behind piercing. All

of my piercings, sixteen places on my body, all of them done with a needle. Five in

each ear, one through the nipple on my left breast, one through my right nostril, one

through my left eyebrow, one in my lip, one in my clit... and I wear a stud in my

tongue.

Vincent: Excuse me, but I was just wondering... why do you wear a stud in your

tongue?

Jody: It's a sex thing. It helps fellatio.

Lance: Don Vincenzo. Step into my office?

There are debates regarding to how accurate it is to consider the scene to be a

proper demonstration of satisfaction the demands of the test because of mentioning

parts of male anatomy and distinctive male physiological process but technically the

film is consider to be gender unbiased based on this excerpt.

One of the major problems in gender bias is directly related to semantic and lin-

guistic discourses. The usage of stable semantic units in media is fundamental for

creating and developing certain mental settings and socially approvable behavioural

routine as well as establishing strong expectation regarding humans’ comportment

depending on biological sex and additional stereotypic supposedly characteristic so-

cial gender features. To talk about semantics specifically, the unfortunate distinct fea-

tures of women behaviour in fiction generally are directly caused by the lack of the

Page 98: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

97

involvement of women into major plot line not as an accompaniment for central male

character but as significant all-sufficient participants. That results in limitation of vo-

cabulary usually by reducing a chances of using scientific or any other kind of dis-

tinctive professional language by female character which leads to significant deple-

tion of overall amount of widely usable semantic units.

Conclusion. The results show unsatisfactorily negligible part of women repre-

sentation in mass culture. The generalized behavioural patterns of the half of the total

population seem to be purposefully diminished, devaluated and reduced to implemen-

tation of minor subordinary objectives. I consider the topic to be of a great im-

portance and major relevance therefore it must be more widely researched. References

1. Speer S. Introduction: feminism, discourse and conversation analysis / S. Speer. - In

Speer Susan A. Gender talk: feminism, discourse and conversation analysis. - London &

New York : Routledge, 2005. - pp. 7–8.

1. http://www.ucc.ie/publications/heeu/womenstf/3_conrick.htm

2. Tannen D. Language and culture / D.Tannen. - In R. W. Fasold and J. Connor-

Linton. An Introduction to Language and Linguistics. Cambridge University Press, 2006.

3. http://bechdeltest.com/

4. http://www.imdb.com/

5. Attenborough F. Words, contexts, politics. 2014. – pp.137–146.

6. Bucholtz M. Editor's introduction / M. Bucholtz in Lakoff R., Bucholtz M., Lan-

guage and woman's place: text and commentaries. - New York: Oxford University Press,

2004. - pp. 3–14.

7. Hall K. Gender Articulated: Language and the Socially Constructed Self / K. Hall,

M. Bucholtz. - New York: Routledge, 1995.

Page 99: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

98

АВТОМАТИЧНЕ ВИЗНАЧЕННЯ СЕМАНТИЧНО БЛИЗЬКИХ

КОЛОКАЦІЙ АНГЛІЙСЬКОЇ МОВИ

Кисільова В.Ю., Петрасова С.В.

Національний технічний університет

«Харківський політехнічний інститут»,

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60

e-mail: [email protected], [email protected]

Колокація – словосполучення, що має ознаки синтаксично та семантично

цілісної одиниці, у якій вибір одного із компонентів здійснюється за змістом, а

вибір другого залежить від вибору першого [1].

Колокації, на відміну від окремих слів, яким властива багатозначність та

синонімічність, містять у собі більш конкретну семантичну інформацію, тому їх

автоматичне визначення є актуальним завданням у галузі автоматичної обробки

природної мови.

Ідентифікація колокацій у тексті базується на виявленні синтагматичних

відношень у природній мові. У цьому напрямку існують два основних підходи

до вивчення синтагматичних відношень. Широко розповсюдженим є синтакси-

чний підхід, у якому сполучуваність колокатів визначається їх сумісністю у

словосполученні та/або конкретною синтаксичною моделлю. Цей підхід базу-

ється на використанні синтаксичних аналізаторів (парсерів), які допомагають

встановити зв’язки між словами у реченні. Другий підхід, що полягає у вияв-

ленні статистичних закономірностей при побудові тексту, називається стати-

стичним. В основі статистичного апарату виявлення колокацій лежать так звані

«міри асоціації», які є показником сили синтагматичного зв’язку між елемента-

ми колокацій [2].

На основі цих підходів застосовують наступні методи визначення сино-

німів та синонімічних колокацій:

вимірювання семантичної подібності між парами слів через аналіз ре-

зультатів запитів у пошуковій web-системі [3];

математичний аналіз слів та їх тлумачень у одномовному словнику;

визначення подібності слів за допомогою Dice measure [4];

вимірювання подібності слів через математичне визначення подібності

їх перекладів;

виявлення синонімічних колокацій на основі порівняння їх перекла-

дів [5];

знаходження перефразувань за подібними фрагментами речень [6];

аналіз корпусу паралельних перекладів англійських текстів за допомо-

гою математичного визначення подібності контексту [7];

формалізація поняття семантичної еквівалентності колокацій засобами

семантичної та граматичної характеристик колокатів [8].

Більшість з вищенаведених методів характеризуються тим, що для кожної

мовної одиниці будується вектор, значення якого характеризують міру семан-

Page 100: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

99

тичної близькості. Однак аналіз існуючих методів показав, що для більш точно-

го визначення семантично близьких мовних одиниць необхідне комплексне ви-

користання підходів і методів.

В роботі для виявлення семантично близьких колокацій англійської мови

було використано логіко-лінгвістичну модель автоматичної ідентифікації сема-

нтичної подібності колокацій, що базується на застосуванні методів штучного

інтелекту та множини граматичних і семантичних характеристик для формалі-

зації мовних одиниць [8].

На основі досліджуваної моделі були розроблені наступні правила фор-

мування колокацій англійської мови:

ay1Noun Obj

cy1Att

ax1Noun Sub

cx1Ag

ay2Noun Obj

cy2Att

ax2Noun Sub

cx2Ag

ax3Noun SubOf

cx3Ag

ay3Noun Obj

cy3Att

, (1)

ax1Noun Sub Pl

cx1Ag

ay1Verb ax2

Noun Sub Pl cx2

Ag ay2

Verb | ax1

Noun Sub Sing cx1

Ag ay1

Verb+s/es

ax2Noun Sub Sing

cx2Ag

ay2Verb+s/es

, (2)

ax1Verb

ay1Noun Obj

cy1Pac ax2

Verb ay2

Noun Obj cy2

Pac, (3)

ay1 Adj Att

ax1Noun Sub

cx1Ag ay2

Adj Attax2

Noun Sub cx2

Ag ax3 Noun Sub

cx3 Ag

ay3 Adj Pr

, (4)

де xі – головне слово колокації; yі – залежне слово колокації; граматичними ха-

рактеристиками є: aNoun Sub Pl

– іменник множини, суб’єкт; aNoun Sub Sing

– іменник

однини, суб’єкт; aNoun Obj

– іменник, об’єкт; aAdj Att

– прикметник, атрибутивний;

aAdj Pr

– прикметник, предикативний; aVerb

– дієслово множини; aVerb+s/es

– дієсло-

во однини; та семантичні характеристики: cxіAg

– агенс; cyіAtt

– атрибут; cyіPac

пацієнс.

В результаті визначення множини семантико-граматичних характеристик

колокатів було розроблено наступний алгоритм автоматичного формування се-

мантично близьких колокацій.

На першому етапі, після того як користувач вводить колокацію, програма

виконує пошук її колокатів у базі даних. У разі знаходження введених користу-

вачем колокатів за внутрішнім зв’язком у базі даних визначаються синоніми до

кожного (головного та залежного) слова вхідної колокації.

Наступним кроком є перевірка відповідності граматичних та семантичних

характеристик між колокатами введеної користувачем колокації та знайденими

синонімами. За умови успішної перевірки програма будує синонімічне словос-

получення згідно розроблених правил (формул).

Наприклад, семантична еквівалентність колокацій: a baud rate

a transfer speed a speed of transfer визначатиметься згідно формули 1, а та-

ких колокацій як to store data to keep information – згідно формули 3.

Таким чином, у результаті розроблена програма відображає семантично

близькі колокації англійської мови.

Page 101: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

100

Список літератури

1. Manning Christopher D. Foundations of Statistical Natural Language Processing /

Christopher D. Manning, Hinrich Schütze. – MIT Press, Cambridge, 1999. – 680 pp.

2. Захаров В.П. Анализ эфффективности статистических методов выявления

коллокаций в текстах на русском языке / В.П. Захаров, М.В. Хохлова // «Электронные

библиотеки: перспективные методы и технологии, электронные коллекции» –

RCDL’2011. – Воронеж, 2011. – с. 134–138.

3. Nakov S. Automatic Acquisition of Synonyms Using the Web as a Corpus /

S. Nakov // Proceedings of the 3rd Annual South-East European Doctoral Student Confer-

ence (DSC 2008). – Vol. 2. – P. 216–229.

4. Hua Wu Optimizing Synonym Extraction Using Monolingual and Bilingual Re-

sources / Hua Wu, Ming Zhou // Proceedings of the second international workshop on Para-

phrasing (PARAPHRASE '03). – Stroudsburg, PA, USA, 2003 – Vol. 16. – P. 72–79.

5. Hua Wu Synonymous Collocation Extraction Using Translation Information / Hua

Wu, Ming Zhou // Proceedings of the 41st Annual Meeting on Association for Computa-

tional Linguistics (ACL '03). – Stroudsburg, PA, USA, 2003 – Vol. 1. – P. 120–127.

6. Marius P. Aligning Needles in a Haystack: Paraphrase Acquisition Across the

Web / P. Marius, D. P´eter // Proceedings of the Second International Joint Conference:

Natural Language Processing (IJCNLP 2005). – Korea, 2005. – P. 119–130.

7. Barzilay R. Extracting Paraphrases from a Parallel Corpus / R. Barzilay, Kathleen

R. McKeown // Proceedings of the 39th Annual Meeting on Association for Computational

Linguistics (ACL '01). – Stroudsburg, PA, USA, 2001. – P. 50–57.

8. Khairova N. The logical and linguistic model for automatic extraction of colloca-

tion similarity / N. Khairova, S. Petrasova, Ajit Pratap Singh Gautam // Econtechmod : an

international quarterly journal on economics in technology, new technologies and modelling

processes. – Lublin; Rzeszow, 2015. – № 3 (4). – P. 43–48.

Page 102: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

101

ПРОБЛЕМЫ ЗАДАЧИ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ТЕКСТА

Клименкова Е.Г.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 0991778841,

e-mail:[email protected]

В настоящее время в связи со стремительным ростом информационных

технологий и процессов происходит проникновение Интернета в различные

сферы жизни общества. Теперь Интернет представляет собой не просто инфор-

мационное поле, а социальное пространство со своими собственными процес-

сами и явлениями, социальными группами и объединениями. В этом простран-

стве каждый пользователь получил в числе прочих возможность выражать свое

мнение. Это может быть мнение относительно товара или услуги, фильма или

книги, компании или политического деятеля. Таким образом, возникла потреб-

ность обрабатывать огромные объемы информации для определения отношения

пользователей к тому или иному объекту. Очевидно, что количество отзывов

публикуемых, например, в социальных сетях достигает десятков тысяч, и обра-

ботка отзывов вручную экспертами оказывается невозможной. В связи с этим

широкое распространение получил анализ тональности текста – Sentiment

Analysis (от английского sentiment – чувство) [1]. Благодаря анализу тонально-

сти стало возможным автоматически получить или «извлечь» мнение, выра-

женное в тексте.

Анализ тональности текста – это область компьютерной лингвистики, за-

нимающаяся выделением из текстов эмоционально окрашенной лексики или

эмоциональной оценки автора. Цель этой задачи состоит в определении, явля-

ется ли данный текст (допустим обзор фильма или комментарии) положитель-

ным, отрицательным или нейтральным по своему влиянию на репутацию кон-

кретного объекта.

Классическая задача Sentiment Analysis — автоматическое определение

оценок какого-либо объекта (персона, марка товара, бренд, событие, организа-

ция и т.д.) на основании корпуса текстов, посвященных этому предмету,

например, отзывов или газетных новостей [2]. При анализе тексты обычно

классифицируется на оценочные и нейтральные в отношении оценки. При

определении оценок чаще всего используется поляризованная шкала: позитив-

ная-негативная оценка либо эмоция, иногда дополняемая количественными ин-

дексами.

Основными источниками информации для автоматического определения

оценок в тексте является, прежде всего, лексика (слова и сочетания, имеющие

оценочное значение), также может учитываться пунктуация (например, воскли-

цательные знаки, особенно несколько подряд) и специальные конвенции, свой-

ственные данному типу текстов (например, смайлики для интернет-

коммуникации).

Page 103: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

102

Классическими областями применения Sentiment Analysis являются мар-

кетинговые исследования (анализ оценки продукта или бренда на основании

отзывов потребителей) и исследования СМИ (например, оценки деятельности

политического лидера по публикациям в СМИ). Основные трудности при пере-

носе методологии Sentiment Analysis в другие области кроются в том, что спо-

собы выражения оценок в тексте могут очень значительно варьироваться в за-

висимости от сферы и жанра коммуникации, медиа, предметной области.

Анализ тональности текстов – сложная задача, т.к. требует глубокого

знания явных и неявных, часто используемых и редких, синтаксических и се-

мантических правил естественного языка[3]. Трудность анализа тональности

заключается в присутствии эмоционально обогащенного языка — сленг, много-

значность, неопределенность, сарказм, все эти факторы вводят в заблуждение

не только людей, но и компьютеров. Исследователи в данной области сталки-

ваются с нерешенными проблемами из области обработки текстов на есте-

ственном языке такими как: разрешение различных неоднозначностей, обра-

ботка отрицания в текстах и др.

Проблема Sentiment Analysis состоит и в том, что пока не существует

универсального алгоритма анализа тональности текста, который бы показывал

достаточный уровень точности классификации в любой предметной области и

категории текстов, поскольку различные предметные области, типы и катего-

рии текстов требуют и различного подхода к их анализу.

Подразумевается, что можно найти и классифицировать тональность, ис-

пользуя инструменты обработки естественного языка (такие как теггеры, пар-

серы и др.) [1]. Сделав большое обобщение, можно разделить существующие

подходы на следующие категории: подходы, основанные на правилах; подходы,

основанные на словарях; машинное обучение с учителем; машинное обучение

без учителя.

Первый тип систем состоит из набора правил, применяя которые система

делает заключение о тональности текста. Например, для предложения «Я люб-

лю кофе», можно применить следующее правило:

если сказуемое ("люблю") входит в положительный набор глаголов

("люблю", "обожаю", "одобряю" ...) и в предложении не имеется отрицаний, то

классифицировать тональность как "положительная".

Многие коммерческие системы используют данный подход, несмотря на

то что он требует больших затрат, т.к. для хорошей работы системы необходи-

мо составить большое количество правил. Зачастую правила привязаны к опре-

деленному домену (например, «ресторанная тематика») и при смене домена

(«обзор фотоаппаратов») требуется заново составлять правила. Тем не менее,

этот подход является наиболее точным при наличии хорошей базы правил, но

совершенно неинтересным для исследования.

Подходы, основанные на словарях, используют так называемые тональ-

ные словари (affective lexicons) для анализа текста. В простом виде тональный

словарь представляет собой список слов со значением тональности для каждого

слова. Чтобы проанализировать текст, можно воспользоваться следующим ал-

горитмом: сначала каждому слову в тексте присвоить его значением тонально-

Page 104: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

103

сти из словаря (если оно присутствует в словаре), а затем вычислить общую то-

нальность всего текста. Вычислять общую тональность можно разными спосо-

бами. Самый простой из них — среднее арифметическое всех значений. Более

сложный — обучить классификатор (например - нейронная сеть).

Машинное обучение без учителя представляет собой, наверное, наиболее

интересный и в то же время наименее точный метод анализа тональности. Од-

ним из примеров данного метода может быть автоматическая кластеризация

документов.

Машинное обучение с учителем является наиболее распространенным

методом, используемым в исследованиях. Его суть состоит в том, чтобы обу-

чить машинный классификатор на коллекции заранее размеченных текстах, а

затем использовать полученную модель для анализа новых документов.

Процесс создания системы анализа тональности текста очень похож на процесс

создания других систем с применением машинного обучения:

1) необходимо собрать коллекцию документов для обучения классифика-

тора;

2) каждый документ из обучающей коллекции нужно представить в виде

вектора признаков;

3) для каждого документа нужно указать «правильный ответ», т.е. тип то-

нальности (например, положительная или отрицательная), по этим ответам и

будет обучаться классификатор;

4) выбор алгоритма классификации и обучение классификатора;

5) использование полученной модели.

Создание системы анализа мнений является сложной задачей, но вполне

посильной, если имеются данные для обучения и заранее определен домен (те-

ма). При использовании машинного обучения важно тестировать разные пара-

метры, чтобы подобрать те, которые работают лучше на тестовых данных. В

частности нужно тестировать разные алгоритмы классификации (NB, SVM),

набор признаков (униграммы, биграммы, символьные N-граммы), функцию

взвешивания признаков. Существует множество способов для улучшения клас-

сификации тональности, такие как использование тональных словарей, допол-

нительные лингвистические признаки (например, части речи), так и общие спо-

собы улучшение машинного обучения (бустинг, баггинг и др.). Список литературы:

1. Ермаков А.Е. Лингвистическая модель для компьютерного анализа тональ-

ности публикаций СМИ / А.Е. Ермаков, С.Л. Киселев // Компьютерная лингвистика и

интеллектуальные технологии: междунар. конф. Диалог’2005. — М. : Наука, 2005.

2. Пазельская А.Г. Метод определения эмоций в текстах на русском языке /

А.Г. Пазельская, А.Н. Соловьев // Компьютерная лингвистика и интеллектуальные

технологии: cб. научных статей. – Вып. 10 (17). — М. : Изд-во РГГУ, 2011. — С. 510-

522.

3. Обучаем компьютер чувствам (sentiment analysis по-русски) [Электронный

ресурс]. – Режим доступа : http://www.pvsm.ru/python/13159, 14.08.2012

Page 105: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

104

ЛІНГВІСТИЧНІ АСПЕКТИ ОЦІНКИ ЯКОСТІ ТЕХНІЧНОЇ

ДОКУМЕНТАЦІЇ

Колесник А.С., Хайрова Н.Ф.

Національний технічний університет

"Харківський політехнічний інститут",

м.Харків,вул.Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Для створення будь-якого складного технічного продукту необхідна де-

тальна та якісна розробка технічної документації, що пов’язана з цим продук-

том. Якісна документація, тобто інформативна, повна і зрозуміла, є запорукою

успіху продукції на усіх етапах її життєвого циклу. Правильно складена доку-

ментація є основою функціональності і ефективності інформаційних систем.

Для того щоб бути корисною для користувача, документація такого виду має

бути легкою для розуміння, користування і пошуку необхідної інформації. Ін-

формація у технічному документі має бути доцільною, повною, точною та кон-

кретною.

Технічна документація – набір документів, що застосовується при проек-

туванні, створенні і використанні яких-небудь технічних об'єктів: будівель,

споруд, програмного і апаратного забезпечення. Існує велика кількість видів

технічної документації, призначеної для певної мети. Усі ці види включають

структуровану інформацію, відомості по запобіжних заходах, інструкції з екс-

плуатації, а також повний опис виробничих і технологічних процесів створення

продукту. Предметом даного дослідження є саме інструкції з експлуатації - це

опис виробу і правила користування ним [4].

Поняття якості документації дуже заплутане і невизначене, воно скоріш

суб’єктивне. Якість дуже багатовимірне поняття, яке включає точку зору про

об'єкт та ознаки властиві цьому конкретному продукту. Щоб оцінити і поліп-

шити якість, необхідно чіткіше визначити її поняття. Відповідно до "Juran

Quality Handbook" [3], виданою в 1998 році, краще за все визначати якість як

"придатність для використання". Це визначення Джозефа Джурана, американ-

ського фахівця в області якості, враховує споживачів, їх вимоги і очікування.

Якісність технічної документації залежить не тільки від традиційних під-

ходів, а також від вимог до якості, які залежать від виду зацікавлених сторін.

Зацікавлені сторони це [2]:

власники технічної документації;

користувачі (споживачі) цієї документації.

Інформаційна якість для технічного документу – це набір особливостей

технічної документації, який спирається на вмінні власників документації і її

користувачів надавати її і використовувати за призначенням. На рисунку 1 зо-

бражені існуючі вимоги до якості технічного документу.

Page 106: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

105

Рисунок 1 ˗ Вимоги до якості технічного документу

У результаті проведеного дослідження булу визначені наступні лінгвісти-

чні аспекти оцінки якості технічної документації:

лінгвістично-граматичні критерії;

лінгвістично-пунктуаційні критерії;

стильові критерії.

У рамках цього дослідження були сформульовані основні граматичні і

пунктуаційні правила оформлення технічної документації у межах конкретного

стилю та було виділено лінгвістичні критерії її оцінки.

На основі цих критеріїв розроблено алгоритм, що дозволяє виправляти

стильові, граматичні та пунктуаційні помилки у посібнику користувача, що не

відповідають встановленим критеріям [1].

По-перше, усуваються усі пунктуаційні помилки, такі як:

1. Використання більше одного пробілу після розділового знаку.

2. Наявність коми у форматі дати MMMM YYYY.

3. Застосування розділового знаку (кома, крапка і т. д.) не одразу після

слова, а з пробілом.

4. Наявність косої риски у конструкціях, що вказують на вибір, такий як

he/she, у якості замінника or.

На другому етапі проходить перевірка і виправлення наступних грамати-

чних помилок[1]:

1. Використання дієслівних виразів замість однослівних дієслів.

Для вирішення проблеми з використанням дієслівних виразів, таких як

наприклад take away, у програмі застосовується база даних з усіма формами

цих дієслів і варіантами однослівних дієслів.

2. Використання американського або британського варіантів правопису

слів замість міжнародного варіанту запису.

Page 107: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

106

При присутності у тексті інструкції слів, що є американським або британ-

ським варіантом написання застосовується інформація бази даних, яка містить

тематично підібрані слова обох варіантів правопису ( американський та британ-

ський) та міжнародний варіант правопису цих слів. Таблиця БД містить три по-

ля: [British spelling], [American spelling] та [International spelling]. Слова із полів

[British spelling] та [American spelling] замінюються на слова із записів поля

[International spelling].

Останній третій етап – виправлення стильових помилок. На цьому етапі

виконується [2]:

1. Заміна словосполучення “between .. and…”, на форму ʺ from ..

through…ʺ.

2. За допомогою регулярних виразів перевіряється та змінюється формат

дати на формат MMMM DD, YYYY.

3. Заміна написання слова великим літерами на курсивне форматування;

4. Запис чисел від 1 до 9 словами.

5. Запис чисел, що більші за 10, цифрами.

6. Запис чисел, що вказані з видом виміру (навіть ті, що менше 10), циф-

рами.

7. Запис назви місяців тільки у повній формі.

За допомогою даного алгоритму можна виправити найочевидніші грама-

тичні, пунктуаційні та стильові помилки в технічному документі. Ця процедура

зробить документ більш якісним з точки зору лінгвістичних аспектів оцінки

якості. На наступному етапі дослідження розробляється програма, яка може са-

мостійно виправляти усі вказані помилки у технічному документі тим самим

підвищуючи його якість. Список джерел інформації

1. Microsoft Manual of Style 4th

edition / Published by Microsoft Press. ─ 2012. ─

P. 439.

2. Technical Writing Guidelines / The Natchez Group Inc.─ 2004. ─ P. 66.

3. Juran J. Juran’s Quality Control Handbook / J. Juran. ─ 5th edn, McGraw-Hill. ─

1998. ─ p.1136.

4. Комплекси стандартів та нормоконтроль технічної документації [Електрон-

ний ресурс]. – Режим доступу : http://b-ko.com.

Page 108: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

107

ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ І ПОБУДОВА МОДЕЛІ

РАЦІОНУ ХАРЧУВАННЯ ЛЮДИНИ

Кочура О. І.

Національний технічний університет

"Харківський політехнічний інститут",

м.Харків,вул.Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Робота призначена для розгляду методів інтелектуального аналізу даних

та створення на їх основі автоматизованої системи харчування людини. Дана

тема являється досить актуальною на сьогодні, тому що збалансоване харчу-

вання є дуже важливим, а система раціону харчування людини значно допо-

може у вирішенні проблеми – як же харчуватися правильно.

Мета нашої роботи – створення програми для надання користувачам мо-

жливості особистого контролю за власним раціоном харчування.

Дану систему ми будемо розробляти за допомогою методів Data Mining,

які спеціально призначені для пошуку прихованих знань та закономірностей у

великих об’ємах інформації.

Data Mining – це процес підтримки прийняття рішень, заснований на по-

шуку в даних прихованих закономірностей (шаблонів інформації) [1].

У нашій базі даних це будуть таблиці «Норми побудови тіла людини»,

«харчова цінність продуктів» та ін.

Зазвичай такі закономірності не можна виявити при традиційному перег-

ляді даних, оскільки зв'язки занадто складні, або через надмірний обсяг даних.

Їх можна зібрати разом і визначити, як модель інтелектуального аналізу даних.

Моделі інтелектуального аналізу даних, що застосовуються у нашій системі:

1. Пошук : пошук необхідних продуктів та страв.

2. Прогнозування: оцінка харчової цінності, прогнозування чи задоволь-

нять вони потреби людини, та чи в майбутньому показники наблизяться до

норм.

3. Рекомендації: визначення продуктів, які з високою часткою ймовірнос-

ті задовольнять потреби, створення рекомендацій.

У роботі ми використовуємо конкретний метод Data Mining – дерева рі-

шень (Decision trees). Цей метод є одним з найбільш популярних методів вирі-

шення задач класифікації та прогнозування [2].

У нашій системі фактичні параметри тіла людини будуть порівнюватися

з нормами параметрів тіла, а потім за допомогою методу дерев рішень, будуть

обиратися продукти та страви з таблиць харчової цінності, шляхом проходжен-

ня по гілках дерева та задоволення певних умов, що будуть задані.

У результаті проведених досліджень було розроблено алгоритм створення

та роботи програми.

У ролі сховища інформації виступає База даних (БД), тому одне з голов-

них завдань, яке необхідно вирішити для написання движка сайту, є робота з

Page 109: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

108

MySQL. Наступним кроком буде написання програми на Java. В майбутньому

планується також розміщення даної програми в інтернеті, для можливості її

більш зручного використання, тож необхідно також створити сам сайт, який

буде виступати у ролі інтерфейсу для взаємодії користувача з самою програ-

мою. Прикладний компонент, а також база даних будуть розташовуватися на

сервері.

Далі ви можете побачити алгоритм роботи програми на рисунку 1.

Рисунок 1 – Алгоритм роботи програми

Сайт буде виступати у ролі інтерфейсу для взаємодії користувача з самою

програмою. Прикладний компонент, а також база даних будуть розташовувати-

ся на сервері.

Алгоритм роботи.

Користувач вводить дані на сайті, які передаються на сервер, потім змі-

нюються, проходять процес обробки, на основі виконаних обчислень переда-

ється запит до бази даних, отримуються дані, які також обробляються та устат-

ковуються в необхідну форму, зрозумілу для користувача. Готові дані переда-

ються на сайт, де користувач вже може самостійно їх вивчати.

В даній роботі було проаналізовано актуальність даної теми; розглянуто

що таке Data Mining та обрано метод «Дерев рішень»; вивчено необхідний ма-

теріал; та розроблено алгоритм створення та роботи системи раціону харчуван-

ня людини. Список джерел інформації

1. Fayyad U.M. Advances in Knowledge Discovery and Data Mining /

U.M. Fayyad. – AAAI Press, 1996. – 611 p.

2. Data mining і штучний інтелект: [Електронний ресурс]. – Режим доступу: –

http://bug.kpi.ua/stud/work/RGR/DATAMINING/whatisdm.html

Page 110: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

109

ПОШУК АНАФОРИЧНИХ ЗВ'ЯЗКІВ У ПРОЦЕСІ

АВТОМАТИЧНОГО АНАЛІЗУ ДОКУМЕНТІВ

Кузьміна М.А.

Національний технічний університет

"Харківський політехнічний інститут",

м. Харків, вул. Пушкінська, 79/2, тел. 0938562130.

Всесвітнє поширення і вдосконалення інформаційних технологій викли-

кали потужний імпульс до досліджень в області аналізу текстових даних. Під

час вилучення інформації з тексту на природній мові важливою умовою якості

розуміння є ототожнення повторно згадуваних об'єктів [1].

Однією з актуальних задач, які постоють перед комп'ютерної лінгвісти-

кою, є виділення в текстових документах згадок про різні сутності: персони, ор-

ганізації, події, міста та ін., а також існуючих між ними зв'язків. Перелік таких

сутностей, інформація про які вилучається з тексту, залежить від предметної

області. Видобувні дані уніфікуються у вигляді мережі формальних описів, так

званих інформаційних об'єктів, з метою подальшого зберігання в базі даних [2].

Кожен інформаційний об'єкт відповідає деякому поняттю/відношенню

предметної області і має задану структуру. Найчастіше вважають, що обробка

тексту проводиться в рамках деякої інформаційної системи, предметна область

якої обмежена і явно описана на певній формальній мові.

Витяг об'єктів і фактів з текстів це частина NLP (Natural Language

Processing – автоматична обробка природної мови), кінцева мета якої навчити

машину повноцінно розуміти звичайний людський текст. Анафоричні вира-

ження розглядаються в когнітивної лінгвістиці як важлива складова моделі мо-

вної ситуації, в трансформаційній граматиці як засіб зв'язку в пропозиціях, а та-

кож анафоричні вираження входять в число засобів референції, оскільки, вка-

зуючи кореферентності імен, вони тим самим вказують референцію [1].

Автоматична розгортка анафоричних (кореферентних) зв'язків в природ-

но-мовних текстах знаходиться у фокусі уваги дослідників і є однією з центра-

льних проблем у задачі автоматичної обробки текстів. У текстах нерідко вико-

ристовуються мовні вирази, які не можуть бути проінтерпретовані без звернен-

ня до попереднього контексту. В першу чергу це анафоричні займенники, такі

як, наприклад, займенники третьої особи він, he [3].

Розкриття анафори - досить серйозна задача, до вирішення якої залучено

безліч дослідників, які дотримуються різних точок зору на проблему і викорис-

товують різні підходи: як традиційні (синтаксичні та семантичні), так і альтер-

нативні (статистичні), які дають лише приблизний результат. Завдання ототож-

нення різних найменувань одного і того ж об'єкта є більш загальним, оскільки

подібні найменування можуть не посилатися один на одного, як у випадку ана-

фори, але, тим не менш, також бути кореферентності.

Для досягнення більш великих повноти і точності результату розробники

систем автоматичної обробки текстів намагаються використовувати додаткові

Page 111: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

110

джерела інформації про терміни, такі як словники та бази знань. На сьогодніш-

ній день існує безліч подібних ресурсів, більшу частину яких складають англо-

мовні ресурси. Так, підхід до вирішення кореференції, розроблений дослідни-

цькою групою Стенфордського університету, передбачає використання Вікіпе-

дії для виявлення етнохоронімів [1]. Сам підхід засновується на спільному за-

стосуванні декількох простих фільтрів. Система, розроблена на основі цього пі-

дходу, на даний момент вже розширена новими фільтрами, які використову-

ються в WordNet, Wikipedia і Freebase. Проекти подібні WordNet і Freebase най-

краще розвинені для англійської мови, що суттєво впливає на дослідження в

області обробки англомовних текстів.

Анафорична структура складається з двох основних елементів антеце-

дента і повтору (анафора), між якими можуть встановлюватися відносини ко-

референтності. Змістом анафоричного зв'язку є або тотожність об'єктів, позна-

чених іменними групами, або лексична тотожність самих іменних груп.

Процес вирішення кореферентності є частиною процедури ідентифікації

об'єктів, зосередженої в компоненті первинного аналізу. Алгоритм встановлен-

ня кореференції або референціального тотожності об'єктів включає в себе вста-

новлення ступеня подібності об'єктів, побудова безлічі гіпотетичних еквівален-

тів для кожного об'єкта і об'єднання дійсно кореферентних об'єктів.

Проте, не дивлячись на декларовану важливість і актуальність згаданих

вище задач автоматичної обробки текстів, в силу своєї складності взагалі і для

україномовних текстів зокрема, вони не завжди вирішуються цілком.

Автоматичне встановлення анафоричних зв'язків дозволяє наблизити ав-

томатичний аналіз інформації в текстових документах до моделі рече-розумової

діяльності людини і зробити його дійсно інтелектуальним, а також відкриває

нові можливості для вирішення багатьох прикладних задач, таких, як машин-

ний переклад, інформаційний пошук, автоматичне анотування і реферування.

Основною метою пошуку референціально-тотожних об'єктів є скорочення

числа інформаційних об'єктів, що представляють одну сутність, в ідеалі до од-

ного, що, в свою чергу, підвищує ймовірність їх успішної ідентифікації. Однак

помилкове об'єднання об'єктів помітно знижує підсумкову ефективність проце-

дури ідентифікації і навіть може послужити причиною некоректного ототож-

нення з об'єктом бази даних. Список літератури

1. Толпегин П.В.. Автоматическое разрешение кореференции местоимений тре-

тьего лица русскоязычных текстов : дис. ... к. т. н. : 05.13.17 «Теоретические основы

информатики» / П.В. Толпегин. М., 2008.- 238 с.

2. Павленко М.А. Анализ методов решения задачи извлечения информации из

текстов. / М.А. Павленко // Системи обробки інформації: зб. наук. пр. – Харк. ун-т

Повітр. Сил ім. Івана Кожедуба, випуск 8 (115). – Харків, 2013. – С.158-162.

3. Извлечение объектов и фактов из текстов в Яндексе. [Електронний ресурс]. –

Режим доступу : https://habrahabr.ru/company/yandex/blog/205198/

Page 112: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

111

ОСОБЕННОСТИ СЛОГОДЕЛЕНИЯ В АНГЛИЙСКОМ ЯЗЫКЕ

Курбацкая М.А.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2.

Произношение слов, в любом языке, во многом определяется нормами

слогоделения. Под слогоделением обычно понимается деление слов на слоги,

обусловливаемое свойственной данному языку структурой слоговых границ.

Слог представляет собой довольно сложную единицу, которую, как и фонему

можно рассматривать с 4 точек зрения: акустической, артикуляторной, перцеп-

тивной и функциональной [1].

Как фонетическая единица, слог уже давно привлекает исследователей.

Многочисленные теории слога можно разбить на две группы. В основе иссле-

дований первой группы лежит понимание слога как единицы акустической

природы[2]. В соответствии с таким походом, слог понимается как своеобраз-

ная единица изменения громкости, а последовательность слогов – как последо-

вательность волн сонорности. Во вторую группу объединяются теории понима-

ния слога как произносительной единицы, которая характеризует определен-

ную упорядоченность артикуляционных движений при порождении речи. Су-

ществуют смешанные теории, рассматривающие слог как артикуляторно-

акустическую единицу.

Слогообразование в английском языке происходит на основе фонологи-

ческой оппозиции гласный – согласный [3]. Гласные обычно слогообразующие,

а согласные чаще всего нет, за исключением сонантов [l,m,n], которые стано-

вятся слогообразующими, если стоят в конце слова в безударной позиции после

шумного согласного, например, в словах little, blossom, garden.

Структура слога меняется в зависимости от числа и порядка следования

согласных. В английском языке выделяют 4 типа слога [3]: открытый - no CV,

закрытый - odd VC, прикрытый - note CV(C) и неприкрытый oh, oak V(C). В ан-

глийском языке имеются все четыре возможных типа слога: 1) полностью от-

крытый слог, т.е. слог, состоящий из одного гласного, например, or, I, a-bout; 2)

полностью закрытый слог, т.е. слог, состоящий из гласного в окружении со-

гласных, например, cup, time, strong; 3) слог, прикрытый в начале, т. е слог,

начинающийся одним или несколькими согласными – sea, play, straw; 4) при-

крытый в конце, т. е заканчивающийся одним или несколькими согласными –

at, apt, acts. Полностью открытый слог, как слог, состоящий из одного гласного

(монофтонга или дифтонга) не имеет структурных подтипов. Остальные же ти-

пы слогов в зависимости от количества входящих в них согласных могут иметь

ряд различных подтипов. Для полностью закрытого слога таких подтипов по

данным Г.П. Торсуева, насчитывается 12 (1.CVC fat, 2.CVCC fact, 3.CVCCC

facts, 4.CCVC place, 5.CCCVC street, 6. CCVCC speaks, 7. CCVCCC sphinx, 8.

CCCVCC streets, 9. CCCVCCC con-structs, 10. CVCCCC –sixths, 11.CCVCCCC

Page 113: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

112

twelfths, 12. CVCCCCC sixths [sikstθs] – эпентическое (дополнительное t); для

прикрытого в начале слога – 3: CV sea, CCV play, CCCV straw; для прикрытого

в конце слога – также 3: VC at, VCC apt, VCCC acts. Таким образом, всего ис-

следователи выделяют 19 подтипов английских слогов.

Для английского языка фундаментальным типом слога является закрытый

слог [4]. Количество превокальных согласных в английском слоге колеблется

от 1 до 3, а количество поствокальных согласных - от 1 до 5. Что касается коли-

чества слогов в английском слове, то оно может колебаться от 1 до 8, например,

в come, city, family, simplicity, unnaturally, incompatibility (несовместимость),

unintelligibility (неразборчивость).

Лингвистическая значимость слогоделения в различных языках состоит в

выведении типологии слога и слоговой структуры значимых единиц языка, т.е.

морфем и слов. Именно слогоделение определяет слоговую структуру языка,

его слогового типа [3]. Слоговая структура языка, как и его фонемная структу-

ра, подчиняется некоему набору правил. Та часть фонетики, которая имеет дело

с этим разделом языка, называется фонотактика. Фонотактические возможно-

сти языка определяют правила слогоделения в языке. Как указывают фонети-

сты, проблема слогоделения в английском языке появляется только при нали-

чии согласных в интервокальной позиции или сочетаний согласных, например:

city, agree, extra. В таких случаях определить границы слога нелегко.

Теоретически возможны 2 варианта: граница слога находится после ин-

тервокального согласного и граница слога находится внутри согласного. В обо-

их случаях первый слог является закрытым в соответствии с фонотактическими

правилами английского языка, потому что краткий гласный должен остаться

усечённым. Результаты инструментального анализа показывают, что точка сло-

годеления в словах типа pity, topic, measure, Bobby лежит внутри интервокаль-

ного согласного [4]. Этот вывод имеет огромное значение для русских, изуча-

ющих английский язык. Им необходимо помнить, что в русском языке ударный

слог в структуре (C)VCV(C) всегда открыт, например, у-хо, мя-та, о-бувь, в то

время как в английском такой тип слога является закрытым, если слоговая

гласная – краткая и усечённая. Чтобы правильно произнести английские слова

такого типа, необходимо осуществить очень быстрый и закрытый переход от

гласного к согласному.

Теперь рассмотрим другой тип интервокальных сочетаний согласных. К

нему относятся сочетания типа VCCV(C) agree, abrupt. Чтобы определить сло-

говую границу в словах такого типа необходимо применить фонологические

критерии, первым из которых будет дистрибуция сегментных фонем. В указан-

ных выше примерах слова делились на слоги следующим образом: a-gree, a-

brupt, потому что такие комбинации согласных как gr br могут стоять в начале

слова в английском языке. С другой стороны, существуют звукосочетания, ко-

торые не могут быть найдены в начале слова, а, следовательно, через них может

проходить граница слога, например: ad-mire, ab-hore.

В сложных существительных типа toast-rack существенную роль играет

только морфологический критерий, потому что границы слога должны совпа-

Page 114: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

113

дать с границами морфем, и такие случаи не представляют ни малейшей слож-

ности[3].

Подводя итог, можно сказать, что в научной литературе вопрос о грани-

цах слога и принципах слогоделения традиционно ставился в связи с пробле-

мой словообразования. Сравнительное многообразие теорий слога еще не озна-

чает того, что природа слога и принципы слогоделения изучены достаточно

глубоко и полно. В английском языке не существует единой нормы слогоделе-

ния, поэтому могут использоваться морфологический, фонетический или орфо-

графический принципы деления. Список литературы

1. Бондаренко Л.П. Основы фонетики английского языка : Учебное пособие /

Л.П. Бондаренко, В.Л. Завьялова, М.О. Пивоварова, С.М. Соболева— М. : Флинта,

Наука, 2009. — 152 с.

2. Соколова М.А. Теоретическая фонетика английского языка /

М.А. Соколова. Дy6нa: Феникс+, 2010. - 192 c. ISBN 978-5-9279-0153-1

3. Структура слога [Электронный ресурс]. – Режим доступа :

http://5fan.ru/wievjob.php?id=11214

4. Єрко О.К. Практична фонетика англійської мови. A Practical Course of

English Phonetics : учеб. пособие для студ. 1-2 курсов высш. учеб. заведений /

О.К. Єрко. – М. : Славян. дом книги : ИП Логос : Айрис-Пресс, 2005. - 272 с.

Page 115: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

114

РОЗРОБКА ЕЛЕКТРОННОГО СЛОВНИКА ПРИКАЗОК ТА ПРИСЛІВ`ЇВ

Литвиненко О.В. Національний технічний університет «Харьківський політехнічний інститут»

м.Харків, вул.Пушкінська 79/2, тел. 707-64-60, e-mail: [email protected]

Розвиток гуманітарних наук у епоху інформаційних технологій зумовлює

широке використання у лінгвістичних дослідженнях корпусних технологій.

Під час роботи над перекладом часто виникає проблема неправильного ро-

зуміння іншомовних сталих сполук, а саме приказок та прислів’їв. Саме цей

факт зумовлює актуальність створення електронного словника приказок та при-

слів’їв декількома мовами, а саме українською, німецькою, російською та анг-

лійською.

Словникова стаття словника містить не лише приказки та прислів`я та їх

еквіваленти вказаними мовами, але й етимологічні відомості та тлумачення ко-

жної приказки та прислів’я, а також приклад вживання у художній літературі.

Словникова стаття складається з двох частин, у лівій частині подано прис-

лів’я чи приказку українською мовою та синоніми, тлумачення , подано етимо-

логічні відомості та приклади вживання у літературі. Права частина словнико-

вої статті містить у собі еквіваленти приказки чи прислів’я англійською, німе-

цькою та російською мовами, до кожного з еквівалентів подано синоніми, при-

клади вживання з перекладом на українську мову.

Приклад словникової статті для прислів’я «Де дві господині, там хата не-

метена» зображено у таблиці 1. У даній словниковій статті представлено украї-

нське прислів’я, його тлумачення українською мовою, подано декілька синоні-

мів та прикладів українською мовою у лівій частині словникової статті. Права

частина містить у собі еквіваленти українського прислів’я трьома мовами, піді-

брані синоніми до кожного з еквівалентів та приклади з художньої літератури.

До еквівалентів та синонімів англійською та німецькою мовами надано перек-

лад українською мовою для зручності сприйняття.

Таблиця 1 Де дві господині, там ха-

та неметена. Тлумачення:

Робота страждає, якщо за

неї беруться декілька чо-

ловік. Говориться про

неузгодженість дій цих

людей або тоді, коли люди

ставляться

безвідповідально до робо-

ти, вважаючи що її вико-

нає хтось інший.

Синоніми :

Сім баб – сім рад, а дитя

безпутне.

Два ведмеді у одному

Єквівалент у російській мові:

У семи нянек дитя без глаза.

Синоніми :

У шести нянек дитя непременно не выходится.

Плохо – у одной овечки да семь пастухов.

Приклад з літератури:

Иван Иванович осуществлял, как он говорил, «общее руковод-

ство» над мальчиками и по-прежнему оттирал Аню: — У

семи нянек дитё без глазу, Анна Михайловна. А у вас и так

хлопот полон рот. В. Кетлинская, Дни нашей жизни.[2]

Єквівалент в англійській мові:

Too many cooks spoil the broth.

[Занадто багато кухарів псують бульйон]

Синоніми:

Many physicians have killed the king.[Багато лікарів, а короля

вбили]

Page 116: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

115

барлозі не уживуться.

Де багато баб, там дитя

безносе (безпупе, беззубе).

Де багацько няньок, там

дитя каліка (без голови).

Де багато баб — дитина

без носа.

Де велика рада, там

рідкий борщ.

Де начальства ціла рота,

там виходить пшик робо-

та.

Два кухарі — лихий борщ.

Приклади з літератури:

«Ліна не опиралася. Взяла

віник і як почала підміта-

ти! Кушпелу таку збила,

що і в хаті нічого не вид-

но.

Зайшла мама. Взялася за

серце:

— Лишенько моє, лишень-

ко! Правду люди кажуть:

де сім господинь, там

хата неметена!» Іван

Сенченко

«Ходжес і сам дивився

деякі з тих британських

серіалів, при тому вва-

жав, що Скотленд-Ярд

чомусь забув старе при-

слів`я: Де велика рада,

там рідкий борщ. » С.Кінг, Містер Марсе-

дес [2]

Many commanders sink the ship.[Командирів багато , а судно

потонуло]

Everybоdy`s business is nobody`s business.[Загальний бізнес –

нічий бізнес]

Приклади з літератури:

"You're too devilish tricky for me, Justin. I want а handin the

affair. " "No." Hugh shook his head. "Let Avon playhis game to а

close. There are too таnу of us to join with him, and there's а

proverb that says 'too many cooks spoil the broth'." ( Heyer)

She brought the car to а standstill, and they all got out. The off

hind tyre w.as right down. "Pipe to !" said Hilary, taking his coat

off. "Jack her up, Adrian. get the spare wheel off. "Fleur's head

was lost in the tool-box, but her voice was heard saying : "Тоо

many cooks, better let me !" ( Gasworthy)

Never Before had he Bееn in one of those kitchens, where many

cooks prepare, and sometimes spoil the theatrieal broth.

Consequently, the chaos seemed to him unique. ( Wodehouse)[1]

Єквівалент в німецькій мові:

Viele Hirten, übel gehütet.[Пастухів багато та погано догля-

дають (стадо)]

Синоніми:

Viele Köche verderben den Brei.[Багато кухарів та кашу зіпсу-

вали]

Viele Ärzte heilen übel.[Багато лікарів,а лікують погано]

Приклади з літератури

"Viele Köche verderben den Brei - Die Kompetenzen in der Ent-

wicklungshilfe sind immer noch nicht ganz klar"; "Einfacher er-

klärt es RH-Chef Josef Moser in einem APA-Interview: 'Viele Kö-

che verderben den Brei.' Die Aufsichtsstellen FMA, Nationalbank

und Fimbag hätten zu lange nebeneinander hergearbeitet, das Fi-

nanzministerium habe dabei zugeschaut"; "Viele Köche verderben

den Brei: Arbeiten Sie nicht mit mehr als drei Partnerinnen oder

Partnern, denn sonst werden Entscheidungsprozesse kompliziert

und schwierig";[5 ][4]

Розроблюваний електронний словник можливо використовувати у різно-

манітних галузях, під час перекладів іншомовних текстів. Багатомовність доз-

волить користувачу не тільки знайти еквіваленти, але й порівняти їх між собою,

що значно полегшить вивчення іноземних мов. Список літератури

1 Адамія Н.Л. Русско-англо-немецкий словарь пословиц, поговорок, крылатых

слов и библейских изречений / Н.Л. Адамія. – «Флинта», 2006. – 344 с.

2 Практичний російсько-український словник приказок. – «Київ», 2009.

3 Головащук С.І. Російсько-український словник сталих словосполучень /

С.І. Головащук. – К. : «Наукова думала», 2001. – 264 с.

4 Абсолютные и частичные эквиваленты пословиц и поговорок в иностранных

язиках [Электронный ресурс]. – Режим доступа : http://festival.1september.ru/-

articles/606233/

5 Русские поговорки и пословицы и их немецкие аналоги [Электронный ре-

сурс]. - Режим доступа : http://dnevniki.ykt.ru/

Page 117: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

116

ВИЗНАЧЕННЯ ГРАМАТИЧНИХ КАТЕГОРІЙ ІМЕННИКІВ У

НІМЕЦЬКІЙ МОВІ ПРИ АВТОМАТИЧНОМУ АНАЛІЗІ ТЕКСТУ

Медяник Ю.М.

Національний технічний університет

"Харківський політехнічний інститут",

м. Харків,вул. Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Одним із напрямків комп’ютерної лінгвістики є завдання автоматичного

аналізу текстів. При розробці системи автоматичного аналізу тексту врахову-

ється синтаксис (структура речень), семантика (понять, застосовуваних у текс-

ті) і прагматика (правильність вживання понять і цілей їх вживання).

В цілому система, що підтримує повний аналіз тексту, повинна містити в

собі такі рівні: графематичний, морфологічний, синтаксичний та семантичний

аналізи.

Автоматичне визначення граматичних категорій іменників в німецькій

мові є завданням морфологічного етапу автоматичної обробки тексту.

Морфологічний аналіз забезпечує визначення нормальної форми, від якої

була утворена дана словоформа, і набору параметрів, приписаних даній слово-

формі, тобто визначення морфологічних характеристик слів.

На цьому етапі обробки тексту програма повинна визначити слова-

іменники в тексті та їх граматичні категорії [1].

Граматична категорія – система протиставлених одна одній однорідних

граматичних величин (граматичних форм із однорідним значенням) [2].

В роботі пропонується розглянути вирішення завдання визначення грама-

тичних категорій іменників. До граматичних категорій іменників відносяться

наступні: категорія числа, роду, відмінка, означеності/неозначеності. В німець-

кій мові зміна форм іменника відбувається в рамках таких граматичних катего-

рій як рід (Genus), число (Numerus) та відмінок (Kasus).

1. Категорія числа – граматична категорія, яка виражає кількісні харак-

теристики предметів думки. В понятті цієї категорії протиставляються одинич-

ність і множинність, а граматичні значення однини й множини формально ви-

ражаються за допомогою спеціальних закінчень.

2. Категорія роду притаманна далеко не всім мовам. В українській мові,

як і в інших слов'янських, а також романських та німецькій мовах, є така кате-

горія, та є формальні засоби її вираження: закінчення (укр.: учитель, стіна, вік-

но), артиклі (нім.: der Vater – "батько", die Mutter – "мати", das Kind – "дитя",

фр.: le реге – "батько", la mere – "мати") [3].

Індикатором роду для іменника в німецькій мові в більшості випадків ви-

ступає артикль (der – чол. рід, die – жін. рід, das – сер. рід), але інколи цим ін-

дикатором може слугувати суфікс.

Page 118: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

117

Також у німецькій мові є закінчення, що вказують на рід іменника:

для чоловічого роду: -ling, -tor, -ör, -loge, -ist, -ant, -är, -et, -eur, -ismus, -

iker;

для жіночого: -ung, -keit, -heit, -schaft, -ion, -enz, -ik, -ät, -unft, -thek, -erei,

-ade, -ine, -ive, -sis, -ur, - ie;

для середнього: -chen, -lein, -ment, -um, -tum, -ett.

3. Категорія відмінка – граматична категорія іменника, яка виражає його

синтаксичні відношення до інших слів висловлювання.

Також для германських і романських мов характерна граматична катего-

рія означеності/неозначеності.

4. Категорія означеності/неозначеності (детермінації) – граматична кате-

горія, яка вказує на те, чи мислиться ім'я предмета як єдине в описуваній ситуа-

ції (означеність) чи як таке, що належить до класу подібних йому феноменів

(неозначеність). Вона виражена означеними і неозначеними артиклями. Так, зо-

крема, нім. der Tag – «день», die Blume – «квітка», das Fenster – «вікно» озна-

чають конкретні поняття, предмети, уже відомі мовцеві й слухачеві, тоді як ті ж

іменники з неозначеним артиклем – ein Tag, eine Blume, ein Fenster – означають

якийсь день, якусь квітку, якесь вікно, без конкретики [2].

Таким чином, іменник в німецькій мові може відмінюватися, виступати

як в однині так і в множині та відрізнятися за родом.

Дослідження граматичних категорій іменників, зокрема, у німецькій мові

показало, що створення алгоритмів їх автоматичного визначення є важливою

складовою при автоматичній обробці текстів. В результаті планується розроби-

ти прототип системи, що автоматично визначає в тексті німецької мови грама-

тичні категорії іменників, базуючись на морфологічну інформацію, а саме, за-

кінчення слів. Список літератури

1. Большакова Е.И. Автоматическая обработка текстов на естественном языке и

компьютерная лингвистика : учебное пособие / Е.И. Большакова, Э.С. Клышинский,

Д.В. Ландэ, — М. : МИЭМ, 2011. — 272 с.

2. Gottstein-Schramm B. Schritte ubungsgrammatik / B. Gottstein-Schramm,

S. Kalender. – Hueber Verlag, 2010. – 184 pp.

3. Formenlehre bei Nomen. Формы существительного [Електронний ресурс]. –

Режим доступу : http://www.studygerman.ru/lessons/anfanger4-1.html

Page 119: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

118

СИСТЕМИ ВИЛУЧЕННЯ СПАМ ПОВІДОМЛЕНЬ

Мусієнко О.П. Національний технічний університет «Харківський політехнічний інститут»

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60, e-mail:[email protected]

Розширення можливостей використання інформаційних ресурсів, доступ-

них через мережу Інтернет, призвело, зокрема, до широкого поширення неба-

жаної кореспонденції – так званого "спаму". Поширення такої кореспонденції

пов'язано не тільки з втратами мережевих ресурсів, але і з тимчасовими витра-

тами, необхідними користувачеві мережі для обробки подібної інформації.

Втрати часу на перегляд таких повідомлень і, що більш важливо, витрати кош-

тів і ресурсів, необхідних для придбання та обслуговування програм, фільтру-

ючих пошту, завдають шкоди більш значну, ніж мережеві віруси.

Поширення спаму, зокрема таких його видів, як реклама, антиреклама,

так звані нігерійські листи і фішинг, листи релігійного змісту та інших, небез-

печне ще й тим, що часто розсилаються повідомлення містять комп'ютерні ві-

руси. Особливу небезпеку становлять шкідливі програми певного типу (пошто-

ві хробаки), що поширюються за допомогою електронної пошти. При цьому

способи поширення спаму також дуже різноманітні, наприклад, за допомогою

електронної пошти, миттєвих і мережевих або SMS-повідомлень. Найбільший

потік спаму поширюється через електронну пошту. В даний час частка вірусів і

спаму в загальному трафіку електронної пошти становить за різними оцінками

від 70 до 95%.

Розповсюджувачі спаму копіюють електронні адреси за допомогою спе-

ціального робота або вручну, використовуючи Web-сторінки, соціальні мережі,

списки розсилки, електронні дошки оголошень, гостьові книги, чати. При цьо-

му розсилка спаму обходиться його розповсюджувачам практично безкоштов-

но, тоді як одержувачу спаму доводиться оплачувати своєму провайдеру час

(або трафік), витрачений на отримання небажаних повідомлень кореспонденції.

У такій ситуації, з урахуванням перерахованих факторів, важливості на-

буває спосіб створення фільтрів, що перешкоджають поширенню небажаної

електронної кореспонденції. Одним з таких способів є автоматична фільтра-

ція – програмне забезпечення (так звані спам-фільтри), яке не вимагає втручан-

ня людини і може бути використано як на стороні клієнта (одержувача листа),

так і на стороні сервера. Відома також і неавтоматична фільтрація – використо-

вувана користувачем фільтрація за ключовими словами, масками або регуляр-

ними виразами.

Проблемою при автоматичної фільтрації є можливість помилково відзна-

чити як спам звичайні повідомлення. Тому багато поштових сервісів і програми

за бажанням користувача можуть не стирати ті повідомлення, які фільтр визнав

спамом, а поміщати їх в окрему папку.

Існує багато методів, які використовуються в автоматичній фільтрації не-

бажаної кореспонденції у вхідному потоці повідомлень. Деякі методи реалізу-

ються в програмних засобах, що дозволяють фільтрувати повідомлення відда-

Page 120: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

119

лено або після копіювання на комп'ютер користувача. Було розглянуто метод

Chung-Kwei та метод на основі теореми Байеса. Для програмної реалізації було

обрано метод який функціонує на основі теореми Байеса.

Загальний алгоритм роботи цього методу складається з двох фаз:

1. Навчання фільтра – на цій фазі аналізується безліч листів, про які за-

здалегідь достовірно відомо, чи є вони спамом. Для кожного слова з цих листів

обчислюється вага – ймовірність того, що лист, що містить це слово, є спамом.

Загальна формула цього обчислення має вигляд:

,

де P(S|W) – умовна ймовірність того, що повідомлення є спамом при умови,

що певне слово знаходиться в ньому;

P(W|S) – умовна ймовірність того, що певне слово з'являється в повідом-

леннях, які є спамом. Це число дорівнює частоті певного слова у повідомлен-

нях, ідентифікованих як спам, використовується під час фази навчання;

P(W|H) – умовна ймовірність того, що певна слово з'являється в повідом-

леннях, які не є спамом. Це число близьке одно-відносній частоті певного слова

у повідомленнях, ідентифікованих як не спам, що використовується під час фа-

зи навчання.

2. Аналіз повідомлень - на цій фазі вхідне повідомлення сканується на

предмет наявності слів, для яких відомо вагу. Далі робиться «наївне» припу-

щення, що всі ці слова є незалежними подіями, тобто частота появи одного сло-

ва ніяк не залежить від частоти появи інших. З урахуванням цього припущення

з теореми Байєса можна отримати формулу, за якою буде розраховуватися ймо-

вірність того, що аналізоване повідомлення – спам:

,

де P – ймовірність, що розглянуте повідомлення – спам;

P1 (P2 і т. д.) – вага першого (другого і т. д.) слова.

Системи побудовані на його основі теореми Байеса є найпопулярнішими

на сьогоднішній день рішеннями для захисту від спаму. Вони прості у впрова-

дженні і зручні в використанні, при якісному навчанні відсікають до 98% спаму

і дають можливість додатково навчити фільтр у разі помилкових спрацьову-

вань.

Загалом задача створення спам фільтру для експерименту складається з

наступних кроків:

1. Програмна реалізація.

Для створення спам фільтру насамперед необхідно обрати мову програ-

мування на якій він буде створений та яка буде відповідати вимогам необхід-

ним для реалізації задачі спам фільтрації.

Page 121: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

120

Головною умовою роботи спам фільтру є те що спам фільтр повинен

здійснювати доступ до електронної пошти тому для його створення нам необ-

хідна така мова програмування яка буде мати змогу використовувати техноло-

гію протоколу IMAP. IMAP (англ. Internet Message Access Protocol – протокол

доступу до інтернет-повідомлень) – мережевий протокол прикладного рівня для

доступу до електронної пошти. IMAP надає користувачеві великі можливості

для роботи з поштовими скриньками, розташованими на центральному сервері.

Поштовий клієнт, що використовує цей протокол, отримує доступ до сховища

кореспонденції на сервер так, начебто ця кореспонденція розташована на ком-

п'ютері одержувача. Електронними листами можна маніпулювати з комп'ютера

користувача (клієнта) без постійного пересилання з сервера і назад файлів з по-

вним змістом листів. Мова PHP має змогу працювати з протоколами та функці-

ями IMAP завдяки використанню бібліотеки c-client. Спам фільтр може бути

представлений у вигляді скрипту, який буде одночасно використовувати метод

Баєса та звертатися до бази даних спам-слів необхідних для його функціону-

вання.

2. Створення бази даних спам-слів (шаблонів).

Для функціонування спам фільтру необхідна база даних спам-слів, з якою

він буде взаємодіяти. MySQL – вільна система керування реляційними базами

даних, яка взаємодіє з PHP та підійде для вирішення цього завдання.

Загалом процес функціонування майбутнього спам фільтру може мати

наступний вигляд, який представлено на рис.1.

Рис.1 – Процес функціонування спам фільтру

Список літератури

1. Певзнер О.М. Метод байєсівської фільтрації спаму / О.М. Певзнер,

В.В.Борщевський. – Д. :ДНУ, 2004. – С. 23-28.

2. Ковалев С.С. Современные методы защиты от нежелательных почтовых

рассылок / С.С. Ковалев, М.Г. Шишаев // Труды Кольского научного центра РАН,

2011 – №7. – С. 67-70.

3. Капелюх С.А. Электронная почта / С.А. Каплюх // СПб. : БВХ-Петербург,

2008. – С. 93-98.

Page 122: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

121

МОЛОДІЖНИЙ СЛЕНГ ЯК МОВНЕ ЯВИЩЕ

Нагорна Є.С.

Національний технічний університет

«Харківський політехнічний інститут»

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

Незалежно від професії, соціальних прошарків, особливостей комунікації,

вживання слів, або місця спілкування - велика кількість людей використовує

жаргонну лексику.

У мові є велика кількість сленгів та їх утворень. Вони використовуються

у певних соціальних та професійних групах людей. Мова – це динамічна систе-

ма, яка постійно розвивається, доказом цього є те, що в мові існує велика кіль-

кість діалектів,сленгів тощо.

Існує багато визначень сленгу, але єдиного і чіткого досі немає. Нижче

подано деякі з означень сленгу.

Сленг – розмовний варіант професійного мовлення [4].

Сленг ( від англ. slang- жаргон) – слова або вислови, які використовують

люди деяких професій чи класових прошарків. Сленг традиційно протистоїть

офіційній загальноприйнятій мові й до кінця зрозумілий лише представникам

порівняно вузького кола осіб, які належать до певної соціальної або професіо-

нальної групи, яка впровадила в мову слово або вислів [3].

Причиною цього є той факт,що мова дуже залежить від змін у нау-

ці,політиці, культурі.

Молодіжний сленг – це окремий пласт національної мови, який відобра-

жає певною мірою рівень культури, освіченості, розвитку суспільства. У наш

час під його вплив потрапляють різні категорії молоді [5].

Нові комп’ютерні, технічні розробки поповнили словник сленгової лекси-

ки такими поняттями: сідюк (від CD-ROM), беха, мерс (від марок автомобілів

BMW та Мерседес), комп (від комп’ютер), глючити (працювати з помилками),

зависати (перестати працювати).

Сучасний молодіжний жаргон як різновид соціального діалекту за своєю

суттю той самий, що й жаргони попередніх років. A саме:

1. Він обслуговує певну соціальну групу, що є його творцем та носієм (і

зрозумілий саме їй) [2, с. 15].

2. Він значною мірою використовує засоби попередніх етапів свого функ-

ціонування, причому не лише власне молодіжного, а й жаргону злодіїв, кримі-

нальних злочинців, тобто простежується певна наступність (хоча динамізм –

іманентна риса цього типу діалектів) [2, с. 15].

3. Сучасний молодіжний жаргон має типову стилістичну маркованість:

знижено-грубувату, вульгарну, фамільярну, що й забезпечує йому експресію в

іронічно-жартівливому ключі. Досить часто жаргонізми творяться на основі ме-

тафори, метонімії, синекдохи.

Page 123: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

122

Haпpиклад: тусівка – місце збору, на шару – задарма, прикид – манера

одягатись, поїхав дах – бути недоумкуватим.

4. Сленг вийшов за межі великих міст, тобто територіально поширилися

межі його функціонування. Досі дослідники констатували, що молодіжний

сленг – прерогатива міст, і то – великих. Це підтверджують, зокрема, матеріали

обстеження сленгу в Росії, здійсненого E. Береговською ще в середині 90-х pp

[2, с. 15].

5. Помітна в сленгу й інша скерованість – на очуднення через мову й тих,

хто є його носієм, власне самої мови. Це досягається за рахунок різних змін, зо-

крема:

а) зміна значення відомих у загальновживаній мові слів.

Наприклад: тачка – таксі; ласти – ноги; лопати – руки.

б) фонетичної деформації слів: фізра – фізкультура, матра – математика;

в) залучення чужомовних засобів, більше або менше адаптованих до мо-

ви. Найбільше сучасне джерело – англійська мова: попса - pop music; гай - guy.

B українському сленгові чимало утворень російського походження.

Наприклад: прикид – одяг, прикол, прикольно – жартувати, жарт, цікаво,

інтригує [2, с. 16].

6. У сленгу як різновиді жаргону виразно простежується гіпертрофована

дія закону економії мови.

Наприклад: сідюк (CD), клава – клавіатура [2, с. 16].

Дуже часто компонентом сленгу стають матюки, причому окремі слова й

вирази внаслідок процесу енантіосемії вживаються не лише в негативному, а й

у позитивному плані. Сам термін « енантіосемія » був вперше введений в нау-

ковий обіг в кінці ХIX ст. російським мовознавцем В. І. Шерцлем . Під енантіо-

семією він розумів « те явище , де одне і те ж слово вміщує в себе два прямо

протилежних один одному значення» [3].

Таким чином, молодіжний сленг – це відкрита лексична підсистема, тобто

сленгізми широко відомі в молодіжному середовищі. Література:

1. Лихачев Д.C. Арготические слова профессиональной речи / Д.C. Лихачев //

Развитие грамматики и лексики современного русского языка. – М., 1964. – С. 311-

359.

2. Дзюбишина-Мельник H.Я. Сучасний жаргон і сучасне розмовне мовлення /

H.Я. Дзюбишина-Мельник // Наукові записки. Філологічні науки. – 2002. – №20. – С.

14-18.

3. http://www.moluch.ru/archive/65/10646/

4. Ахманова О.С. Словник лінгвістичних термінів. /О.С. Ахманова //М.: Радян-

ська енциклопедія, 1966.

5. Василенко Ю.А. Сучасний український молодіжний сленг / Ю.А. Василенко

// Львівський національний університет імені Івана Франка. -2009. – 8 c.

Page 124: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

123

ВИКОРИСТАННЯ ЛІНГВІСТИЧНИХ ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ В ЕЛЕКТРОННОМУ НАВЧАННІ

Новицька Д.Є. Національний технічний університет «Харківський політехнічний інститут»

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60, e-mail:[email protected]

Інтеграція українського суспільства до європейського та міжнародного со-ціально-економічного та культурного простору, а також стрімкий розвиток ін-формаційних технологій у ХХІ сторіччі зробив актуальною проблему модерні-зації системи освіти.

Державною національною програмою "Освіта. Україна ХХІ століття" пе-редбачено забезпечення розвитку освіти на основі нових прогресивних концеп-цій, запровадження у навчально-виховний процес новітніх педагогічних техно-логій та науково-методичних досягнень, створення нової системи інформацій-ного забезпечення освіти, входження України у трансконтинентальну систему комп'ютерної інформації.

Електронне навчання – це один із можливих інструментів, що дозволяє ви-рішити цю проблему [1]. Ефективність системи освіти визначається якістю за-собів контролю знань учня. У зв'язку із зростанням ролі електронного навчання завдання підвищення ефективності засобів аналізу відповідей учнів стала особ-ливо актуальною. Найголовнішою особливістю електронної освіти є діалог між системою та учнем. Діалог повинен відбуватися на мові, максимально набли-женій до природної [2]. Для цього використовуються лінгвістичні технології.

Лінгвістичні технології електронного навчання це комплекс мовних за-собів, які використовуються на різних стадіях створення та експлуатації інфор-маційної системи для підвищення ефективності розробки та забезпечення спіл-кування людини з електронною обчислюваною машиною.

Мета такого перетворення забезпечити вихідні дані для роботи підсисте-ми тестування засобів керування електронним навчанням [3].

Також в електронному навчанні використовують інформаційні технології. Під інформаційно-технологічним забезпеченням розуміють електронні, інфор-маційні та освітні ресурси, сукупність інформаційних і телекомунікаційних те-хнологій, які якісно та комплексно забезпечують засвоєння учнями навчальних програм в повному обсязі незалежно від їх місця знаходження з гарантованою якістю [4].

В даний час існує досить багато освітніх комп'ютерних програм, які вико-ристовуються для певних аспектів викладання матеріалу. Таким освітнім ресу-рсом є електронний підручник, зміст якого має відповідати цілям і завданням дисципліни, рівню аудиторії, технічної оснащеності навчального закладу [5].

Для створення електронного підручника, крім лінгвістичних та інформа-ційних технологій використовують також і Web-технології.

Web-технології це технології для створення та підтримки різних інфор-маційних ресурсів в комп'ютерній мережі Інтернет: сайтів, блогів, форумів, ча-тів, електронних бібліотек та енциклопедій.

Загалом задача створення електронного підручника складається з наступ-них кроків.

1. Програмна реалізація. Для створення електронного підручника необхід-но обрати мову програмування, на якій він буде створений та яка буде відпові-

Page 125: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

124

дати вимогам необхідним для реалізації поставленої задачі [1]. Для розробки електронного підручника нами було обрано мову гіпертекс-

тової розмітки HTML, мову JavaScript, скриптову мову програмування PHP, а також каскадну таблицю стилів CSS.

Мова гіпертекстової розмітки HTML призначена для формування докуме-нтів для перегляду їх через мережу Internet. Мова HTML дозволяє розміщувати на Web-сторінці текст, картинки, організовувати посилання. Мова JavaScript надає можливість використовувати такі елементи, як drag-and-drop компоненти та повзунки.

Головною ознакою при виборі каскадної таблиці стилів CSS стала можли-вість збільшити доступність документа, надати гнучкість і можливість управ-ління, а також зменшити складність і повторюваність в структурному змісті. За допомогою CSS і HTML можна створити унікальний дизайн сайту.

Основними критеріями вибору мови програмування PHP стали: створення форми зворотного зв'язку, можливості коментування та реєстрації користувачів, використання пошуку всередині сайту та запам'ятовування введеної користува-чем інформації.

2. Розробка структури електронного підручника. Для учня електронний пі-дручник є засобом, який допомагає йому самостійно організувати такі види дія-льності, як навчальна, пізнавальна, інформаційно-пошукова, дослідницька [5].

Результативність цих видів діяльності обумовлена можливостями, перед-баченими в електронному підручнику. Розробка структури електронного підру-чника є одним із важливих етапів створення підручника.

Загалом, структура електронного підручника буде мати наступний вигляд, який представлено на рис.1.

Рис.1 – Структура електронного підручника

Список літератури 1. Cross J. An informal history of eLearning / J. Cross. – On the Horizon, 2004. – 110 р. 2. Полат Е.С. Педагогические технологии дистанционного обучения / Е.С. Полат, M.B.

Моисеева, A.E. Петров. — М.: «Академия», 2006. 3. Артем’єв Н.П. Організаційно-педагогічне забезпечення якості навчання учнів засо-

бами інформаційно-комунікативних технологій / Н.П. Артем’єв. – 2009.– 153 с. 4. Хуторський А. Дистанційне навчання та його технології / А. Хуторський. – 2002. – №36. –

С. 26-30. 5. Башмаков А.И. Разработка компьютерных учебников и обучающих систем / А.И. Башма-

ков, И.А. Башмаков. – М. : Информационно-издательский дом «Филинъ», – 2003. – 616 с.

Page 126: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

125

АНАЛІЗ ТОНАЛЬНОСТІ ВІДГУКІВ ДО ФІЛЬМІВ В БЛОГАХ

Панчул А.О. Національний технічний університет «Харьківський політехнічний інститут»

м.Харків, вул.Пушкінська 79/2, тел. 707-64-60, [email protected]

Через стрімке зростання мережі Інтернет з’явилися проблеми, пов’язані з пошуком та впорядкуванням інформації. Сьогодні в електронних сховищах по всьому світу містяться терабайти інформації. Інформаційних джерел стає все більше і людина вже давно не в силах самостійно отримати з цього «океану» потрібні знання, і навіть існуючі пошукові системи далеко не завжди можуть впоратися з нею. У зв’язку з цими проблемами, актуальним стає завдання побу-дови інтелектуальних інформаційних систем.

Проблема вилучення знань з природномовних текстів є однією з головних проблем у дослідженнях зі штучного інтелекту. Цій проблемі останнім часом приділяється велика увага в основному через те, що потоки інформації неухи-льно зростають і людина вже не в змозі самостійно обробляти цю інформацію.

Аналіз тональності текстів дозволяє спростити аналіз ефективності рекла-мної і PR діяльності. Тому ця задача є досить актуальною у наш час, коли від-гуки користувачів та велика кількість інформації, що містить оцінку товарів та послуг знаходить в інтернеті.

Метою даного дослідження є розробка алгоритму для аналізу тональності тексту в блогах й автоматизація аналізу тональності слів і тексту (позитивна чи негативна тональність).

Тональність в програмуванні – це емоційне ставлення автора висловлю-вання до деякого об'єкту, мова про який йде в тексті.

Класифікація тональності (Sentiment Analysis, «сентимент-аналіз», Opinion mining) – це особливе завдання класифікації тексту, мета якого полягає у кла-сифікації документа відповідно до полярності настроїв думок, які він містить [1], наприклад, сприятливі чи несприятливі, позитивні чи негативні.

При аналізі тональності комп’ютерам необхідні словники, спеціально роз-мічені з урахуванням емоційної складової, наприклад: WordNet-Affect [2], SentiWordNet[3], SenticNet[4] і SentiBank[5] для аналізу графічних даних.

Серед систем, що реалізують аналіз тональності тексту, можна виділити SentiStrength [6], Аналітичний кур`єр [7], RCO Fact Extractor [8] і Twitter Sentiment [9]. Ці системи, у більшості своїй, не підтримують російську та украї-нську мови, не враховують особливості їх граматики й синтаксису і (або) мають обмежений об’єм словника тональних термінів.

Предметом дослідження моєї роботи є відгуки до фільмів в блогах. Блог – це веб-сайт, основний вміст якого – регулярно оновлювані записи

(пости) конкретної або довільної тематики, впорядковані в зворотному хроно-логічному порядку. Якщо блог є публічним, читачі можуть залишати свої коме-нтарі до постів.

Головна відмінність блогу від платформи, що дозволяє ділитися відгуками до якого-небудь товару чи послуги, складається в більшій суб’єктивності вира-женої в блозі думки і відсутності чітко визначеної оцінки.

Думка в блозі виражена більш докладно, оскільки він призначений для спі-лкування, обміну та висвітлення інформації, але не конкретно для оцінки будь-якого товару або послуги, отже, остання може згадуватися в запису скоріше

Page 127: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

126

опосередковано, ніж безпосередньо. У той же час така оцінка може бути більш глибокою і особистою, оскільки

стосується не тільки фільму, а й подій, що передують і є супутніми перегляду, емоцій і почуттів, душевного стану автора думки.

Крім того, запис в блозі має більш вузьку цільову спрямованість. Напри-клад, обговорення фільму всередині фендому (з англ. букв. фанатство – нефор-мальне субкультурное співтовариство, учасники якого об’єднані єдиним інте-ресом, пов’язаним з творами мистецтва - фільмом, серіалом, книгою і т.п.).

Нарешті, кожна блог-платформа має ряд унікальних особливостей – спеці-альні смайлики, сленг і навіть крилаті вирази. Блог – це і літературна творчість. В особистому блозі користувач поводиться більш розкуто, висловлює свою по-зицію відвертіше і не соромиться у висловлюваннях, використовує особливий літературний стиль, навантажує речення непотрібними конструкціями і подро-бицями.

Все це ускладнює процес аналізу відгуків в блозі, але й робить його більш цікавим.

В ході даного дослідження, його авторкою був розроблений алгоритм, який: а) здійснює аналіз тональності тексту з використанням методу, заснова-ного на тональних словниках і правилах [10]; б) враховує розташування слів в тексті, слова-заперечення («не», «ні», «мало») і слова-підсилювачі («дуже», «доволі», «занадто»); в) розрізняє емоційно забарвлені елементи тексту – смай-лики, пролонгацію («ну ду-у-уже подобається!»), скандування («про-ду, про-ду!» (сленг. прода – продовження)) і т.п.; г) працює як з окремими словами, так і з словосполученнями: може аналізувати крилаті вирази, вислови з переносним значенням («Китайська грамота = нісенітниця», «Закрутити голову = справити враження», «З дуба впасти = про безглуздий, дурний вчинок», «Галопом по Єв-ропах = незв’язно, побіжно»).

Таким чином були: а) проведений огляд існуючих методів і моделей аналі-зу тональності тексту; б) розглянуті існуючі системи, що реалізують аналіз то-нальності; в) розроблений алгоритм аналізу тональності тексту в блогах.

Список літератури 1. Bo Pang, Lillian Lee Opinion Mining and Sentiment Analysis (англ.) // Foundations and

Trends in Information Retrieval : журнал. – 2008. – No. 2. – P. 1-135. 2. Strapparava, Carlo; Valitutti, Alessandro (2004). "WordNet-Affect: An affective extension

of WordNet" (PDF). Proceedings of LREC. pp. 1083–1086. 3. Baccianella, Stefano; Esuli, Andrea; Sebastiani, Fabrizio (2010). "Sentiwordnet 3.0: An

enhanced lexical resource for sentiment analysis and opinion mining" (PDF). Proceedings of LREC. pp. 2200–2204. Retrieved 2014-04-05.

4. Cambria, Erik; Olsher, Daniel (2014). "SenticNet 3: A common and common-sense knowledge base for cognition-driven sentiment analysis". Proceedings of AAAI. pp. 1515–1521.

5. Borth, Damian; Ji, Rongrong; Chen, Tao; Breuel, Thomas; Chang, Shih-Fu (2013). "Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs". Proceedings of ACM Int. Conference on Multimedia. pp. 223–232.

6. SentiStrength – sentiment strength detection in short texts // http://sentistrength.wlv.ac.uk/#About 28.11.2012

7. Система вилучення знань з текстів «Аналітичний кур'єр» // http://www.i-teco.ru/ac.html.

8. RCO Fact Extractor SDK // http://www.rco.ru/product.asp?ob_no=5047. 9. Веб-сервіс Twitter Sentiment // http://www.sentiment140.com. 10. Анна Пазельская, Алексей Соловьев. Метод определения эмоций в текстах на русс-

ком языке // The international conference on computational linguistics and intellectual technologies “Dialogue 2011” : конференция. – Москва, 2011. – С. 510 - 522.

Page 128: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

127

ЧАСТОТНЫЙ АНАЛИЗ «ТЕКСТОВЫХ КЛОНОВ» В ТЕХНИЧЕСКОЙ

ДОКУМЕНТАЦИИ

Пилипенко А.А.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 707–63–60,

e-mail: [email protected]

Для естественного языка как системы, передающей смысловую информа-

цию, характерно следующее обстоятельство: в любом целом тексте (книга, ста-

тья, техническая документация и т. п.) смысл почти каждого элемента (текста)

полностью или частично повторно выражается каким-либо другим элементом

текста. Это явление мы называем смысловым повторением (или смысловым

дублированием) в тексте. Такого рода дубликаты, являясь лишним текстом, мо-

гут снижать качество технической документации.

В данной работе представлено исследование клонов на базе руководства

пользователя мобильного телефона. Документ «Руководство пользователя» от-

носится к пакету эксплуатационной документации. Основная цель руководства

пользователя заключается в обеспечении потребителя необходимой информа-

цией для самостоятельной работы с программой или автоматизированной си-

стемой. Руководство может представлять собой как краткий справочник по ос-

новному функционалу программы, так и полное учебное пособие. Чем подроб-

нее будут описаны действия с системой, тем меньше вопросов возникнет у

пользователя. Методика изложения материала в данном случае будет зависеть

от объема самой программы и требований заказчика.

В общем случае текст, содержащий «клоны», возникает не только при не-

осознанной записи, но и преднамеренно, например, когда подобные фрагменты

текста используются в различных документах или когда документы создаются в

вариантах и версиях. В любом случае, осознание повторений и понимания их

генезиса необходимо для обеспечения качества документации. Это помогает

фиксировать опечатки и орфографические ошибки последовательно, раскрывая

плагиат, а также выявлять фрагменты текста, который может быть создан авто-

матически.

Таким образом, «клоны» могут, как понизить качество технической доку-

ментации, так и повысить его, за счет улучшения читабельности и понимания

смысла. Копирование текста может помочь понять смысл входящих в него слов

или фраз и уменьшить потребность в перекрестных ссылках. Очевидно, двой-

ственная природа «клонов» может быть проблемой при оценке качества доку-

ментации, в связи с необходимостью идентификации повторений.

Существует много исследований о том, как определять «клоны» в исход-

ном коде. Тем не менее, неизвестно, какие из существующих визуализаций

пригодны для работы с технической документацией. В работе «Visualizing clone

cohesion and coupling» Ж.М. Цзян с соавторами выявили определение, на какие

Page 129: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

128

аспекты разделены и сосредоточены «клоны»; пары повторений или их наборы,

их классификация.

Существует шесть визуализаций наборов повторений: Метрическая Гра-

фика, Диаграмма Хассе, Гиперссылочный Веб, Связанное редактирование, Аг-

регированные дублированные древовидные карты и Перечень семей повторе-

ний.

Эти способы выявления повторений сложно применить при работе с доку-

ментацией, так как тексты слабоструктурированные в отличие от программного

кода, методы или классы имеют конкретные правила и цели. В связи с чем,

наибольшую сложность представляет выявление смысловых повторений в

обычном тексте на естественном языке.

В процессе работы над поиском «клонов» в руководстве пользователя бы-

ли выделены основные разделы, описывающие:

назначение системы;

условия применения системы;

подготовку системы к работе;

описание операций;

аварийные ситуации.

Данное исследование нацелено на использование частоты слов для опре-

деления связанных фрагментов, в котором существуют повторы.

Проверялась гипотеза, согласно которой частоты встречаемости слов в

дублированных фрагментах текста зависимы. Для выявления частотности слов

повторяющихся фрагментов был разработан алгоритм, включающий:

1) выявление связных между собой частей текста;

2) определение частотного словаря связанных фрагментов;

3) сравнение полученных частотных словарей. Список литературы

1. Jiang Z.M. Visualizing clone cohesion and coupling. /Z.M. Jiang, A.E. Hassan,

R.C. Holt // In APSEC (2006), pp. 467–476.

2. Ueda Y. Gemini Maintenance support environment based on code clone analysis /

Y. Gemini Ueda, T. Kamiya, S. Kusumoto, K. Inoue // In Proc of the 8th Int Symp on Soft-

ware Metrics (2002), IEEE Computer Society, pp. 67–76.

3. Johnson J.H.: Visualizing textual redundancy in legacy source / J.H. Johnson // In

Proc. of the 1994 conf. of the Centre for Adv. Studies on Collaborative research. - 1994. -

pp. 9–18..

4. Johnson J.H.: Navigating the textual redundancy web in legacy source / J.H. John-

son // In Proc of the 1996 conf of the Centre for Adv Studies on Collaborative research

(1996), pp. 7–16.

5. Toomim M. Managing duplicated code with linked editing /M. Toomim, A. Begel,

S.L. Graham // In Proc of IEEE Symp on Visual Languages-Human Centric Comp (2004),

pp. 173–180.

6. Руководство пользователя согласно требованиям ГОСТ [Электронный ре-

сурс]. – Режим доступа : http://it-gost.ru/content/view/94/51/

Page 130: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

129

МЕТОДЫ АВТОМАТИЗИРОВАННОГО СЖАТИЯ ТЕКСТОВ

Прогляда В.О. Национальный технический университет

“Харьковский политехнический институт”, Харьков, тел. 099-088-16-61,e-mail:[email protected]

Целью нашего исследования является проверка уже существующих мето-

дов сжатия текста путем создания соответствующей автоматизированной си-

стемы.

Для этого необходимо решить такие задачи:

1) изучить существующие алгоритмы создания подобной системы;

2) проанализировать существующие методы сжатия текста;

3) выбрать метод, который больше всего подходит для выполнения подоб-

ной задачи;

4) создать модель автоматизированной системы и построить ее алгоритм.

Сжатие текста происходит по двум взаимосвязанным направлениям: во-

первых, идет содержательная компрессия информации, во-вторых, языковое

сжатие текста.

Известны три способа сжатия текста: исключение, обобщение, упрощение.

При исключении необходимо:

выделить главное (существенное) и (подробности);

убрать детали;

объединить существенное;

составить новый текст.

Одним из самых распространенных примеров исключения при языковом

сжатии является удаление из текста поясняющих конструкций, например, ряда

однородных членов при обобщающем слове или ряда простых предложений в

составе бессоюзного сложного, поясняющих, раскрывающих содержание пер-

вой части. Например:

Он знал разные языки: немецкий,

французский, итальянский и молдавский, и

никто не мог распознать в нём русского.

Он знал разные языки, и

никто не мог распознать в нём

русского.

При обобщении необходимо:

вычленить единичные факты;

подобрать языковые средства их обобщенной передачи;

составить новый текст.

Какой способ сжатия использовать в каждом конкретном случае, будет за-

висеть от коммуникативной задачи, особенностей текста и, на наш взгляд, дан-

ный метод сложнее всего поддается формальной обработке.

К приёмам сжатого изложения текста относятся:

1) сокращение отдельных членов предложения (например, вводных слов и

конструкций), некоторых однородных членов предложения;

2) образование сложного предложения путём слияния двух смежных пред-

ложений, повествующих об одном и том же предмете речи;

Page 131: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

130

3) сокращение сложного предложения за счёт менее существенной части;

4) разбивка сложного предложения на сокращённые простые;

5) перевод прямой речи в косвенную;

6) пропуск предложений, содержащих второстепенные факты;

7) пропуск предложений с описаниями и рассуждениями.

Упрощение синтаксических структур касается, прежде всего, замены

сложного предложения простым или такой синтаксической замены, при кото-

рой сокращается количество структурных частей сложного предложения. При

этом широко используется синтаксическая синонимия. Например:

1. Замена придаточного определительного синонимичным определением.

Небольшое помещение на вто-

ром этаже занимает фирма, которая

предлагает своим клиентам туры по

всем континентам и странам.

Небольшое помещение на вто-

ром этаже занимает туристическая

фирма.

2. Замена придаточного обстоятельственного деепричастным оборотом.

Когда читаешь дневник Ники-

тина, то чувствуешь его беспредель-

ную любовь к родине.

Читая дневник Никитина, чув-

ствуешь его беспредельную любовь к

родине.

3. Сокращение структурных частей сложного предложения.

Приятно смотреть на зимородка,

который, плавно опустившись на ветку

ольхи, склонившуюся к самому зеркалу

реки, принялся подкарауливать добычу.

Приятно смотреть на зимо-

родка, который опустился на ветку

ольхи и принялся подкарауливать

добычу.

Кроме того, к разновидностям упрощения относятся такие приёмы, как за-

мена предложения или его части указательным местоимением, слияние двух

или трёх предложений в одно и так далее.

Все эти и другие приёмы сжатия текста могут применяться как по отдель-

ности, так и в комплексе.

Во время выполнения данной работы были:

1) рассмотрены существующие алгоритмы создания подобной системы,

2) проанализированы существующие методы сжатия текста,

3) выбран метод, который больше всего подходит для выполнения подоб-

ной задачи.

4) создана модель автоматизированной системы и ее алгоритм. Список литературы:

1. Автоматизация индексирования и реферирования документов // Итоги науки и

техники. Сер. Информатика. Т.7 / Под ред. проф. В.И.Горьковой. – М.: ВИНИТИ,

1983. – 246 с.

2. Блюменау Д.И. Информационный анализ: синтез для формирования вторич-

ного потока документов : Учебно-практич. пособие / Д.И. Блюменау. – СПб. : Про-

фессия, 2002. - 235 с.

3. Брискман М.А. Современное состояние теории и практики реферирования /

М.А. Брискман, В.П. Леонов. – Науч. и техн. б-ки СССР. – 1976. – Вып. 4. – С. 29-33.

Page 132: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

131

ОГЛЯД МЕТОДІВ ДЛЯ ЗНЯТТЯ ЛЕКСИЧНОЇ БАГАТОЗНАЧНОСТІ

Самедова Е.І.

Наіональний технічний університет

"Харківський політехнічний інститут",

м. Харків, вул. Пушкінська, 79/2

e-mail: [email protected]

Полісемія – це явище багатозначності слова. Мовленнєва багатозначність

безпосередньо пов’язана з поліфункціональністю контексту щодо певного сло-

ва. Для розуміння тексту чи навіть окремих висловлювань дуже важливим є ви-

значення правильного значення слів відносно контексту. Вирішення лексичної

багатозначності (Word Sense Disambiguation, WSD) – це завдання опрацювання

природньої мови, яке полягає в виборі значення (або сенсу) багатозначного

слова чи словосполучення залежно від контексту.

Наукові дослідження з вирішення лексичної багатозначності перебувають

у полі зору прикладної та комп’ютерної лінгвістики достатньо давно і мають

багату історію, але повного вирішення проблема поки не отримала, оскільки на

шляху успішного вирішення стоїть багато перешкод, безпосередньо пов'язаних

з особливостями людської мови.

Завдання зняття лексичної багатозначності актуальна для багатьох прикла-

дних систем. Вирішення цієї задачі є давнім і важливим завданням

комп’ютерної лінгвістики, розв’язання якого все ще є складним для розв’язання

як для комп’ютерів, так і для людей-анотаторів. WSD є невід'ємною частиною

таких задач як переклад, інформаційний пошук, кластеризація та класифікація.

Існує багато методів для зняття лексичної багатозначності, але не один з них не

вирішує цю задачу у повній мірі. Тому вона залишається актуальною і у наш

час.

Вирішення лексичної багатозначності передбачає пошук асоціації, яка ви-

кликана певним словом в тексті чи дискурсі із значенням, яке вирізняється від

інших можливих значень цього слова. Тому шлях до вирішення завдання

обов’язково складається з декількох кроків. Перший передбачає визначення

всіх можливих потенційних значень кожного слова, що стосуються тексту або

дискурсу. Другий крок включає засоби визначення правильного значення при

кожній появі слова в контексті. Вся робота щодо вирішення неоднозначності

передбачає врахування контексту, в якому вжите слово, і використання даних з

зовнішніх джерел інформації. Також передбачений і третій крок: комп’ютер

повинен навчитися співвідносити значення слова і саме слово в контексті, ви-

користовуючи машинне навчання або правила, які створив дослідник [1].

Людська мова неоднозначна, тому багато слів можуть інтерпретуватись

по-різному. Для прикладу, розглянемо два речення:

(1) I can hear bass sounds.

(2) They like grilled bass.

Page 133: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

132

Слово bass в двох реченнях має різні значення: низькочастотні тони і вид

риби. У більшості випадків людина не думає про неоднозначності в мові, а ось

комп’ютер повинен обробляти неструктуровану текстову інформацію і перет-

ворювати її на структуровані дані, які аналізуються для визначення основного

значення слова чи вислову [2]. Саме визначення значення за допомогою

комп’ютера і є основою WSD.

По-друге, WSD працює на основі бази знань. Будь-який процес WSD міс-

тить множину слів (наприклад, речення або збірка слів) та техніку, яка викори-

стовує одне або декілька джерел знань, для визначення правильного значення

слова відповідно до контексту. Джерела знань можуть різнитися, починаючи

від корпусів текстів до більш структурованих джерел, таких як електронні сло-

вники, семантичні мережі тощо. Без баз знань було б неможливо як для людей,

так і для машин визначити значення слова. На жаль, створення баз знань влас-

норуч вимагає багато часу та зусиль, а також структурних змін кожного разу

після зміни сценарію WSD. Ці проблеми і формують сферу досліджень у WSD.

Існує чотири основних методи вирішення багатозначності:

1. Методи, засновані на знаннях (dictionary - і knowledge-based methods): ці

методи переважно покладаються на словники, тезауруси, лексико-графічні бази

даних, не покладаючись на корпуси текстів. Наприклад:

Метод Lesk — продуктивний метод, заснований на використанні знань

словника. Він ґрунтується на гіпотезі, що слова, що знаходяться поруч у тексті,

пов'язані один з одним і цей зв'язок можна спостерігати у визначень слів і їх

значень. Два (чи більш) слова можуть виявитися близькими, якщо у обох з них

буде виявлена пара значень з найбільшим перетином слів у їх визначеннях у

словнику. Наприклад, словосполучення «pine cone», в обох визначеннях в одно-

го з значень присутня такі слова як «evergreen» і «tree». Також, як альтернативу

попереднім способом, можна використовувати глобальну зв'язок між цими сло-

вами, підрахувавши семантичну близькість кожної пари значень у WordNet [4].

2. Методи навчання з учителем (supervised methods): ці методи використо-

вують розмічені корпусу текстів для тренування класифікатора. Всі методи на-

вчання з учителем засновані на припущенні, що контекст розглянутого нами

слова надає достатньо інформації для того, щоб визначити, в якому значенні

воно в даному випадку застосовано (а отже, знання, отримані з словників і те-

заурусів, відсікаються як зайві). Всі моделі навчання з учителем застосовували-

ся до проблеми WSD, включаючи пов'язані з ними техніки, такі як вибір змін-

них, оптимізація параметрів і змішані моделі (англ. ensemble learning ).

3. Методи часткового навчання з вчителем (англ. Semi-supervised learning )

(semi-supervised або minimally-supervised methods): ці методи використовують

вторинні знання, такі як визначення термінів у тлумаченнях слів або вирівня-

ний двомовний корпус.

4. Методи навчання без вчителя (Unsupervised methods): більшість цих ме-

тодів не передбачає використання яких-небудь зовнішніх даних і використову-

ють тільки raw unannotated corpora; також, вони відомі під терміном кластери-

зації та «word sense discrimination».

Page 134: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

133

Як альтернативу вищевикладених методів можна використовувати загаль-

ну семантичну близькість (англ. semantic similarity) значень слів, засновану на

WordNet [5]. Методи, що використовують графи і працюють за принципом по-

ширення активації також застосовувалися з деяким успіхом: деякі з них показа-

ли точність, порівнянну з методами навчання з учителями, а іноді і перевершує

в певних областях. Також, нещодавно було показано, що навіть найпростіші

методи, засновані на заходи зв'язності графів (таких, як ступінь/валентність

усього графа) можуть показати високі результати при наявності багатої лексич-

ної бази.

Використання так званих моделей управління («selectional preferences» або

«selectional restrictions») також буває досить корисним. Прикладом, використо-

вуючи знання, що слово «bass» в значенні риби часто зустрічається зі словом

«cook» або «eat», ми можемо дозволити багатозначність у такому реченні як «I

am cooking bass». Однак, створити подібні знання про світ надзвичайно трудо-

містке і практично неможливо. Сфера вирішення лексичної багатозначності має

багату та продуктивну історію, але до цього часу залишається актуальною та

активно розвивається.

У цій статті ми дослідили проблему вирішення лексичної багатозначності

та проаналізували основні методи її розв’язання, кожен з яких пропонує своє

рішення проблеми та шляхи вдосконалення розв’язків, і, звичайно, кожен з них

має як переваги, так і недоліки, які потребують подальшого доопрацювання.

Серед чотирьох основних підходів до вирішення лексичної багатозначності ми

обрали методи на основі знань. Джерела інформації

1. Palta E. Word Sense Disambiguation / E.Palta. – 2006-2007.

2. http://www.victoria.lviv.ua/html/sss/morpho.html

3. Зинькина Ю.В. Разрешение функциональной омонимии в русском языке на

основе контекстных правил / Ю.В. Зинькина, Н.В. Пяткин, О.А. Невзорова // Труды

межд. конф. Диалог'2005. – М. : Наука, 2005. – С. 198-202.

4. Lesk, Michael Automatic Sense Disambiguation Using Machine Readable

Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone / Michael Lesk //

Proceedings of the 5th Annual International Conference on Systems Documentation. –

1986. – С. 24-26.

5. Кормалев Д.А. Приложения методов машинного обучения в задачах анализа

текста / Д.А. Кормалев // Программные системы теория и приложения. – Переялавль-

Заллесский, 2004. – С. 122-124.

Page 135: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

134

ЗАДАЧІ ПОРОДЖЕННЯ ТА ФОРМАЛІЗАЦІЇ СТАЛИХ ТЕКСТІВ

КАЗОК

Секало О.М., Шаронова Н.В.

Національний технічний університет

"Харківський політехнічний інститут",

м. Харків, вул. Пушкінська, 79/2, тел. 707–64–60,

e-mail:[email protected]

Проблема породження зв'язного тексту є дуже складною, оскільки текст є

результатом взаємодії великої кількості факторів – лінгвістичних, психологіч-

них, логічних тощо [1-4].

У процесі генерації тексту комп'ютером вчені виділяють три відносно не-

залежних етапи. На етапі макропланування комп'ютер приймає рішення, яка са-

ме інформація з вхідних даних потрапить в текст і як вона буде організована.

Після побудови плану тексту виконуються завдання етапу мікропланування.

Його метою є складання плану окремих речень генерованого тексту з ураху-

ванням загальної структури тексту. На етапі мовного оформлення ці плани пе-

ретворюються засобами лексики та граматики конкретної мови в граматичні

структури, які потім трансформуються в речення тексту.

Необхідним є дотримання шляхів досягнення максимальної зрозумілості

текстів, а саме: вибір вірного стилю; розробка семантичної структури тексту,

перевірка тексту на наявність термінів та понять; введення в текст причинно-

наслідкових зв'язків і речень.

Породження текстів казкової структури можна розділити на такі етапи:

1. Етап ідентифікації.

Суть етапу ідентифікації полягає у створенні системи породження чарівної

казки, що спирається на деякий набір незмінних синтаксичних одиниць (інварі-

антів) і правил їх сполучуваності. Таким чином, тип бази знань для породження

цього виду оповідних текстів та її основні складові визначаються тими інваріа-

нтними одиницями, які будуть виділені в процесі аналізу казок.

2. Етап концептуалізації.

При побудові системи породження оповідного тексту етап концептуаліза-

ції зводиться до виділення інваріантів казок і встановлення взаємозалежності

між ними. Постійними та стійкими елементами казки є функції дійових осіб.

Вони не залежать від того, ким і як виконуються. Виділяється близько тридцяти

функцій, таких як:1) відлучка; 2) заборона; 3) порушення заборони; 4) вивіду-

вання; 5) видача; 6) підступ; 7) пособництво; 8) нестача; 9) посередництво; 10)

початок протидії та інші.

Іншими інваріантами чарівної казки є дійові особи. Виділено 10 дійових

осіб: 1) Герой (ГР); 2) Антигерой (антагоніст, шкідник) (АГ); 3) Віщун (ВЩ);

4) Дарувальник (ДР); 5) Помічник (ПМ); 6) Антипомічник (АП); 7) Дурень

(ДР); 8) Антидарувальник (АД); 9) Нагорода (НД); 10) Перешкода (ПР).

Page 136: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

135

Кожна дійова особа в казці може бути описана трьома характеристиками:

атрибутами, вчинками та зустрічами.

Атрибути – це сукупність всіх зовнішніх якостей персонажів: їх вік, стать,

стан, зовнішній вигляд, особливості цього вигляду та інші індивідуальні риси.

Вчинки – це дії, що здійснюються дійовими особами казки. Наприклад,

«піти», «відправитися», «битися», «дістати» тощо.

Зустрічі дійових осіб безпосередньо пов'язані з їхніми вчинками. Напри-

клад, дарувальник дасть Герою Помічника (щуку, коня, вовка), або Дарувальник

дасть Герою пораду про те, як діяти далі.

База знань всієї системи казки складається з трьох самостійних баз знань:

експозиції, тіла казки і постпозиції [4].

Експозиція, або початкова частина казки, являє собою деяку кінцеву мно-

жину частин фраз, цілих фраз або послідовностей фраз. Такі фрази можуть ви-

ражати стандартні формули початку казки.Наприклад: У деякому царстві, у де-

якій державі.

Тіло казки в найзагальнішому вигляді є кінцева послідовність зустрічей ді-

йових осіб, пов'язаних сполучними фразами.Наприклад: Іде він і бачить ...; Сів

він на килим-літак і полетів ...; І пішов він далі…

Постпозиції – це завершальна частина казки. Є певні традиційні формули

кінця казки. Наприклад: Я там був, мед, пиво пив, по вусах текло, а в рот не

попало; Цар зрадів і видав за нього свою дочку.

3. Етап формалізації.

На етапі формалізації складається наступний, більш загальний вид тіла

створюваної казки. Зміст казки може бути представлений у вигляді послідовно-

сті коротких фраз. Породження тіла казки починається з вибору дійових осіб.

Далі, вказуються дієслівні фрейми, а саме дії та вчинки персонажів.

Тестування системи породження казки полягає в перевірці великого числа

породжуваних формул казок з використанням різних дійових осіб.

Наведена нижче казка була синтезована електронно-обчислювальною ма-

шиною в ході виконання створеної програми TALE (мова програмування LISP).

Жив-був цар, мав дочку. Налетів змій, забрав доньку. Послав цар Іванка ві-

дшукати доньку, обіцяв доньку в дружини. Відправився Іванко шукати доньку.

Йде Іванко, бачить печеру, увійшов Іванко в печеру, дивиться Іванко, сидить

донька. Сховався Іванко, прилетів змій, схопив Іванко змія, покликав мандрівни-

ка, вбили змія. Забрав Іванко доньку, повернувся назад. Отримав Іванко доньку

в дружини.

Даний фрагмент тексту був сформований з урахуванням запропонованого

алгоритму і цілком відповідає сталому сценарію породження казки [4].

При детальному аналізі наведеного фрагменту тексту казки необхідно за-

значити загальний недолік процедури формалізації казки. Із наведеного вище

прикладу можна помітити, що текст, сформований із використанням алгоритму,

втрачає художнє забарвлення та деталізацію подій, що є недоліком при обробці

художнього тесту. Тому дана концепція формалізації текстів казок потребує

подальшого удосконалення. Між тим, створений текст казки є гарним початком

Page 137: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

136

для подальшого опрацювання тексту не машинними засобами, а людиною, яка

спеціалізується на написанні художніх творів.

Розгляд даної задачі є початком для подальших детальних досліджень за-

пропонованої теми. Існує думка, що формалізація художнього тексту є зовсім

нездійсненною. Адже, найбільш складними для розуміння є тексти, що опису-

ють взаємини і вчинки активних дійових осіб, оскільки в цьому випадку мають

створюватися та повинні зберігатися великі бази знань про світ. Такі системи

повинні мати досконалі механізми виведення з наявних знань, що визначають

окремих суб'єктів, їх властивості, дії і вч инки, а також мотиви цих вчинків. На

даному етапі розвитку комп'ютерних та лінгвістичних наук ця задача не є вирі-

шеною. І хоча зазначена тема на цей час не має значного практичного застосу-

вання, з урахуванням швидкого прогресу у формалізації природної мови можна

припустити, що дослідникам також вдасться розробити систему породження

художнього тексту [2, 3]. Список літератури

1. Бремон К. Структурное изучение повествовательных текстов после

В. Проппа / К. Бремон // Семиотика. – М. : Радуга, 1983. – 436 с.

2. Мелетинский Е.М. Структурно-типологическое изучение сказки /

Е.М. Мелетинский // Пропп В.Л. Морфология сказки. – М. : Наука, 1969. – 166 с.

3. Новик Е.С. Система персонажей русской волшебной сказки / Е.С. Новик //

Типологические исследования по фольклору. – М. : Наука, 1975. – 247 с.

4. Зубов А.В. Основы искусственного интеллекта для лингвистов: Учеб. посо-

бие / А.В. Зубов, И.И. Зубова. – М. : Университетская книга, Логос, 2007. – 320 с.

Page 138: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

137

ОГЛЯД СТАТИСТИЧНО-ІМОВІРНОСНИХ МЕТОДІВ АНАЛІЗУ

ТЕКСТІВ

Сліпченко В.С. Наіональний технічний університет

"Харківський політехнічний інститут", м. Харків, вул. Пушкінська, 79/2

e-mail: [email protected]

В зв’язку з бурним розвитком масової і ділової комунікації, зростанням

інформаційних потоків, інтенсивним накопиченням інформації, яка потрібна

для систематизації, збереження і використання актуальною стає задача інфор-

маційного пошуку та аналізу текстової інформації.

Комп'ютерний аналіз текстів в даний час починає набувати самостійного

значення в проблематиці гуманітарної інформатики. Найбільш розробленим

напрямом є використання статистичних методів для обробки тексту, наприклад,

побудова частотних словників, конкордансів (словників словосполук) і тому

подібне. Аналіз тексту може вестися на різних рівнях - від граматичних форм

до смислових категорій, що виявляються в тексті (контент-аналіз). Контент-

аналіз відрізняється від інших методів:

об'єктивністю;

строгістю;

системним підходом;

квантифікацією об'єкта дослідження.

У цілому контент-аналіз можна поділити на кілька груп:

Якісний контент аналіз – його суть полягає в тому, що аналіз тексту відбу-

вається шляхом систематичної інтерпретації текстів через виділення в них тем,

тенденцій та їх відповідного кодування.

Комп’ютерний контент аналіз – техніка кодування текстів та підрахунку в

них ключових слів чи інших одиниць рахунку.

Автоматизований контент-аналіз – техніка автоматизованого кодування

текстів та підрахунку в них ключових слів чи інших одиниць рахунку з допомо-

гою комп’ютерних засобів.

Text Mining (від англ. mining – добувати) – набір технік для виявлення в

текстових даних нетривіальних тенденцій, які можуть зацікавити дослідника.

Аналіз природної мови – міждисциплінарна галузь науки, що охоплює ме-

тодики обчислювальної лінгвістики та теорії штучного інтелекту.

Метою аналізу є виявлення деяких закономірностей, що характеризують

текст, і роблять висновки, наприклад, про авторство тексту або політичні при-

страсті автора. Відомі різні методи вибору ключових слів: статистичні, вибір за

допомогою анкет або кодограм, вибір по збігу даного слова зі словами деякого

позитивного словника і ряд інших. Визначення ключових слів є основою для

створення тезаурусів, що використовуються в процесах автоматичного пошуку

інформації, автоматичного анотування, реферування і перекладу. Статистичні

методи виділення специфічної лексики грунтуються на аналізі частоти вжитку

Page 139: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

138

того або іншого слова в певній сукупності текстів.

Розглянемо методи організації статистичного спостереження за текстом.

Оскільки успіх кожного лінгвістичного дослідження залежить від органі-

зації статистичного спостереження, яка передбачає, по-перше, вибір лінгвісти-

чної ознаки і встановлення одиниці сукупності, по-друге, визначення способу

спостереження. Статистика передбачає наступні прийоми вибіркового спосте-

реження:

1 Випадковий відбір. Тут вибір окремих одиниць здійснюється або по долі,

шляхом підкидання монет або гральної кісті і т. д., або шляхом використання

таблиць випадкових чисел. При цьому кожна одиниця сукупності має рівну

можливість попасти у вибірку. Це забезпечує достатню близькість середньої

вибіркової величини до середньої генеральної величини. Цей вигляд відбору

зважаючи на його громіздкість порівняно рідко використовується в лінгвістиці.

2. Механічний відбір. Тут одиниці сукупності вибираються в певному, фо-

рмально встановленому порядку. Наприклад, бажаючи досліджувати розподіл

голосних, ми нумеруємо всі фонеми тексту, після чого фіксуємо присутність

або відсутність явною у всіх фонемних позиціях, номер яких кратний 10 (або 5,

3 і т. п.).

3. Серійний відбір. В протилежність розглянутим вище видам вибірки, де

відбір кожної одиниці проводиться в індивідуальному порядку, серійна вибірка

передбачає відбір серіями. Ці серії відбираються у випадковому порядку, час-

тіше безповторним способом. Відібравши таким чином серії, дослідник прово-

дить усередині їх суцільне спостереження.

4. Типовий відбір. Загальний недолік перших трьох прийомів вибіркового

обстеження тексту полягає в тому, що вони не враховують смислових і жанро-

во-стилістичних самобутностей окремих частин тексту, що виступає в ролі ге-

неральної сукупності. Ці відмінності надають помітну дію на статистику зна-

ків — в першу чергу слів, словоформ і словосполук.

У дослідженні розглянуто статистичні методи аналізу текстів, розібрано

причини популярності та переваги статистично-імовірносних методів. Наведе-

но приклади проблем, які вони вирішують на відміну від інших методик дослі-

дження. На сьогоднішній день ця тема є надзвичайно актуальною в зв’язку з

невпинним інформаційним потоком і має великий потенціал для подальшого

розвитку. Джерела інформації

1. Рогушина Ю.В. Использование критериев оценки удобочитаемости текста для

поиска информации, соответствующей реальным потребностям пользователя /

Ю.В. Рогушина. – НАН України. – Київ, 2006 – С.76-86.

2. Богдан С.К. Методи й методика лінгвостилістичних досліджень : методичні

рекомендації для слухачів і керівників секції української мови / С.К. Богдан. – Луцьк,

2011. – 28 с.

3. Бабенко Л.Г. Лингвистический анализ художественного текста. Теория и

практика: Учебник; Практикум / Л.Г. Бабенко, Ю.В. Казарин. – 2-е изд. – М. : Флинта:

Наука, 2004. – 496с.

4. Крупа М. Лінгвістичний аналіз тексту / М.Крупа. – Тернопіль: Підручники і

посібники, 2005. – 416с.

Page 140: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

139

ЛІНГВІСТИЧНІ ОСОБЛИВОСТІ АНГЛОМОВНИХ РЕКЛАМНИХ

ТЕКСТІВ

Сорока В.О. Національний технічний університет "Харківський політехнічний інститут",

м. Харків, вул. Пушкінська, 79/2, тел. 707–63–60, e-mail: [email protected]

«Реклама – двигун торгівлі». Ця фраза – аксіома в сучасному світі. Вона

належить підприємцю Людвігу Метцелю, який в 1878 році заснував перше рек-ламне бюро. Реклама міцно увійшла в наше життя. Ми стикаємося з нею пов-сюди: в мережі Інтернет, на телебаченні, радіо, в журналах та газетах, на вули-цях. На сьогоднішній день реклама завоювала не лише економічний простір. Можливості рекламного повідомлення використовуються в багатьох сферах людського життя: політиці, науці, культурі, мистецтві тощо.

Успіх будь-якого рекламного продукту складається з багатьох чинників, одним з яких є рекламний текст. Вдалість рекламного тексту зумовлюється, перш за все, мовними засобами, за допомогою яких його створено.[1] Мова ре-клами – це мова підсвідомості. Розраховуючи на певний вплив на споживачів, фахівці у галузі створення реклами визначають композиційну будову реклам-ного тексту, процес відбору мовного матеріалу, за допомогою якого будується певний рекламний текст, і структуру подання необхідної рекламної інформації. Від інших видів тексту РТ відрізняється специфікою своєї структури. Для дос-лідників рекламної мови особливо цікавими є такі елементи РТ, як рекламний знак та рекламний слоган. Рекламний текст складається з торгової назви та рек-ламного слогану. Основними способами творення англомовних торгових назв є афіксація, скорочення, словоскладання та семантична деривація. Основними джерелами формування торгових назв є ономастичні одиниці, апелятиви, запо-зичення та штучні утворення. Рекламні слогани будуються за допомогою лек-сико-семантичних, орфографічних, пунктуаційних, синтаксичних засобів та стилістичних прийомів. [3] Джерелом відбору матеріалу дослідження стали веб-сайти відомих компаній та їхньої продукції, а також електронна версія до-відника бізнес-компаній Hoovers Global Business Directory, інтернет-магазини парфумів та косметики. Вибір мережі Інтернет джерелом матеріалу досліджен-ня зумовлений тим, що Інтернет використовується сьогодні не тільки як засіб розповсюдження інформації, але й відіграє важливу роль у комерційній діяль-ності підприємств, частиною якої є торгівля різними товарами.[2] Таким чином, у мережі Інтернет існують як і веб-сайти компаній, так і віртуальні магазини. Отже, мережа Інтернет є багатим джерелом для пошуку рекламних текстів, що значно відрізняє його від газет, журналів та телебачення, де в більшості випад-ків рекламується певний набір торгових назв, що призводить до їх повторюва-ності та одноманітності.[4]

Комплексний аналіз англомовних рекламних текстів, розміщених на веб-сайтах мережі Інтернет, дозволяє зробити наступні висновки: Текст є не-від’ємною частиною більшості рекламних повідомлень. Рекламний текст має специфічну структуру, яка складається з рекламного знаку (торгової назви) та рекламного слогану. Торгові назви виконують низку мовних і позамовних фун-

Page 141: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

140

кцій. Основними позамовними функціями ТН є забезпечення попиту на спожи-вчому ринку на товари або послуги; захист їх від підробок; збільшення прибут-ків; надання гарантії високої якості. Головними функціями ТН як мовних оди-ниць є номінативна, ідентифікаційна, функція індивідуалізації та атрактивна функція. З точки зору структури ТН поділяються на прості (торгові назви-слова) та складні (торгові назви-словосполучення). [4] Основними способами утворення англомовних ТН є афіксація, скорочення, словоскладання та семан-тична деривація. Основними джерелами формування ТН є ономастичні одиниці (антропоніми, топоніми); різноманітні лексико-семантичні групи апелятивів; запозичення та штучні утворення. ТН, як і інші власні назви, можуть переходи-ти до класу загальних назв. Рекламний слоган перебуває у відносинах взаємоза-лежності з торговою назвою. Функціями рекламного слогану є виділенні та пе-редача найважливішої інформації про компанію або про її продукцію та задо-волення людських потреб. Рекламний слоган застосовується як засіб мовного маніпулювання. При цьому унікальність та авторитетність товару серед інших подібних йому товарів виражається за допомогою певних лексико-семантичних засобів, орфографічних та пунктуаційних особливостей, синтаксичних засобів та стилістичних прийомів. [3]

У сучасній англомовній комерційній термінології існує декілька понять, які вживаються стосовно РЗ: company name (фірмова назва), trademark (торгова марка, торговий знак), brand name (назва бренду), які можуть використовувати-ся синонімічно, та service marks (сервісні марки), які позначають лише послуги, що надає компанія. У свою чергу, традиційно виділяються чотири типи торго-вих марок: зображальні (зображення предметів, тварин, птахів тощо), словесні (використання слів та словосполучень), змішані (поєднання малюнка і слова, малюнка і цифр), об’ємні (зображення знака в трьох вимірах).[5] У роботі дос-ліджуються словесні торгові марки, для їх позначення використовується термін «торгові назви». До торгових назв (ТН) відносяться назви компаній, товарів та послуг. Головними функціями ТН як мовних одиниць є номінативна (називна), ідентифікаційна, функція індивідуалізації та атрактивна функція. Ідентифіка-ційна функція та функція індивідуалізації полягають у тому, що ТН позначають і відрізняють одні компанії, товари та послуги від інших. Атрактивна функція ТН спрямована на привертання уваги до компанії або її продукції, на викликан-ня певних позитивних емоцій і комплекс асоціацій, що, в свою чергу, спонукає до купівлі товару або до користування послугами компанії.

Список використаних джерел 1. Абрамова Г. А. Метафора в тексті англомовної реклами / Г. А. Абрамова. - К.:

Академія, 1980. – 127 с. 2. Беклешов Д.В. Реклама. Її функції, цілі та методи творення / Д.В. Беклешов,

В.І. Самусев – К.: Collegium, 1998. – 217 c. 3. Безпалова Н.В. Безеквівалентні реалії в англійських рекламних текстах [Елек-

тронний ресурс] / Н.В. Безпалова. – Режим доступу: http://study-english.info/article029.php

4. Доценко О.Л. Психологія маніпулювання: феномени, механізми та захист / О.Л.Доценко. – К.: Академія, 2003. – 322 с.

5.Злобіна І.С. Особливості перекладу англійських рекламних текстів українсь-кою мовою [Електронний ресурс] / І.С. Злобіна. – Режим доступу: http://www.alba-translating.ru/index.php/ru/articles/2010/161-advertisingtranslation.html

Page 142: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

141

ОПРЕДЕЛЕНИЕ ФУНКЦИОНАЛЬНОГО ЖАНРА (СТИЛЯ) ТЕКСТА

Чухненко М.В.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 0936646734,

e-mail: [email protected]

Информационный поиск нацелен на извлечение из массива данных не-

структурированной документальной информации, релевантной информацион-

ной потребности пользователя. Зачастую пользователи хотят получить не про-

сто любые документы, релевантные их запросу, но отфильтровать их по функ-

циональному стилю. Примером такой информационной потребности может по-

служить поиск научных статей или новостных сюжетов.

Специфика функциональных стилей может быть использована в задаче

автоматического реферирования (например, при определении наибо-

лее/наименее важных абзацев, предложений и т.д.). Выявление стиля способ-

ствует значительному повышению качества систем обработки текстов есте-

ственного языка, в т.ч. разметка частей речи, синтаксический анализ, снятие

омонимии. Знание жанровых и стилистических особенностей текстов имеет

огромное значение для создания качественного перевода. На понимание текста

переводчиком во многом влияют формальные признаки, которые присущи тек-

стам того или иного стиля.

Функциональные стили речи — сложившаяся исторически система рече-

вых средств, которые используются в различных сферах человеческого обще-

ния. Иными словами, стиль является разновидностью литературного языка, ко-

торая выполняет определенную функцию в общении. Они обусловливают варь-

ируемость мысли, придают языку стилистическую гибкость. Благодаря различ-

ным стилям язык оказывается способным выразить сложную научную мысль,

философскую мудрость, начертать законы, отобразить в эпопее многоплановую

жизнь народа [1].

Выполнение стилем той или иной функции — эстетической, научной, де-

ловой и т. д. — накладывает глубокое своеобразие на весь стиль. Каждая функ-

ция — это определенная установка на ту или иную манеру изложения — точ-

ную, объективную, конкретно-изобразительную, информативно-деловую и т. д.

И соответственно с этой установкой каждый функциональный стиль отбирает

из литературного языка те слова и выражения, те формы и конструкции, кото-

рые могут наилучшим образом выполнять внутреннюю задачу данного стиля.

Так, научная речь нуждается в точных и строгих понятиях, деловая тяготеет к

обобщенным названиям, художественная предпочитает конкретность, изобра-

зительность.

Стиль — это не только способ, манера изложения. За каждым стилем за-

креплен и свой круг тем, свое содержание. Разговорный стиль ограничивается,

как правило, обиходными, бытовыми сюжетами. Официально-деловая речь об-

Page 143: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

142

служивает суд, право, дипломатию, отношения между предприятиями и т. д.

Газетно-публицистическая речь тесно связана с политикой, пропагандой, обще-

ственным мнением. Каждый функциональный стиль обладает своими особен-

ностями использования общелитературной нормы, он может существовать как

в письменной, так и в устной форме [2].

Традиционно выделяют пять основных разновидностей функциональных

стилей речи, различающихся условиями и целями общения в какой-то сфере

общественной деятельности: научный, официально-деловой, публицистиче-

ский, разговорный, художественный [1].

При определении стилевой принадлежности текста учитываются как

экстралингвистические показатели, так и собственно языковые. Важными ока-

зываются сфера общения, функция речи и текста в целом, назначение текста

[2].

Среди показателей языково-стилистического плана учитываются общие

стилевые и стилистические доминанты, из них наиболее обобщенными и ти-

пичными оказываются: абстрактность - конкретность; логичность - эмоцио-

нальность; стандартность - стилистическая маркированность; объективность -

субъективность. Соответственно этим показателям определяется соотношение

рационально-логических и эмоционально-риторических языковых структур, а

также формы представления авторства в тексте и характер авторской модально-

сти.

Современные средства обработки текста на естественном языке позволя-

ют анализировать текст на морфологическом и синтаксическом уровнях, суще-

ствуют проекты по формализации семантики, разработаны методы и подходы

определения эмоциональной и оценочной лексики. Таким образом, лингвисти-

ческая теория предоставляет возможность производить классификацию текстов

не только в рамках модели корпуса текстов, но и учитывая особенности функ-

циональных стилей на различных языковых уровнях [3].

Решение задачи классификации предполагает выбор дифференцирующих

признаков, который может осуществляться на основе эвристики, лингвистиче-

ских критериев, знаний предметной области, статистических характеристик

текстов [4]. Поскольку наиболее распространенными моделями документов яв-

ляются варианты моделей множества слов (bag-of-words), а именно – бинарная

модель и модель с весами терминов (первая учитывает только наличие или от-

сутствие слова в документе, тогда как во взвешенной модели каждому термину

ставится в соответствие его вес) во многих случаях в качестве признаков вы-

ступают слова. Однако не все они релевантны для решения данной задачи. По-

этому многие классификаторы игнорируют слова из заранее заданных списков

или же термины, встречающиеся как слишком часто, так и слишком редко. При

этом пороговое значение выбирается на основе эвристик и может зависеть от

корпуса и решаемой задачи. Обычно алгоритмы выбора признаков работают по

следующей схеме: для каждого термина вычисляется мера различия между

классами, после чего термины сортируются в порядке убывания этой величины

и выбираются лучшие признаки.

Page 144: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

143

Несмотря на существование работ, опирающихся на прямое сопоставле-

ние текста с уже классифицированными документами или псевдо-документом,

представляющим собой определенный жанр, классическим подходом класси-

фикации текстов стало использование методов машинного обучения [4]. Ма-

шинное обучение предполагает наличие обучающей и контрольной выборки.

При этом каждому документу соответствует вектор признаков.

Традиционно в качестве признаков используются частоты слов. Помимо

частот слов, может быть учтена частота знаков препинания. Некоторые авторы

предлагают использовать в качестве признаков наиболее частотные n-граммы.

Лексические же признаки коррелируют с тематикой документа, что является

существенным ограничением в их применимости Ограниченная репрезентатив-

ность тематики в обучающей выборке может значительно снизить качество

классификации. В связи с этим, помимо лексических признаков целесообраз-

ным является использование грамматических характеристик, как морфологиче-

ских, так и синтаксических. В роли классификаторов выступают деревья реше-

ний, наивный байесовский классификатор и машина опорных векторов. Широ-

ко распространенными остаются квантитативные признаки текста.

В некоторых методах применяются деревья решений, а в качестве клас-

сифицирующих признаков используются количественные характеристики тек-

ста (например, длина текста в символах, слогах и т.д.).

Таким образом, в настоящее время для классификации текстов преиму-

щественно используются методы машинного обучения, где в качестве призна-

ков традиционно применяются лексемы (или стемы). Однако все большее рас-

пространение получают методы, опирающиеся на квантитативные характери-

стики текста, а также учитывающие его морфологические и синтаксические

особенности. Список литературы

1. Браславский П. Морфологический строй функциональных стилей (на мате-

риале документов Internet) / П. Браславский // Известия Уральского государственного

университета, 2001. No 21. P. 9–17.

2. Валгина Н.С. Теория текста: Учебное пособие / Н.С. Валгина. М.: Изд-во

МГУП «Мир книги», 1998. 210 с.

3. Емашова О.А. Функциональные стили русского языка и их влияние на задачу

автоматического реферирования текста / О.А. Емашова, М.Г. Мальковский // Компь-

ютерная лингвистика и интеллектуальные технологии: По материалам ежегодной

Международной конференции "Диалог", 2007. P.167–171.

4. Лифшиц Ю. Классификация текстов [Электронный ресурс]. 2005. URL:

http://yury.name/internet/

Page 145: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

144

ЗАСТОСУВАННЯ ІМОВІРНІСНОЇ МОДЕЛІ (LANGUAGE MODEL)

ДЛЯ ОБРОБКИ ТЕКСТІВ УКРАЇНСЬКОЇ МОВИ

Шелест А.Т.

Національний технічний університет

"Харківський політехнічний інститут",

м. Харків,вул. Пушкінська, 79/2, тел. 707–63–60,

e-mail: [email protected]

До завдання обробки текстів належать завдання, з якими щодня має спра-

ву будь-який користувач інтернету або комп’ютеру: перевірка орфографії, фі-

льтрація спаму, автоматичний переклад невеликих фрагментів тексту та ін. З

точки зору дослідників в галузі автоматичної обробки текстів (АОТ), всі ці за-

вдання майже вирішені, і сьогодні більш актуальні є завдання з іншої категорії,

що вимагають обробки великих текстових масивів: знаходження релевантних

відповідей на питання (завдання «питання-відповідь»), повноцінній машинний

переклад цілісних текстів, аналіз думок і відгуків, конструювання рекоменда-

ційних систем, що працюють з великими масивами неструктурованих даних.

Відмітна особливість таких завдань – їх складність і відсутність формалізації,

що веде до того, що для них поки немає повноцінного набору рішень, а засто-

совуються допоміжні методи, серед яких найбільше практичне використання

мають статистико-ймовірнісні підходи.

При цьому, імовірнісна мовна модель являє собою один з основних ста-

тистико-імовірнісних методів, що використовується в системах АОТ. Напри-

клад, у машинному перекладі вона може використовуватись для оцінювання

якості перекладу та у системах розпізнавання мови, розпізнавання рукописного

введення та виявлення сутностей для визначення правильності обраного варіан-

ту. У останньому випадку мовна модель забезпечує контекст для розрізнення

слів і фраз, які звучать або пишуться схоже.

У загальному випадку, мета мовної моделі - обчислити вірогідність ре-

чення або послідовності слів. В основі даного підходу лежить поняття N-грам.

N-грамна модель розраховує ймовірність останнього слова N-грами, якщо ві-

домі всі попередні. При використанні цього підходу для моделювання мови пе-

редбачається, що поява кожного слова залежить тільки від ланцюга попередніх

слів.

Послідовність з двох послідовних елементів часто називають біграми, по-

слідовність з трьох елементів називають триграми. Від чотирьох та вище еле-

ментів позначаються як N-грами, N замінюється на кількість послідовних еле-

ментів.

Метою побудови N-програмних моделей є визначення імовірності вжи-

вання заданої фрази. Цю ймовірність можна задати формально як ймовірність

виникнення послідовності слів в деякому корпусі (наборі текстів). Наприклад,

ймовірність фрази “Захист телефону від води і забруднень” можна обчислити

як добуток ймовірностей кожного зі слів цієї фрази:

Page 146: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

145

P = P (захист) * P (телефону | захист) * P (від | захист телефону)*

* P (води | захист телефону від) * P (і | захист телефону від води) *

*P (забруднень | захист телефону від води і).

Для практичного вирішення ймовірнісної моделі використовується допу-

щення Маркова, яке стверджує, що у ланцюжку подій системи події, що відбу-

ваються далі, залежать тільки від поточного стану системи.

При практичному використанні language model існує три проблеми:

словосполучення, що аналізується, може бути відсутнім в даному кор-

пусі текстів;

завдяки необхідності обчислення добутку при обчисленні вірогідності

результат стає дуже маленьким, так звана проблема переповнення (underflow);

для вирішення цієї проблеми – досить використовувати логарифми;

мова має досить віддалені залежності, які неможливо передбачити або

показати не 2-х граммами ні навіть 5-ма грамамми.

В даному дослідженні імовірнісна модель мови була реалізована в алго-

ритмі, що дозволяє визначать імовірність слова у реченні або у словосполучен-

ні в великих корпусах україномовних текстів, в залежності від наявності двох

попередніх слів.

У роботі ми використовуємо декілька корпусів текстів, що пов’язані з рі-

зними інструкціями техніки щоденного використання. Для будь-якого введено-

го користувачем словосполучення будується його імовірнісна модель в різних

корпусах текстів. Користувач може порівняти ймовірності існування даного

словосполучення для декількох корпусів. Передбачається графічна візуалізація

результатів роботи програми. Список джерел інформації

1. Селезнев К. Лингвистика и обработка текстов / К. Селезнев,

А. Владимиров // Открытые системы. - 2013. - № 04. - C. 46-49.

2. Кельберт М. Вероятность и статистика в примерах и задачах / М. Кельберт,

Ю. Сухов // Марковские цепи как отправная точка теории случайных процессов и их

применение. – 2009. – С. 295.

3. Jurafsky D. Speech and Language Processing: An Introduction to Natural Lan-

guage Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky,

J. Martin // Pearson Prentice Hall. – 2009. –988 p.

Page 147: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

146

СОЗДАНИЕ УНИКАЛЬНОГО КОНТЕНТА ДЛЯ ПРОДВИЖЕНИЯ

САЙТА В ТОП

Юрьева Е.А.

Национальный технический университет

"Харьковский политехнический институт",

г. Харьков, ул. Пушкинская, 79/2, тел. 0951808918,

e-mail:[email protected]

В наши дни многие люди все чаще обращаются к Интернету, в поисках

любой необходимой информации. Искомую информацию можно без труда

найти на многочисленных интернет-сайтах. Эта информация, представленная

преимущественно в виде текстов, является содержанием сайта, так называемым

контентом [1]. Контент сайта должен быть уникальным и обладать информаци-

онной значимостью. Чтобы содержание страниц сайта было по-настоящему

уникальным, оно должно быть индивидуальной авторской работой.

Народная мудрость, посредством сказок, песен, поговорок и пословиц, не

раз убеждает нас в том, что каждый должен выполнять свою работу, делать

только то, что он хорошо умеет. Текстовым наполнением сайта должен зани-

маться человек, который обладает необходимыми для этого навыками и опы-

том. Контент, способствующий продвижению сайта, должен «угодить» как по-

исковым системам (поисковикам), так и самим пользователям сети [2]. Для это-

го необходимы качественные тексты: содержательные, информативные, инте-

ресные, доступные в восприятии, написанные красивым и грамотным языком.

Существует несколько принципов создания уникального контента [3]:

1. Уникальный - значит авторский. Вы разместили на сайт статью, не

скопировав при этом ее с сайта конкурента или друга, значит она авторская.

Сняли свой интересный ролик – он уникален. Чем больше авторской работы,

чем больше уникального контента, целевого контента, тем выше Ваш рейтинг у

поисковика. Все высказанное Вашими словами – это уникальный контент. Дру-

гое дело — тема контента. Тема может быть изрядно поднадоевшая.

2. Практическая польза контента. Не зависимо от того, сколько было

написано по той или иной тематике, Ваша информация все же должна оставать-

ся актуальной. Для этого уникальную теорию разбавляют примерами из прак-

тики, видео мастер-классов, фото и/или видео материалами или ссылками на

них. Все это сделает Ваш контент еще и практическим руководством.

3. Конкретика. Одна статья – один вопрос, или четко разделенных 2-3,

описанных во всех подробностях и со всеми подводными камнями. Немало-

важным является наличие лейтмотива, который просматривается от начала до

конца, вызывая интерес даже у читателя знающего практически все о данной

теме. Созданный Вами контент будет ценным, если он сумеет удовлетворить

любопытство посетителя касательно данной темы, оставаясь при этом простым

и понятным.

Page 148: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

147

4. Доступность и грамотность изложения. Уникальность статей еще не

гарантирует успеха среди читателей. Если Ваш контент понимает только не-

большой процент посетителей сайта, то Вы как минимум потеряли читателя,

как максимум клиента, который мог принести Вам деньги. Поэтому контент

должен быть рассчитан на любопытного потенциального клиента. Но текст с

грамматическими ошибками уж наверняка отобьет охоту дочитать статью даже

не у самого заядлого буквоеда.

Оптимизация контента связана с его написанием: содержимое сайта

должно быть интересным как для обычных пользователей, так и для поисковых

роботов. Посетителей сайта контент должен направлять к цели (оформить за-

каз, скачать брошюру и т.п.), а роботам – предлагать тексты, максимально ре-

левантные выбранным запросам. Не всегда получается сработать сразу с обеи-

ми сторонами и приходится искать компромиссные варианты, изменяя структу-

ры текстов, пробуя различные стили. Поиск оптимального решения может за-

нять длительное время, поскольку каждый вариант должен быть проиндексиро-

ван и учтен поисковой системой. Для этого используется SEO-оптимизация

текстов.

SEO расшифровывается как Search Engine Optimization, что в переводе

означает поисковая оптимизация или же оптимизация под поисковые машины.

Смысл этих трех слов – это оптимизация сайта для дальнейшего продвижения

сайта в рейтинге поисковых систем [1].

Чем выше позиция вашего сайта в выдаче поисковика, тем больше веро-

ятность, что посетитель зайдет на сайт, так как примерно 100% заходит по пер-

вым трем ссылкам поисковой выдачи, далее тенденция к уменьшению – до де-

сятой ссылки первой страницы выдачи добираются 20-50% пользователей. На

вторую страницу выдачи поисковика заходят 10-20%. Следовательно, для вся-

кого ресурса наиболее желанно место именно в первой десятке поисковой вы-

дачи [3]. Но, к сожалению, сайтов-конкурентов слишком много, а десятка всего

одна. Для того, чтобы продвинуть сайт в топ требуется наличие уникального

контента. Для создания уникальных статей для контента используется копирай-

тинг. Это определённый труд, отнимающий немало сил и времени. Кроме того,

понадобится отличное знание языка, умение обобщать и широкая эрудиция.

Сам термин «копирайтинг» переводится с английского как «написание

текстов». Копирайтингом называется и деятельность, и тип текста:

• Копирайтинг как деятельность – это процесс написания статьи на за-

данную или вольную тему с нуля.

• Копирайтинг как тип текста – это уникальный текстовый материал

(статья, аннотация, обзор и пр.).

Сейчас из всех видов создания уникального текста для Интернета именно

рерайтинг считается самым простым, хотя он и требует определённых навыков.

Рерайтинг – это чужой материал, переписанный другими словами и от-

личный способ создать уникальную статью на основе качественной статьи, уже

опубликованной в Сети. Это хорошая возможность сделать текст более лёгким

для чтения и восприятия. Существует также такое понятие, как глубокий ре-

райт. Он заключается не в простой замене слов на синонимы, а в полном её пе-

Page 149: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

V Всеукраїнська науково-практична конференція "Інтелектуальні системи та прикладна лінгвістика",

14 квітня 2016 р., м. Харків

148

реписывании своими словами, замене смысловых блоков, изменении стиля из-

ложения и полной перефразировке предложений.

Техника рерайтинга использует три основных приёма [3]:

1. Неглубокий рерайтинг текста, или замена слов синонимами. Иногда та-

кой рерайтинг называют синонимизацией. Синонимизация – это метод, осно-

ванный на подборе синонимов к большинству слов в предложениях исходного

текста. Из всех видов рерайта такие тексты являются самыми недорогими.

2. Замена последовательности слов, самих предложений и абзацев. Это

уже настоящий рерайтинг, позволяющий создавать интересные и уникальные

статьи на основе исходного текста.

3. Перефразирование текста с сохранением основной мысли статьи. В

этом случае мы используем технику «изложения», то есть внимательно изучаем

исходный текст, а затем пересказываем его своими словами, дополняя или от-

брасывая лишнее.

Вполне естественное человеческое желание получать побольше, напряга-

ясь поменьше (финансово или умственно), привело к появлению идеи создания

систем автоматической обработки текстов – так называемых синонимайзеров.

Синонимайзер представляет собой программу, предназначенную для замены

слов в исходном тексте синонимами из своей базы, благодаря чему текст стано-

вится уникальным для поисковых систем.

Подводя итог, можно сказать, что в последнее время поисковые системы

значительно улучшили понимание синонимов своими роботами. Таким обра-

зом, оптимизация контента под сугубо конкретные запросы и ключевые слова

уходит в прошлое, а использование синонимов будет ничем не хуже точного

вхождения. Понимая и правильно применяя синонимы, вебмастера и оптимиза-

торы смогут сэкономить много времени и сил. Для создателей украиноязычного

контента глобальной проблемой данной сферы становится отсутствие синони-

майзеров для украинских текстов. Список литературы:

1. Байков В.Д. Интернет. Поиск информации. Продвижение сайтов / В.Д. Бай-

ков. — СПб. : БХВ-Петербург, 2000. — 288 с.

2. Евдокимов Н.В. Раскрутка веб-сайта: практическое руководство по SEO 3.0 /

Н.В. Евдокимов, И.В. Лебединский. — М. : «Вильямс», 2011. — 288 с.

3. Севостьянов И.О. Поисковая оптимизация. Практическое руководство по

продвижению сайта в Интернет / И.О. Севостьянов. — СПб. : «Питер», 2010. — 240 с.

Page 150: ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА ПРИКЛАДНА ЛІНГВІСТИКАweb.kpi.kharkov.ua/iks/wp-content/uploads/sites/113/2016/12/Sbornik-k... · щих в текстовой

Матеріали

V Всеукраїнської науково-практичної конференції

"ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ТА

ПРИКЛАДНА ЛІНГВІСТИКА"

(Українською, російською та англійською мовами)

Відповідальний за випуск Н.В. Шаронова

Технічна редакція та комп’ютерна верстка: C.В. Петрасова

Формат 60х90/16. Ум. друк. аркушів. 8,66

Наклад 65 прим. Зам. № 443030

Надруковано у ТОВ «ПЛАНЕТА-ПРІНТ»

61002, м. Харків, вул. Фрунзе, 16 ЄДРПОУ 31235131 від 19.12.2000 р