Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін...

Post on 16-Apr-2017

323 Views

Category:

Education

9 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Агляд сучасных тэм і сэрвісаў, якія закранае тэрмін

"Natural Language Processing"

Юрась Гецэвіч

Лабараторыя распазнавання і сінтэзу маўленняАІПІ НАН Беларусі

Бібліяграфія• Сэт Граймз / MARCH 4, 2013 All About Natural Language Processing

• Гецэвіч, Ю.С. РАСПРАЦОЎКА КАМПАНЕНТА РАСПАЗНАВАННЯ МАЎЛЕННЯ ДЛЯ НАТУРАЛЬНА МАЎЛЕНЧАГА ІНТЭРФЕЙСУ / Ю.С. Гецэвіч, К.А. Нікалаенка, Л.І. Kайгародава // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2015) : материалы V междунар. науч.-техн. конф. (Минск, 19 – 21 февраля 2015 года) / пад рэд. В. В. Голенков (отв. ред.) [и др.]. Минск : БГУИР, 2015. — C. 507-512.

• Гецэвіч, Ю.С. Фанетычная і алафонная апрацоўка тэксту ў сінтэзатары беларускага і рускага маўлення для мабільных платформаў / Ю.С. Гецэвіч, Б.М. Лабанаў, Д.А. Пакладок // Інфарматыка. — 2014. — №2(42). — C. 25-35

• Taylor, P. Text-to-Speech Synthesis / P. Taylor. New York – Cambridge University Press, 2009. – 642 p.

• NooJ resourses // NooJ [Electronic resourse]. – 2002 . – Mode of access : http://www.nooj4nlp.net/pages/resources.html. – Date of access : 17.03.2012.

• Etc.

2Для суполкі NLProc.by

Што такое Natural Language Processing?

???3Для суполкі NLProc.by

• Апрацоўка натуральнай мовы, АНМ (па-англійску: Natural Language Processing, NLP) — гэта машыннае пераўтварэнне вуснай і/ці пісьмовай разнавіднасцяў чалавечай камунікацыі.

• Методыка, апорай якой з’яўляюцца лінгвістыка і статыстыка ў спалучэнні з машынным навучаннем, імкнецца мадэляваць мову на службе аўтаматызацыі.

4Для суполкі NLProc.by

Якую карысць можа прынесці Апрацоўка Натуральнай Мовы?• Хуткая апрацоўка выгляду Т-Т, Т-М, М-Т, М-М. (так, як апрацоўвае

машына-камп’ютар)• Т – пісьмовая натуральная мова• М – вусная натуральная мова

• Колькі заўгоднае паўтарэньне апрацовак, дзе чалавеку стала б проста складана ці нецікава працаваць (напрыклад, пастаяннае адсочваньне новых ключавых слоў на новых інтэрнэт-сайтах)

• Эталанізацыю праз фармалізацыю ведаў (напрыклад, сінтэзатар маўленьня, інтэлектуальныя справачныя сістэмы)

• Дапамога трэцім асобам, якія ня ведаюць мовы ці не спецыялісты ў лінгвістыцы, праз пабудову прыкладных лінгвістычных прыстасаваньняў

• ?

5Для суполкі NLProc.by

Агульная схема Апрацоўкі Натуральнай Мовы

Прыклады:TTS : тэкст -> маўленьне / для слабабачачых, для робататэхнікіASR : маўленьне -> тэкст / для журналістаўTranscription : тэкст -> тэкст / для замежнікаўSTS : маўленьне -> маўленьне / для хуткай камунікацыіITS : выява -> маўленьне / для кіроўцаў…

Распазна - ваньне …

Генерава -ньнне …

6Для суполкі NLProc.by

Выманне і пошук інфармацыі• Пошукавыя сістэмы Google, Bing

• выманьне тэрмінаў з тэксту• парсінг пошукавых запытаў

(людзі, назвы кампаній, сімвалы акцый і месцы)• выманьне заканамернасцяў• выманьне атрыбутаў, звязаных з тэрмінамі

(дарагі гадзіннік, чорны аўтамабіль, 4,6 кг рыбы.)• выяўленне адносін між канцэптамі (Apple Siri, Wolfram Alpha і Google

Now)

7Для суполкі NLProc.by

Канцэпцыі, тэмы, танальнасць і падабенства, а таксама заўвагі па метадах • класіфікацыя (групоўка выразаў і дакументаў)• выманне канцэпта (сістэма камп’ютарнай мовы Карпарацыя

Цыцэрон)• вызначэнне тэмы• выяўленьне танальнасці (ажыццяўляецца па звычайных

катэгорыях (станоўчай, адмоўнай ці нейтральнай) ці па больш вытанчаных эмацыйных катэгорыях, або сігналах намераў (CrowdFlower))

• распазнаванне плагіяту (ацэнка параграфаў вынятага тэксту па прынцыпе падабенства)

8Для суполкі NLProc.by

Арфаграфія, Граматыка і Стыль• праверка арфаграфіі (JSpell, SpellCheck.net) • стварэння дыяграмы сказа• разметка па часцінах мовы (дэмаверсія ўніверсітэта Іллінойса)• вывучэнне сінтаксічных адносін (Connexor).

9Для суполкі NLProc.by

Пераклад

• машынны пераклад (Google Translate, Promt, ABBY Lingvo, Multitran, Language Tool)

• аўтаматычная ідэнтыфікацыя мовы

10Для суполкі NLProc.by

Гібрыдны сінтэзатар выразнага маўлення «ЭТАП-МУЛЬТЫФОН» Машынны пераклад і агучка

11Для суполкі NLProc.by

Рэферыраванне тэксту (разуменне і генерацыя натуральнай мовы)

12Для суполкі NLProc.by

Пытальна-адказныя сістэмыАгульная схема :

Прыклады : •IBM Watson•START•www.OSTIS.net

13Для суполкі NLProc.by

Распазнаванне і сінтэз маўлення• распазнаванне маўлення

• генерацыя, або сінтэз маўлення

• транскрыбаванне вуснай мовы : M004,O113,J'013,/,R032,O022,D001,N004,Y322,/,K001,U032,T000,/,#C3, -> [мо̀й] [ро́дны] [ку́т]

• галасавы пошук

• сінтэз маўлення па тэксце.

14Для суполкі NLProc.by

«Будаўнічыя блокі» ці настройвальныя лінгвістычныя

працэсары• Apache OpenNLP і Mallet - інструментар машыннага навучання

• The Apicultur service і Веб API для Python NLTK Якоба Перкінса

для элементнага аналізу тэкста

15Для суполкі NLProc.by

NooJ (Нудж)

16Для суполкі NLProc.by

nooj4nlp.net

настройваецца для больш за 20 моў, улічваючы беларускую

Апрацоўка натуральнага маўленьня

сorpus.by

17Для суполкі NLProc.by

Сэрвіс “Інфармацыя аб сімвалах”,

карысны для лінгвістаў

18Для суполкі NLProc.by

Сэрвіс «Частотнасць слоў»

19Для суполкі NLProc.by

Частата «слоў» у любым тэксце

Адвольная настройка слова: пасьлядоўнасьць лікаў, сімвалаў алфавітаў ці інш.

20Для суполкі NLProc.by

Схема сінтэзу маўленьня па тэксце

21Для суполкі NLProc.by

Сінтэзатар беларускага і рускага маўлення па тэксце для стацыянарных, мабільных і інтэрнэт платформ

22Для суполкі NLProc.by

сorpus.by/tts3 сінтэзатар маўленьня па тэксце on-

line

23Для суполкі NLProc.by

Выкарыстанне алгарытмаў СМТ для вырашэння лінгвістычных задач

24Для суполкі NLProc.by

25Для суполкі NLProc.by

Запісы словаформаў да і пасля генерацыі транскрыпцый

26Для суполкі NLProc.by

27Для суполкі NLProc.by

Запісы словаформаў да генерацыі транскрыпцый

28Для суполкі NLProc.by

Запісы словаформаў пасля генерацыі транскрыпцый

29Для суполкі NLProc.by

Плануемы выгляд запісу ў электронным арфаэпічным слоўнікус гмаі ́ [с' γма ] (назва літары)і ́ж. Р с гмы [с' γмы ],і ́ і ́ ДМ с гме [с' γм'эі ́ і ́ ],с гму [с' γму ],і ́ і ́ с гмай [с' γмай ] (-аю)і ́ і ́(сума) ж. Р с гмы [с' γмы ],і ́ і ́ДМ с гме [с' γм'э ], с гму [с' γму ],і ́ і ́ і ́ і ́с гмай [с' γмай ] (-аю)і ́ і ́ мн. НВ с гмы [с' γмы ],і ́ і ́сігм [с' γм ] (-маў), с гмам [і ́ і ́ с' γмамі ́ ],с гмамі [і ́ с' γмам'іі ́ ], с гмах [і ́ с' γмахі ́ ]

30Для суполкі NLProc.by

Праверка “у” і “ў”

31Для суполкі NLProc.by

32Для суполкі NLProc.by

Генератар спасылкі на публікацыю

33Для суполкі NLProc.by

34Для суполкі NLProc.by

Спецыялізаваны слоўнік

35Для суполкі NLProc.by

Спецыялізаваны слоўнік

36Для суполкі NLProc.by

37Для суполкі NLProc.by

Апрацоўка гука on-line

38Для суполкі NLProc.by

Апрацоўка гука on-line

Выбар гука

Выбар тыпу дыяграмы-Асцылаграма-Спектраграма

39Для суполкі NLProc.by

Апрацоўка алафона on-lineасцылаграма спектраграма

40Для суполкі NLProc.by

Апрацоўка алафоннага радка on-line: асцылаграма

41Для суполкі NLProc.by

Апрацоўка алафоннага радка

on-line: спектраграма

42Для суполкі NLProc.by

Генератар тэматычных даменаў

43Для суполкі NLProc.by

Генератар тэматычных даменаў мінімальных набораў слоў,які пакрываюць усе алафоны і дыфоныбеларускай мовыхаця б 1 раз

44Для суполкі NLProc.by

Запіс гуку ў Інтэрнэт

45Для суполкі NLProc.by

Запіс гуку ў Інтэрнэт

46Для суполкі NLProc.by

Робат, які ўмее гаварыць :)

Для суполкі NLProc.by 47

Нашыя распрацоўкі (2)srlab.by

48Для суполкі NLProc.by

Нашыя распрацоўкі (3)

nooj2015.ssrlab.by

49Для суполкі NLProc.by

Узроўні мовы (А)

50Для суполкі NLProc.by

Узроўні мовы (B)

крыніца

51Для суполкі NLProc.by

Узроўні мовы (C,1)

52Для суполкі NLProc.by

Узроўні мовы (C,2)

крыніца

53Для суполкі NLProc.by

Дзякую за ўвагу!Тэл.:

+375 (17) 284-27-73 (пакой 422)+375 (17) 284-25-22 (пакой 430)

E-mail:yuras.hetsevich@newman.bas-net.by

ssrlab221@gmail.com

top related