metody reprezentacji wiedzy na tle parsowania zdań języka naturalnego z wykorzystaniem crb
DESCRIPTION
Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis. Wprowadzenie Parsowanie Opis morfosyntaktyczny Korpus IPI PAN CBR Sieci semantyczne UNL LangCerBeR Podsumowanie. Plan prezentacji. czasownik. rzeczownik. rzeczownik. - PowerPoint PPT PresentationTRANSCRIPT
Metody reprezentacji wiedzy Metody reprezentacji wiedzy na tlena tle
Parsowania zdań języka naturalnego Parsowania zdań języka naturalnego z wykorzystaniem CRB.z wykorzystaniem CRB.
Autor: Robert Papis
Plan prezentacjiPlan prezentacji
WprowadzenieParsowanie
Opis morfosyntaktyczny Korpus IPI PAN
CBRSieci semantyczneUNLLangCerBeRPodsumowanie
Parsowanie klasycznieParsowanie klasycznie• <zdanie> -> <podmiot><orzeczenie>• <podmiot> -> <rzeczownik>• <podmiot> -> <zaimek osobowy>• <orzeczenie> -> <czasownik>• <orzeczenie> -> <czasownik><rzeczownik>
Tomek zobaczył rower
zdanie
podmiot orzeczenie
rzeczownik czasownik rzeczownik
odbywać [CAAAA]: -ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, A-liczba pojedyncza, A-rodzaj męski, A-mianownik
Słownictwo i fleksjaSłownictwo i fleksja
Słowo: odbywający
CAAAA
CABAAodbywać [CABAA]: -ywającyC-imiesłów przymiotnikowy:A-imiesłów przymiotnikowy czynny, B-liczba mnoga, A-rodzaj męskoosobowy, A-mianownik
AABABA BABAAA GAAA ABAAAD
ParsowanieParsowanie
Ala ma rudego kota.
AABABA BABAAA GAAA ABAAAD
KTO?CO?
JAKI?
Opis morfosyntaktyczny Opis morfosyntaktyczny Korpus IPI PANKorpus IPI PAN
Kategorie gramatyczne • 12 kategorii (liczba, przypadek, rodzaj…)
(m1) Widzę jednego…….. z tych, których lubię.(m2) Widzę jednego…….. Z tych które lubię.(m3) Widzę jeden.
Klasy gramatyczne / fleksyjne• Odsłowniki (picie, palenie)• 32 klasy fleksyjne (ciała obce, interpunkcja)
Opis morfosyntaktyczny - przykładOpis morfosyntaktyczny - przykład
piękny [piękny:adj:sg:acc:m3:pos]
piękny – forma podstawowaadj – klasa fleksyjna: przymiotnik (adjective)sg – liczba: pojedyncza (singular) acc – przypadek: biernik (accusative)m3 – rodzaj: męski rzeczowy (masculine)pos – stopień: równy (positive)
Korpus IPI PAN -PoliqarpKorpus IPI PAN -Poliqarp
Korpus IPI PAN - przeszukiwanieKorpus IPI PAN - przeszukiwanie
• Zapytania o segmenty• Wyrażenie regularne „(pod|na|
za)jecha.*”• Formy podstawowe [base=korpus]• Znaczniki morfosyntaktyczne
[pos=subst&number=sg]• Wieloznaczność i dezambiguacja
[case=acc & case=gen]• Metadane (author, title, created…)
Opis Korpusu IPI PAN vs DeniseOpis Korpusu IPI PAN vs Denise
• Pokrycie całego słownika języka polskiego
• Precyzyjne klasy gramatyczne• Precyzyjne klasy fleksyjne• Dezambiguator morfosyntaktyczny• Podział na segmenty zamiast słów• Dodatkowe narzędzia (XML)• Bogata literatura
Inne korpusy językoweInne korpusy językowe
• CQP - Corpus Query Processor• Czeski, Węgierski, Słowacki,
Norweski…• Korpus PWN (wersja www oraz CD)• British National Corpus (100mln)
Plan prezentacjiPlan prezentacji
WprowadzenieParsowanieCBR
Dlaczego CBRJak działa
Sieci semantyczneUNLLangCerBeRPodsumowanie
KorzenieKorzenie
„Human experts are not systems of rules, they are libraries of experiences.”
Riesbeck and Schank 1989„A case-based reasoner solves new problems by adapting solutions that were used to solve old problems.”
Riesbeck & Schank, 1989 „Case-based reasoning is [...] reasoning by remembering.„
Leake, 1996
Przypadek XOpis problemu...
Proponowane rozwiązanie...
Cecha1: Cecha2:
...
Wartość1Wartość2....
Przykład – opis przypadkuPrzykład – opis przypadku
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Diagnoza :Zalecenia:
Przypadek 32
Przednie światło nie działaVW Golf II, 1.6L199313,6VOK.OK
Uszkodzony bezpiecznikWymienić bezpiecznik
Przykład – baza przypadkówPrzykład – baza przypadków
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Diagnoza :Zalecenia:
Przypadek 1
Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK
Uszkodzony bezpiecznikWymienić bezpiecznik
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Diagnoza :Zalecenia:
Przypadek 2
Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK
Uszkodzona żarówkaWymienić przednie światła
Każdy przypadek opisuje jedną sytuację
Przypadki są od siebie niezależne
Przypadki nie są regułami
Przykład – wyszukanie Przykład – wyszukanie podobnychpodobnych
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Diagnoza :Zaleczenia:
Przypadek X
Porównaj nowy przypadek z każdym przypadkiem przechowywanym w bazie przypadków
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:
Nowy problem
Tylne światła nie działająAudi 80198912,6VOK
Podobne ?
Wybierz najbardziej podobny
Podobieństwo jest jedną z najważniejszych idei CBR
Przykład – porównaniePrzykład – porównanie z przypadkiem 1 z przypadkiem 1
Miara podobieństwa (uwzględniając wagi)
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:
Nowy problem
Tylne światła nie działająAudi 80198912,6VOK
Przypadek 1
Diagnoza :Zaleczenia:
Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK
Uszkodzony bezpiecznikWymienić bezpiecznik
0,90,60,40,8
1,0
sim(np, p1) = 1/20*[6*0,8+1*0,4+1*0,6+6*0,9+6*1,0]=0,86
Przypadek 2
Diagnoza :Zaleczenia:
Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK
Uszkodzona żarówkaWymienić przednie światła
Przykład – porównaniePrzykład – porównanie z przypadkiem 2 z przypadkiem 2
Miara podobieństwa (uwzględniając wagi)
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:
Nowy problem
Tylne światła nie działająAudi 80198912,6VOK
0,950,40,80,8
0
sim(np, p2) = 1/20*[6*0,8+1*0,8+1*0,4+6*0,95+6*0]=0,585
Przykład – wykorzystanie Przykład – wykorzystanie rozwiązania 1rozwiązania 1
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł: Włącznik
św.:
Nowy problem
Tylne światła nie działająAudi 80198912,6VOK
Uszkodzony bezpiecznikWymienić bezpiecznik
Jeżeli diagnoza jest poprawna, zapamiętujemy nowy przypadek
Przypadek 1
Diagnoza :Zaleczenia:
Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
0,86
Uszkodzony bezpiecznikWymienić bezpiecznik
Przykład – nowy przypadekPrzykład – nowy przypadek
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł: Włącznik
św.:
Nowy problem
Tylne światła nie działająAudi 80198912,6VOK
Uszkodzony bezpiecznikWymienić bezpiecznik
Przypadek 1
Diagnoza :Zaleczenia:
Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Uszkodzony bezpiecznikWymienić bezpiecznik
Przypadek 3
Diagnoza :Zaleczenia:
Tylne światła nie działająAudi 80198912,6VOK
Uszkodzony bezpiecznikWymienić bezpiecznik
Problem:Samochód:
Rocznik:Akumulator:
Stan świateł:Włącznik
św.:
Cykl CBRCykl CBR
Retrieve
Reuse
Revise
Retain
Gdzie jest wiedza?Gdzie jest wiedza?
Słownik (wykorzystywane cechy)
Miara podobieństwa
Transformacje rozwiązań
Baza przypadków
CBR - PodsumowanieCBR - Podsumowanie
Podobne problemy mają podobne rozwiązania.Rozwiązanie problemu (reguła 4R :)
Wyszukanie podobnych przypadków
Wykorzystanie rozwiązań z precedensu (ów)
Weryfikacja rozwiązania
Włączenie rozwiązania do bazyŁatwość implementacji i używania
Akceptacja użytkowników końcowych
Plan prezentacjiPlan prezentacji
WprowadzenieParsowanieCBRSieci semantyczne
Podstawy biologicznePrzykłady
UNLLangCerBeRPodsumowanie
Sieć semantyczna - przykładSieć semantyczna - przykład
zwierzę
ssak ptak ryba
kanarek wróbel pstrąg łosoś
ma skórę
porusza się
ma skrzela
umie pływać
Collins & Quillian, 1969
Zaplecze biologiczneZaplecze biologiczne
0 1 2
1500
900
RT(msec)
odległość w sieci
Kanarek umie śpiewać
Kanarek umie latać
Kanarek ma skórę
Kanarek jest kanarkiem
Kanarek jest ptakiem
Kanarek jest zwierzakiem
WłaściwościKategorie
Pomysły na sieć Pomysły na sieć
Collins & Loftus, 1975
zielony
niebieski
czerwony
żółty
sójka
rudzik
ptak
wróbel
kanarek
latające
zwierzaki
ryba
rekin
pływają
pingwin
linux
Reprezentacja fobiiReprezentacja fobii
Lang, 1979
Rodzaje sieci semantycznychRodzaje sieci semantycznych
• Definicyjne
• Twierdzeń
• Implikacyjne
• Uczące się
• Wykonywalne
• Hybrydowe
Plan prezentacjiPlan prezentacji
WprowadzenieParsowanieCBRSieci semantyczneUNL
Zdanie jako siećUNL jako metajęzyk
LangCerBeRPodsumowanie
Zdanie jako sieć semantycznaZdanie jako sieć semantyczna
pisać
Piotr, w tym czasie student, napisał kilka powieści.
student
AOJ Piotr
AGT
czas
ten
TIMMOD
kilka
MOD
powieść
OBJ
Zdanie – formalny zapis UNLZdanie – formalny zapis UNL
Piotr, w tym czasie student, napisał kilka powieści.
aoj ( student, Piotr )tim ( student, czas )mod ( czas, ten )agt ( pisać.@entry.@past, Taro )obj (pisać.@entry.@past, powieść.@pl )mod ( powieść.@pl, kilka )
Universal Language Networking Universal Language Networking UNLUNL
„It is a computer language that enables computer to process information and knowlage across the language bariers.”
UNL Specification (2003)
• Zapis jako sieć semantyczna• Pojęcia – węzły, relacje – połączenia• Jednoznaczność opisu
UNL - RelacjeUNL - Relacje
• Relacje wyłącznie binarne• Możliwość annotowania• Grupy podstawowe – AGT, AOJ, OBJ• Operatory AND, OR, @not• Zapis informacji semantcznych – TMF,
TMT
UNL – Universal Word (UW)UNL – Universal Word (UW)
• Proste pojęcia (simple UW)• Restrykcje
book(icl>thing)book(icl>do)
• Rozszerzające (extra UW)tatami(icl>thing)
• Złożone (compound UW)agt:01(wear(icl>do(obj>thing)),
woman(icl>person).@pl)
UNL
UNL jako metajęzykUNL jako metajęzyk
EnConverter
EnConverter
DeConverter
DeConverter
Arabski
Polski
Plan prezentacjiPlan prezentacji
WprowadzenieParsowanieCBRSieci semantyczneUNLLangCerBeRPodsumowanie
Zdania jako przypadki CBRZdania jako przypadki CBR
Przypadek 11
Zdania proste vs zdania złożone
Częściowe podobieństwo
Ala ma rudego kota
Ala
Przypadek 12
Wojtek puszcza latawca
???rudy
kotmieć
Podobne ?
Relacja jako przypadekRelacja jako przypadek
Przypadek 14
Ala ma
Ala
mieć
AOJ
Przypadek 15
ma kota
kot
mieć
OBJ
Przypadek 16
rudego kota
kot
rudy
AOJ
Baza przypadków - schematBaza przypadków - schemat
Z1 -Ten kwiat jest piękny.
W1 - [ten:adj:sg:acc:m3:pos] W2 - [kwiat:subst:sg:acc:m3]W3- [być:fin:sg:ter:imperf]W4 - [piękny:adj:sg:acc:m3:pos]
P1 – mod (kwiat, ten) P2 - aoj(piękny.@entry, kwiat)
W1
W2
W3
W4
P1
P2
Z1
Miara podobieństwaMiara podobieństwa
• Reguły o tej samej długości• Podobieństwo cech rozważane binarnie• Podobieństwo słowa
– Zgodność formy podstawowej– Zgodność klasy fleksyjnej– Zgodność 12 kategorii gramatycznych
• Podobieństwo każdego słowa równoważne• Zgodność wystąpień w zdaniu (kolejność)
Wyszukiwanie i zapis przypadkówWyszukiwanie i zapis przypadków
• Poszukiwanie dla każdego wyrazu– najdłuższej relacji– do określonego progu
• Wybór najlepszych relacji• Zapamiętanie relacji jako nowego
przypadku• Grupowanie reguł, reguły bez kontekstowe
PodsumowaniePodsumowanie
• Korpus IPI PAN Pełny system opisu języka polskiego Baza języka polskiego z informacją
morfosyntaktyczną Poliqarp - narzędzie do przeszukiwania
korpusu CBR
Miara podobieństawa Baza przypadków
• Universal Networking Language Jednolity system zapisu znaczeń Uniwersalny sposób zapisu rozkładu zdania
Pytania…Pytania…
???
??? ???
??? ??? ???
Dziękuję za uwagęDziękuję za uwagę