centrum(technologii(językowych(clarin;pl:(...
TRANSCRIPT
CLARIN-PL
Centrum Technologii Językowych CLARIN-‐PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Katedra Informatyki Technicznej [email protected]
2015-‐05-‐18
CLARIN
§ CLARIN = § Common Language Resources and Technology Infrastructure § Wspólne zasoby językowe i infrastruktura technologiczna
§ Część § europejskiej mapy drogowej infrastruktury naukowej
(European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures)
§ Polskiej Mapy Drogowej Infrastruktury Badawczej § Cel
§ połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej
§ Obszar działania: nauki humanistyczne i społeczne
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
CLARIN
§ CLARIN ERIC § konsorcjum naukowe typu ERIC (European Research Infrastructure
Consortium) § Członkowie założyciele
§ Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)
§ Pozostali członkowie § Grecja, Litwa, Portugalia, Słowenia, Szwecja
§ Obserwatorzy § Norwegia
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Podstawowe pojęcia
§ Zasoby językowe § zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie § sformalizowany opis wybranych aspektów języka naturalnego
§ Narzędzia językowe § programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego § automatyczna analiza struktur językowych, np. analiza składniowa § zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych § Technologia językowa = zasoby + narzędzia + infrastruktura § Infrastruktura językowa
§ wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Bariery w dostępie
§ Fizyczna § narzędzia i zasoby nie są dostępne w sieci
§ Informacyjna § brak opisu narzędzi i zasobów § brak katalogów i możliwości łatwego odnalezienia
§ Technologiczna § brak standardów, możliwości łączenia elementów technologii § brak wspólnej platformy – różnorodność rozwiązań
technologicznych § brak sprzętu o określonych parametrach
§ Wiedzy § wymagane umiejętności programistyczne § wymagana wiedza z zakresu inżynierii języka naturalnego
§ Prawna § licencje ograniczające dostęp i wykorzystanie § szczególnie w odniesieniu do korpusów
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi CLARIN
§ Wspólna europejska sieć technologii językowej § tj. narzędzi i zasobów językowych oraz aplikacji
§ Centrum Technologii Językowych CLARIN-PL § repozytorium do przechowywania i udostępniania zasobów
językowych § usługi do analizy tekstów i mowy na różnych poziomach § aplikacje badawcze, np. do półautomatycznej anotacji
semantycznej tekstu lub semantycznego porównywania korpusów
§ Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP
§ Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Wspólna europejska sieć technologii językowych
§ Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci
§ Jeden system trwałych identyfikatorów dla zasobów § Połączona sieć centrów
§ centralne przeszukiwanie treści: Federated Content Search § bezpieczeństwo danych (certyfikaty i kopie danych)
§ Wspólny standard metadanych § centralne wyszukiwanie po wszystkich zasobach § Virtual Language Observatory § wspólny słownik atrybutów, wartości i relacji w meta-danych § wirtualne kolekcje
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-danych w formacie CMDI
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-danych w formacie CMDI
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
§ Fasetowe wyszukiwanie § Atrybuty i ich zakresy wartości są
odczytywane z meta-danych § Wspólny standard: CMDI
(Componet Metadata Infrastructure)
Centrum Technologii Językowych CLARIN-PL
www.clarin-pl.eu
§ Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19
§ Zapewnia funkcje sieciowe infrastruktury CLARIN § Udostępnia
§ repozytorium § usługi do analizy tekstu (i mowy) w języku polskim § zestaw wybranych aplikacji zbudowanych we współpracy
z użytkownikami § wsparcie dla użytkowników – naukowców, jako Centrum
Wiedzy
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Funkcje CTJ CLARIN-PL
§ Rozproszona identyfikacja i autoryzacja użytkowników § oparta na federacjach narodowych § zasada jednego konta i jednego logowania
§ Odpowiedni system składowania (repozytoryjny) § trwałość danych (system archiwizacji) § jednoznaczny opis danych za pomocą trwałych identyfikatorów
(Persistent Identifiers) § metadane o złożonej strukturze (CMDI) § zarządzanie metadanymi zgodnie z przyjętymi standardami, np.
CCR (CLARIN Concept Registry), RELcat § wirtualne kolekcje oparte na metadanych
§ Integracja zasobów i usług § w oparciu o usługi sieciowe (Web Services) § dostęp poprzez aplikacje sieciowe § brak konieczności ściągania i instalowania
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Repozytorium DSpace
§ Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe
§ Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia
Clarin-PL z Clarin ERIC
§ Wsparcie dla systemu CNRI Handle System [handle.net] § pozwala na swobodną zmianę adresów/serwerów
§ Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Repozytorium DSpace
§ Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain
§ AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł)
§ Polska federacja to https://aai.pionier.net.pl/
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Polska federacja uwierzytelniania
§ Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego
§ Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER
§ Warunki techniczne Federacji: § https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf
§ Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji
§ Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji
§ Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi sieciowe
§ Narzędzia językowe § aplikacje zbudowane w różnorodnych technologiach § złożony proces instalacji § różnorodne interfejsy § trudność w tworzeniu potoków przetwarzania
§ „Wszystko jest usługą sieciową” § Komponent oprogramowanie o ustandaryzowanym interfejsie,
dostępny poprzez protokół internetowy
§ UI – przeglądarka internetowa § Aplikacje dostępowe oparte o przeglądarki
internetowe § Łączenie usług w potoki § Wizualizacja
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi sieciowe - architektura
20
NLPWorkersNLPServices
RESTSOAP
Serwer
NFS
Worker 1(WCRFT2)
Worker 2(Liner2)
Worker 3(WSD)
Worker n+1(Serel)
NLPEngine
MonitoringInternal network
G4.19Web
applications
§ Wydajność § przetwarzanie równoległe § chmura prywatne, skalowanie § Identyfikatory plików
na wej./wyj. narzędzi
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
§ Elastyczność § złożone potoki przetwarzania § narzędzia z obszaru
maszynowego uczenia
Usługi sieciowe - choreografia
21
WCRFT LINER2 SEREL
SuperMatrix
WCRFT LINER2 SEREL
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi sieciowe
§ Zaimplementowane usługi § Konwersja: any2txt § Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon § Generacja wektorów cech: fextor § Klasyfikacja: stylo, cluto, SVM § Komunikacja (pliki, URL, e-mail), integracja z DSpace
§ Prace § Konwertery, monitorowanie § Aplikacje pod konkretne zastosowania
§ Możliwości podpięcia innych narzędzi § Wirtualna maszyna w centrum + proste API § Przekierowanie do zewnętrznych usług (WebLicht, Multiservice)
22
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Zintegrowane środowisko Warsztaty CLARIN-PL
Wrocław 18-20 V 2015
CLARIN-PL
§ Repozytorium jest zintegrowane z narzędziami NLP
§ Proste przygotowanie korpusu dla narzędzi typu Inforex
§ Ten sam użytkownik do wszystkich narzędzi i do DSpace
Potok przetwarzania
WS1 WS2 WS3
D-SPACE
Narzędzia NLP API
Dane tymczasowe Zasoby / dane
Wywołanie z DSpace
Inforex
Dane przygotowane
Zintegrowane środowisko
§ Jak skorzystać z DSpace
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Aplikacje badawcze
§ Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych
§ Techniki załadowania własnych danych § Bezpośrednie załadowanie plików w interfejsie webowym
§ Lokalny plik, URL § Różnorodność formatów
§ txt – różnorodne kodowanie znaków § doc, docx (pptx, xlslx), odt, rtf, html, pdf § zip
§ Uprzednie załadowanie plików do repozytorium – zalecane § Identyfikacja poprzez trwały identyfikator § Wstępnie przetworzone
§ Zasoby obliczeniowe są zawsze ograniczone
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi sieciowe - chmura prywatna
§ Zalety § Konsolidacja serwerów § Elastyczne wykorzystanie zasobów § Ułatwione zarządzanie wieloma
serwerami § Zwiększenie niezawodności § Szybkie tworzenie nowych środowisk
testowych i deweloperskich § Zapewnienie ciągłości działania
§ Problemy § Przetwarzanie NLP jest zasobożerne § Źle współdzielone zasoby
§ pamięć § przepustowość sieci/dysków
§ Sposób przetwarzania: centralizacja, przetwarzanie na żądanie
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL