slides presentazione lemlat lisbona presentazione lemlat lisbona.pdf · o l i s s i p o (omnis...

26
O L I S S I P O (Omnis Latinitatis Instrumentum Secundum Scholarum Instructionis Propositum Ordinatum) OLISSIPO è un progetto comune di ricerca inserito negli accordi scientifici tra il Consiglio Nazionale delle Ricerche (CNR) e il Gabinete de Relações Internacionais da Ciência E Ensino Superior (GRICES). OLISSIPO è uno strumento per l’estrazione e l’analisi statistica di un vocabolario di base del latino

Upload: others

Post on 20-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

O L I S S I P O(Omnis Latinitatis Instrumentum Secundum Scholarum Instructionis Propositum Ordinatum)

OLISSIPO è un progetto comune di ricerca inserito negli accordi scientificitra il Consiglio Nazionale delle Ricerche (CNR) e il Gabinete de RelaçõesInternacionais da Ciência E Ensino Superior (GRICES).

OLISSIPO è uno strumento per l’estrazione e l’analisi statistica di un vocabolario di base del latino

2

3

pulsanti scelta funzioni

1 2 3 4 5 6 7 8

• 1 - seleziona il testo: serve per scegliere il testo da analizzare;• 2 - analisi: per effettuare le elaborazioni del testo scelto;• 3 - risultati: per visualizzare i risultati dell’elaborazione;• 4 - ricerca per forma: per effettuare ricerche nel testo utilizzando la forma;• 5 - ricerca per lemma: per effettuare ricerche nel testo utilizzando il lemma;• 6 - statistiche: visualizza le semplici statistiche fornite dal programma;• 7 - lessico: serve per modificare le informazioni contenute nella base di dati;• 8 - vocabolario basico: serve per aggiornare il vocabolario basico .

4

finestra analisi• Consulta un formario costituito dacirca 1800 entrate corrispondenti allalista di lemmi compresi in Habesteinet al. (1970) e a quelli con più disessanta occorrenze presenti nellostudio statistico di Delatte et al.(1981).• è possibile scegliere un proprioformario• si possono visualizzare i risultatisullo schermo per un primo controllo• si può utilizzare il programma dietichettatura morfologica LEMLATin modalità interattiva.

5

ricerca per forma

6

Colorazione degli elementi basici della frase

7

statistiche

8

creazione e aggiornamentovocabolario basico

L’analizzatore morfologicoper il latino

LEMLATSviluppo e prospettive

10

Progetto CHLT

• Finanziato dalla CE e dalla NSF USA• Fine: sviluppo di strumenti computazionali per la

gestione e la fruizione di dati linguistici relativiall’eredità culturale europea (digital libraries)

• Workpackage 5.– ILC – CNR, Pisa– Fine: analizzatore morfologico del latino– Mezzo: analizzatore LEMLAT; sviluppo di nuove

funzioni

LEMLATBrevetto C.N.R.

ILC – Università di TorinoAndrea Bozzi, Giuseppe Cappelli, Nino Marinone

12

La base lessicale di LEMLAT

• Dizionari collazionati– Georges– Gradenwitz– Oxford Latin Dictionary

• Numero di entrate:– 64218 LES

(parte invariabile di una forma flessa)

13

L’analisi morfologica di LEMLAT

Lo sviluppo diLEMLAT

15

Cosa bisogna fare

• Aggiungere sull’output– Nuove informazioni morfologiche

aquai• LEMLAT: aqu-ai (forma segm.), aqua (lemma), n1 (COD LEM)• CHLT LEMLAT: aqua (lemma)

Common, Noun, I Decl., Gen., Sing., Fem.

– Nuove informazioni stilistiche e storico-linguisticheaquai• CHLT LEMLAT: aqua (lemma)

Common, Noun, I Decl., Gen., Sing., Fem., Poetic., Arch.

16

Come facciamo• Segmentazione della parola• Codifica degli elementi costitutivi della parola (LES, SM,

SF) come portatori delle informazioni morfologiche• Esempio

– Input: rosam– Segmentazione: ros-am– LES: ros n1, (femminile)– SF: am N1 acc., sing.– Output:

rosa (lemma);nome comune, I decl., acc., sing., femm.

17

Posizioni dei codici e attributi====== ==================Code P ATTRIBUTE====== ==================1 PoS2 Type3 Flexive Category4 Mood5 Tense6 Case7 Gender8 Number9 Person10 Degree

18

Terza posizione: valori e codici= ===================== ===================== =P ATTRIBUTE VALUE C= ===================== ===================== =3 Flexive Category I decl. A II decl. B III decl. C IV decl. D V decl. E I conjug. F II conjug. G III conjug. H IV conjug. L Conjug e/i M Exceptional Conjug. N No Flexive Category -

19

Esempi di codifica di SFa n1 NcA--bfs-- ros-aa n1 NcA--bms-- pirat-aa n1 NcA--nfs-- ros-aa n1 NcA--nms-- pirat-aa n1 NcA--vfs-- ros-aa n1 NcA--vms-- pirat-aa n1e NcA--bfs-- plastic-aa n1e NcA--bms-- poet-aa n1e NcA--nfs-- plastic-aa n1e NcA--nms-- poet-aa n1e NcA--vfs-- plastic-aa n1e NcA--vms-- poet-aabus n1e NcA--bfp-- de-abusabus n1e NcA--dfp-- de-abus

20

L’attuale analisi morfologica di LEMLAT http://webilc.ilc.cnr.it/~ruffolo/

21

22

Prospettive

• Disambiguatore sintattico delle omografie(LECTIO)

• Latin Lexical Database• Analizzatore della struttura metrica• Modulo in una postazione filologica

multimodulare per edizioni critiche digitali• Famiglie morfologiche e semantiche• …

23

Lectio (2003-2005)

Centro de Estudos Clássicos (Univ. de Lisboa) – Istituto diLinguistica Computazionale (CNR-Pisa)

Financiamento: FCT, Programa AlfaData de início: 1 de Fevereiro de 2003

24

Lematizador automático da língua latina anexo a uma base dedados contendo informação lexical e outra.

Extracção e disponibilização de listagens de vocabulário básico apartir de qualquer texto latino.

Módulo de estatísticas por categoria morfológica configurável peloutilizador.

Visualização do texto e possibilidade de pesquisa de ocorrênciaspor forma ou por sequência de caracteres, com busca de palavra/lema no texto.

Gerador de concordâncias de configuração a definir pelo utilizador.

Corpus de referência de autores hispânicos mediolatinos de interessepara o actual território português

25

Os princípios básicos serão:

1. Multifuncionalidade. A aplicação destinar-se-á tanto àinvestigação, como ao ensino/aprendizagem (docentes ediscentes).

2. Modularidade. Mediante os módulos pretendidos assim seadaptará às necessidades de cada utilizador.

3. Sistema aberto. O utilizador poderá configurar os níveis deinformação proporcionados pela aplicação de acordocom as suas necessidades.

26

Resultado Final:

Ferramenta assumidamente aberta, com a qual o utilizador possaelaborar as suas próprias análises textuais e estatísticas dos textos,reformular ou mesmo reconstituir a base de dados lexicais proposta,estabelecer os seus próprios elementos extra-linguísticos e ampliar ocorpus de referência.