la dimensione#quan-ta-va#delle# lingue · • gammes#sténographiques(1907) • si individuaper!...
TRANSCRIPT
La dimensione quan-ta-va delle lingue
Sta%s%ca linguis%ca, linguis%ca matema%ca, psicolinguis%ca
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
Pluralità
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
linguis%ca quan%ta%va approcci logico-‐matema%ci
mirano a fornire modelli matema%ci del funzionamento
delle lingue
approcci sta%s%ci
mirano all’estrazione di regolarità sta%s%che da grandi quan%tà di raccolte testuali
approcci di %po psicolinguis%co
intendono soFolineare il ruolo dei processi probabilis%ci nell’apprendimento, nella produzione e nella ricezione
linguis%ca
greci e romani
• comportamento peculiare delle parole cosiddeFe «di alto uso» e di quelle rare o uniche in un testo (hapax legomena).
1. Approccio di %po logico-‐matema%co Linguis%ca matema%ca • obieMvi di %po modellis%co e prediMvo • individuare modelli e rappresentazioni matema%che delle struFure linguis%che a diversi livelli
• strumen% di %po algebrico
Esponen( (a diversi livelli) • Solomon Marcus • Igor Mel’chuk • Zellig S. Harris • Noam Chomsky • Maurice Gross
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
• Tre sono le sue principali direzioni: 1) lo studio della struFura delle categorie gramma%cali; 2) la definizione di classi e di relazioni tra oggeM linguis%ci (modelli anali%ci del linguaggio); 3) la definizione delle cosiddeFe gramma%che formali (cfr. Gladkij 2002).
• Diversi fenomeni linguis%ci tuFavia meFono a dura prova la formalizzabilità, matema%zzazione, calcolabilità e rappresentabilità delle lingue mediante regole
• C’è da soFolineare inoltre che l’approccio della linguis%ca matema%ca è non-‐quan-ta-vo, esaFamente come l’algebra, a differenza della prospeMva che diremo della sta%s%ca linguis%ca.
• Questo significa che la matema%ca è presa come modello per il formalismo che descrive le gramma%che, permeFendo non solo di descrivere i tes% delle lingue, ma il loro più interno struFurarsi in gramma%che, che definiscono ciò che è e ciò che non è lingua. A interessare è la struFura formale della lingua, ossia del sistema, non dei tes%
2. Approccio di %po sta%s%co Sta%s%ca linguis%ca o linguis%ca probabilis%ca • obieMvi di %po sta%s%co-‐descriMvo • par%colare aFenzione al lessico • maggiore aFenzione alle realtà testuali
Esponen( principali • George K. Zipf • Benoit Mandelbrot • Pierre Guiraud • Charles Muller • Gustav Herdan
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
Il contributo degli stenografi Jean-‐Bap%ste Estoup • Gammes sténographiques (1907) • si individua per la prima volta la legge che lega la frequenza al rango di una parola e si definisce la centralità della nozione di rango
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
George K. Zipf • (1902-‐1950) • «filologia dinamica» • principio del minimo sfo • Legge di Zipf-‐Estoup • prodoFo della frequenza di una parola per il suo rango sia tendenzialmente costante
• La linguis%ca ha raccolto queste eredità a par%re dalla Scuola di Praga negli anni Trenta del Novecento con studi sulla fonologia sta%s%ca e sul lessico
• In questa prospeMva l’obieMvo è l’approssimazione alle concrete produzioni testuali, anche leFerarie, con l’ambizione di coglierne il profilo linguis%co e s%lis%co. Il nucleo è l’individuazione di tendenze e regolarità, in modo induMvo e quan%ta%vo, e non regole (deduMve).
• sceondo uno sutdio dell'uvinesrita di Cmabrigde, l'odrine delle lCeree in una praloa non ipmrota, 'uinca csoa che h ipmrotatne h che la pirma e l'utlima saino al psoto guisto. il rseto puo eresse in un dsiodrine Coale e ptotete smepre lggeree sneza porlbemi. E preche il crevlleo uamno non lggee ongi lCerea da sloa, ma la proala cmoe un isneime.
cloze • _L / L_NG_ _GG_ _ / _ / G_V_RN_T_ / D_LL_ / PR_B_B_L_T_ (italiano)
• Dimen%cavo di dire che (1)_______ signora Teresa ha avuto (2)_______ bella idea di presentarmi (3)____________ suoi paren%, facendomi passare (4)_______ un suo nipote “ospite (5)_______ di lei per un (6)_______ periodo di convalescenza,”
• Una strufia dutra ha scriciato predumente un ciutro e parpa un ciutrino
La struFura sta%s%ca del vocabolario
Pierre Guiraud • Les caractères sta-s-ques du vocabulaire, 1954)
La copertura sta(s(ca dei tes( • poche, pochissime parole coprono una percentuale al%ssima della maggioranza dei tes%
• le prime 100 coprono circa il 60%, le prime 1000 circa l’85% • con una serie di variazioni in dipendenza dall’ampiezza del testo, della ricchezza del vocabolario e della %pologia testuale
• grandissimo numero di parole registrate nei comuni vocabolari che sono rare, rarissime, o hapax
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
Isabella Chiari -‐ Lingua, sta%s%ca e computazione (2005)
La struFura sta%s%ca del lessico
• Zipf, Guiraud, Muller, Herdan • Lessici di frequenza – Kaeding (1897) Thorndike (1921, 1931-‐32) Vander Beke (1930) Kučera e Francis (1967)
– Italiano: LIF -‐ (1971) LIP (1993) • I dizionari fondamentali • Il Vocabolario di base – Italiano: De Mauro (1980)
• GloFocronologia (Swadesh)
Il VdB
• Il vocabolario di base della lingua italiana (cfr. De Mauro 1980), ad esempio, con%ene nella sua fascia più interna, il vocabolario fondamentale, 2.000 parole che coprono circa il 90% delle occorrenze di un qualunque testo scriFo o discorso parlato.
Il Nuovo Vocabolario di Base dell’Italiano
• De Mauro, 1980 (Guida all’uso delle parole) – FO – vocabolario fondamentale
• (basato sull’uso – frequenza x dispersione, top 2.000) – AU – alto uso
• (basato sull’uso, le seguen% 3.000) – AD – alta disponibilità
• (su base sperimentale, ca. 2.000) – Circa 7.000 lessemi con una copertura testuale tra l’80% e il 98%
• De Mauro, 1999-‐2007 (Grande Dizionario Italiano dell’uso, GRADIT) – 8 voll., ca. 360.000 lemmi
• Chiari / De Mauro, 2014 (Nuovo Vocabolario di Base della lingua italiana)
Chiari, I. 2014: Firenze "Lessico e Banche da%"
CaraFeris%che tradizionali VDB (1980)-‐NVDB(2014)
Vocabolario di base
ObieMvi didaMci ObieMvi
lessicologici
rendere conto del diverso
comportamento delle unità nei tes% e
nell’uso (anche endofasico)
Rendere conto del mutamento nell’uso
dagli anni Cinquanta ad oggi
ObieMvi regola%vi (is%tuzionali)
Chiari, I. 2014: Firenze "Lessico e Banche da%"
La copertura testuale del (FO)
Chiari, I. 2014: Firenze "Lessico e Banche da%"
76,00
78,00
80,00
82,00
84,00
86,00
88,00
90,00
92,00
COP.TOT ST.COP SAGG.COP LETT.COP SPETT.COP CMC.COP PARL.COP
86,38
84,15
81,51
86,96 88,56
85,98
91,12
Le coperture del vocabolario FO
Altri temi di linguis%ca sta%s%ca
• la scelta lessicale e la sua omogeneità, la valutazione della leggibilità, la relazione tra lunghezza delle parole o delle frasi e quella testo, concentrazione delle frequenze lessicali, la comparazione %pologica tra lingue diverse in tes% simili, s%lometria forense
• alla misura e valutazione della ricchezza del vocabolario
• La posizione della sta%s%ca linguis%ca è generalmente di %po descriMvo
• Poiché la sta%s%ca linguis%ca estrae regolarità dai tes%, essa ha bisogno di poter accedere a vas%ssime quan%tà di materiale testuale e si associa quindi, pur non iden%ficandovisi con la linguis-ca dei corpora
3. Approccio di %po psicolinguis%co soFolinea come l’interiorizzazione dei faFori sta%s%ci giochi un ruolo: • nella performance linguis%ca a livello sia di produzione sia di comprensione
• nella fonologia, fonotassi • nell’accesso al lessico • nei meccanismi di leFura e scriFura • nell’apprendimento della lingua materna e delle seconde lingue
Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.
• Si soFolinea dunque la centralità dell’interiorizzazione dei faFori sta%s%ci nella performance linguis%ca (produMva e riceMva), in fonologia, fonotassi, accesso al lessico, ma anche nei meccanismi di leFura e scriFura e nell’apprendimento della lingua materna e delle seconde lingue.
• La centralità di questa dimensione è efficacemente riassunta da Nick Ellis: «Frequency is thus a key determinant of acquisi%on because “rules” of language, at all levels of analysis (from phonology, through syntax, to discourse), are structural regulari%es that emerge from learners’ life%me analysis of the distribu%onal characteris%cs of the language input» (cfr. Ellis 2002a: p. 144).
• L’approccio psicolinguis%co si focalizza sui momen% di acquisizione e apprendimento e sulle fasi di processamento del materiale linguis%co in produzione e ricezione.
• A differenza degli orientamen% precedentemente descriM è centrato più direFamente sull’utente (parlante e ascoltatore) come soggeFo che usa in maniera più o meno consapevole informazioni sulle frequenze ricavate aFraverso la sua esperienza.
• Si traFa di una prospeMva sopraFuFo indagata da psicologi del linguaggio, linguis% cogni%vi, neuropsichiatri mediante osservazioni di %po sperimentale