la dimensione#quan-ta-va#delle# lingue · • gammes#sténographiques(1907) • si individuaper!...

23
La dimensione quan-ta-va delle lingue Sta%s%ca linguis%ca, linguis%ca matema%ca, psicolinguis%ca Chiari, I. (2007), Introduzione alla linguis-ca computazionale, Laterza, Bari.

Upload: others

Post on 02-Sep-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

La  dimensione  quan-ta-va  delle  lingue  

Sta%s%ca  linguis%ca,  linguis%ca  matema%ca,  psicolinguis%ca  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

Pluralità  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

linguis%ca  quan%ta%va  approcci  logico-­‐matema%ci    

mirano  a  fornire  modelli  matema%ci  del  funzionamento  

delle  lingue  

approcci  sta%s%ci  

mirano  all’estrazione  di  regolarità  sta%s%che  da  grandi  quan%tà  di  raccolte  testuali  

approcci  di  %po  psicolinguis%co    

intendono  soFolineare  il  ruolo  dei  processi  probabilis%ci  nell’apprendimento,  nella  produzione  e  nella  ricezione  

linguis%ca  

greci  e  romani    

•  comportamento  peculiare  delle  parole  cosiddeFe  «di  alto    uso»  e  di  quelle  rare  o  uniche  in  un  testo  (hapax  legomena).    

1.  Approccio  di  %po  logico-­‐matema%co  Linguis%ca  matema%ca  •  obieMvi  di  %po  modellis%co  e  prediMvo  •  individuare  modelli  e  rappresentazioni  matema%che  delle  struFure  linguis%che  a  diversi  livelli    

•  strumen%  di  %po  algebrico  

Esponen(  (a  diversi  livelli)  •  Solomon  Marcus    •  Igor  Mel’chuk    •  Zellig  S.  Harris  • Noam  Chomsky  • Maurice  Gross  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

•  Tre  sono  le  sue  principali  direzioni:  1)  lo  studio  della  struFura  delle  categorie  gramma%cali;  2)    la  definizione  di  classi  e  di  relazioni  tra  oggeM  linguis%ci  (modelli  anali%ci  del  linguaggio);  3)  la  definizione  delle  cosiddeFe  gramma%che  formali  (cfr.  Gladkij  2002).    

•  Diversi  fenomeni  linguis%ci  tuFavia  meFono  a  dura  prova  la  formalizzabilità,  matema%zzazione,  calcolabilità  e  rappresentabilità  delle  lingue  mediante  regole    

•  C’è  da  soFolineare  inoltre  che  l’approccio  della  linguis%ca  matema%ca  è  non-­‐quan-ta-vo,  esaFamente  come  l’algebra,  a  differenza  della  prospeMva  che  diremo  della  sta%s%ca  linguis%ca.    

•  Questo  significa  che  la  matema%ca  è  presa  come  modello  per  il  formalismo  che  descrive  le  gramma%che,  permeFendo  non  solo  di  descrivere  i  tes%  delle  lingue,  ma  il  loro  più  interno  struFurarsi  in  gramma%che,  che  definiscono  ciò  che  è  e  ciò  che  non  è  lingua.  A  interessare  è  la  struFura  formale  della  lingua,  ossia  del  sistema,  non  dei  tes%    

2.  Approccio  di  %po  sta%s%co  Sta%s%ca  linguis%ca  o  linguis%ca  probabilis%ca  • obieMvi  di  %po  sta%s%co-­‐descriMvo  • par%colare  aFenzione  al  lessico    • maggiore  aFenzione  alle  realtà  testuali    

Esponen(  principali  • George  K.  Zipf  • Benoit  Mandelbrot  • Pierre  Guiraud  • Charles  Muller  • Gustav  Herdan  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

Il  contributo  degli  stenografi  Jean-­‐Bap%ste  Estoup  •  Gammes  sténographiques  (1907)  •  si  individua  per  la  prima  volta  la  legge  che  lega  la  frequenza  al  rango  di  una  parola  e  si  definisce  la  centralità  della  nozione  di  rango  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

George  K.  Zipf  •  (1902-­‐1950)  • «filologia  dinamica»  • principio  del  minimo  sfo  • Legge  di  Zipf-­‐Estoup  • prodoFo  della  frequenza  di  una  parola  per  il  suo  rango  sia  tendenzialmente  costante  

•  La  linguis%ca  ha  raccolto  queste  eredità  a  par%re  dalla  Scuola  di  Praga  negli  anni  Trenta  del  Novecento  con  studi  sulla  fonologia  sta%s%ca  e  sul  lessico    

•  In  questa  prospeMva  l’obieMvo  è  l’approssimazione  alle  concrete  produzioni  testuali,  anche  leFerarie,  con  l’ambizione  di  coglierne  il  profilo  linguis%co  e  s%lis%co.  Il  nucleo  è  l’individuazione  di  tendenze  e  regolarità,  in  modo  induMvo  e  quan%ta%vo,  e  non  regole  (deduMve).    

•  sceondo  uno  sutdio  dell'uvinesrita  di  Cmabrigde,  l'odrine  delle  lCeree  in  una  praloa  non  ipmrota,  'uinca  csoa  che  h  ipmrotatne  h  che  la  pirma  e  l'utlima  saino  al  psoto  guisto.  il  rseto  puo  eresse  in  un  dsiodrine  Coale  e  ptotete  smepre  lggeree  sneza  porlbemi.  E  preche  il  crevlleo  uamno  non  lggee  ongi  lCerea  da  sloa,  ma  la  proala  cmoe  un  isneime.    

!

cloze  •  _L  /  L_NG_  _GG_  _  /  _  /  G_V_RN_T_  /  D_LL_  /  PR_B_B_L_T_  (italiano)  

•  Dimen%cavo  di  dire  che  (1)_______  signora  Teresa  ha  avuto  (2)_______  bella  idea  di  presentarmi  (3)____________  suoi  paren%,  facendomi  passare  (4)_______  un  suo  nipote  “ospite  (5)_______  di  lei  per  un  (6)_______  periodo  di  convalescenza,”    

•  Una  strufia  dutra  ha  scriciato  predumente  un  ciutro  e  parpa  un  ciutrino  

La  struFura  sta%s%ca  del  vocabolario  

Pierre  Guiraud  •  Les  caractères  sta-s-ques  du  vocabulaire,  1954)  

La  copertura  sta(s(ca  dei  tes(  • poche,  pochissime  parole  coprono  una  percentuale  al%ssima  della  maggioranza  dei  tes%  

•  le  prime  100  coprono  circa  il  60%,  le  prime  1000  circa  l’85%  •  con  una  serie  di  variazioni  in  dipendenza  dall’ampiezza  del  testo,  della  ricchezza  del  vocabolario  e  della  %pologia  testuale  

•  grandissimo  numero  di  parole  registrate  nei  comuni  vocabolari  che  sono  rare,  rarissime,  o  hapax  

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

Isabella  Chiari  -­‐  Lingua,  sta%s%ca  e  computazione  (2005)  

La  struFura  sta%s%ca  del  lessico  

•  Zipf,  Guiraud,  Muller,  Herdan    •  Lessici  di  frequenza  –  Kaeding  (1897)  Thorndike  (1921,  1931-­‐32)  Vander  Beke  (1930)  Kučera  e  Francis  (1967)    

–  Italiano:  LIF  -­‐  (1971)  LIP  (1993)    •  I  dizionari  fondamentali    •  Il  Vocabolario  di  base  –  Italiano:  De  Mauro  (1980)    

•  GloFocronologia  (Swadesh)  

 

 

Il  VdB  

•  Il  vocabolario  di  base  della  lingua  italiana  (cfr.  De  Mauro  1980),  ad  esempio,  con%ene  nella  sua  fascia  più  interna,  il  vocabolario  fondamentale,  2.000  parole  che  coprono  circa  il  90%  delle  occorrenze  di  un  qualunque  testo  scriFo  o  discorso  parlato.    

Il  Nuovo  Vocabolario  di  Base  dell’Italiano  

•  De  Mauro,  1980  (Guida  all’uso  delle  parole)  –  FO  –  vocabolario  fondamentale  

•  (basato  sull’uso  –  frequenza  x  dispersione,  top  2.000)  –  AU  –  alto  uso  

•  (basato  sull’uso,  le  seguen%  3.000)  –  AD  –  alta  disponibilità  

•  (su  base  sperimentale,  ca.  2.000)  –  Circa  7.000  lessemi  con  una  copertura  testuale  tra  l’80%  e  il  98%    

•  De  Mauro,  1999-­‐2007  (Grande  Dizionario  Italiano  dell’uso,  GRADIT)  –  8  voll.,  ca.  360.000  lemmi  

•  Chiari  /  De  Mauro,  2014  (Nuovo  Vocabolario  di  Base  della  lingua  italiana)  

Chiari,  I.  2014:  Firenze  "Lessico  e  Banche  da%"  

CaraFeris%che  tradizionali  VDB  (1980)-­‐NVDB(2014)  

Vocabolario  di  base  

ObieMvi  didaMci  ObieMvi  

lessicologici  

rendere  conto  del  diverso  

comportamento  delle  unità  nei  tes%  e  

nell’uso  (anche  endofasico)  

Rendere  conto  del  mutamento  nell’uso  

dagli  anni  Cinquanta  ad  oggi  

ObieMvi  regola%vi  (is%tuzionali)  

Chiari,  I.  2014:  Firenze  "Lessico  e  Banche  da%"  

La  copertura  testuale  del  (FO)  

Chiari,  I.  2014:  Firenze  "Lessico  e  Banche  da%"  

76,00  

78,00  

80,00  

82,00  

84,00  

86,00  

88,00  

90,00  

92,00  

COP.TOT   ST.COP   SAGG.COP   LETT.COP   SPETT.COP   CMC.COP   PARL.COP  

86,38  

84,15  

81,51  

86,96  88,56  

85,98  

91,12  

Le  coperture  del  vocabolario  FO  

Altri  temi  di  linguis%ca  sta%s%ca  

•  la  scelta  lessicale  e    la  sua  omogeneità,  la  valutazione  della  leggibilità,  la  relazione  tra  lunghezza  delle  parole  o  delle  frasi  e  quella  testo,  concentrazione  delle  frequenze  lessicali,  la  comparazione  %pologica  tra  lingue  diverse  in  tes%  simili,  s%lometria  forense    

•  alla  misura  e  valutazione  della  ricchezza  del  vocabolario    

•  La  posizione  della  sta%s%ca  linguis%ca  è  generalmente  di  %po  descriMvo    

•  Poiché  la  sta%s%ca  linguis%ca  estrae  regolarità  dai  tes%,  essa  ha  bisogno  di  poter  accedere  a  vas%ssime  quan%tà  di  materiale  testuale  e  si  associa  quindi,  pur  non  iden%ficandovisi  con  la  linguis-ca  dei  corpora    

3.  Approccio  di  %po  psicolinguis%co  soFolinea  come  l’interiorizzazione  dei  faFori  sta%s%ci  giochi  un  ruolo:  • nella  performance  linguis%ca  a  livello  sia  di  produzione  sia  di  comprensione  

• nella  fonologia,  fonotassi  • nell’accesso  al  lessico  • nei  meccanismi  di  leFura  e  scriFura  • nell’apprendimento  della  lingua  materna  e  delle  seconde  lingue    

Chiari,  I.  (2007),  Introduzione  alla  linguis-ca  computazionale,  Laterza,  Bari.  

•  Si  soFolinea  dunque  la  centralità  dell’interiorizzazione  dei  faFori  sta%s%ci  nella  performance  linguis%ca  (produMva  e  riceMva),  in  fonologia,  fonotassi,  accesso  al  lessico,  ma  anche  nei  meccanismi  di  leFura  e  scriFura  e  nell’apprendimento  della  lingua  materna  e  delle  seconde  lingue.    

•  La  centralità  di  questa  dimensione  è  efficacemente  riassunta  da  Nick  Ellis:  «Frequency  is  thus  a  key  determinant  of  acquisi%on  because  “rules”  of  language,  at  all  levels  of  analysis  (from  phonology,  through  syntax,  to  discourse),  are  structural  regulari%es  that  emerge  from  learners’  life%me  analysis  of  the  distribu%onal  characteris%cs  of  the  language  input»  (cfr.  Ellis  2002a:  p.  144).  

•  L’approccio  psicolinguis%co  si  focalizza  sui  momen%  di  acquisizione  e  apprendimento  e  sulle  fasi  di  processamento  del  materiale  linguis%co  in  produzione  e  ricezione.    

•  A  differenza  degli  orientamen%  precedentemente  descriM  è  centrato  più  direFamente  sull’utente  (parlante  e  ascoltatore)  come  soggeFo  che  usa  in  maniera  più  o  meno  consapevole  informazioni  sulle  frequenze  ricavate  aFraverso  la  sua  esperienza.    

•  Si  traFa  di  una  prospeMva  sopraFuFo  indagata  da  psicologi  del  linguaggio,  linguis%  cogni%vi,  neuropsichiatri  mediante  osservazioni  di  %po  sperimentale