la lingua di wikipedia

18
Prove di analisi testuale 14/10/2014 Viola Guerrini

Upload: viola-guerrini

Post on 29-Jan-2018

200 views

Category:

Presentations & Public Speaking


1 download

TRANSCRIPT

Prove di analisi testuale

14/10/2014 Viola Guerrini

Un insieme di testi orali o scritti che permettono di arrivare all’uso e alla frequenza di determinati termini o

forme linguistiche.

Poiché era piùdifficile l’analisi

Più piccoli

DOPOla digitalizzazione

I corpora vengonodigitalizzate

Padre Busa pioniere della linguistica italianafonda il centro dell’Automatizzazione

dell’Analisi Linguistica di Gallarate

PRIMA delladigitalizzazione

Aumentano le dimensioni

Preferito il formato.txt

Standard XML si possono condividere i marcatori del testo.

Contenuto delle annotazioni

Formato con cui i file vengono standardizzati

Modalità annotative

Autenticità dei corporacomunicative monitorate

Situazioni

Grandezza dei corpora

Tipo di ricerca chesi vuole fare

etempo a

disposizione

PROBLEMA IN FASE DIINFORMATIZZAZIONE

Insieme di parole divise da interpunzione e spazi

“DELL’ ALTRO” o “QUEST’ULTIMO”

1 o 2 parole?

• È stato selezionato il corpus daWikipedia

• È formato da 100 voci suddivise in 10categorie

• Le voci sono state selezionate tra gennaio esettembre 2014

• È basato sullo studio di Elia (2006)

Scienza sociali e società

Religione

Filosofia e pensieri

Biografia

Matematica e astrazione

Storia ed eventi

Benessere e salute

Geografia e luoghi

Biografia

Arte e cultura

Tecnologia e scienze applicate

ARTE BIOGRAFIA CULTURA SOCIETÀ GEOGRAFIA

Cinemascopio BeatlesDiaspora Alcolismo Barcellona

ColosseoBenjamin Franklin

Fiaba EuroTriangolo delle Bermuda

Graffiti Bill Gates Bandiera FemminismoDeserto del Gobi

OlografiaAlbert Einstein

Geisha OmosessualitàIdrografia

ProscenioFred Astaire Danza Jazz Suffragio delle donne

Himalaya

JazzJames Dean

Pizza Povertà Ischia

MadonnaKarl Marx

Romanticismo Razzismo Londra

PolkaAdam Smith

Superstizione TamilPiccadilly Circus

U2Vittorio Alfieri Tè

TerrorismoSan Josè

Rosa dei venti Cristoforo Colombo Walt DisneyZulu Tempo

STORIA MATEMATICA FILOSOFIA SCIENZE TECNOLOGIA

Anna Frank Boolean algebra Agnostico AIDS Palloncino

Azteco Teoria delle catastrofi Aristotele Big Bang Benzina

S. Berlusconi Crittografia F. Bacone Cuore Internet

Tony Blair Teoria di Graph Epistemologia Neurone Jet Engine

Brit. East. India. C Matrix M. Foucault Bomba nucleare Microprocessore

Rosa dei venti Analisi numerica Scuola di Francoforte Polmonite Microsoft

Ku Klux Klan Teorema di Pitagora Filosofia della mente Royal Astrnautal Society Radar

Garibaldi Numeri Quantum Scetticismo Sars Macchina da scrivere

Rivoluzione Francese Numeri reali Thomas Huxley Energia solare Realtà virtuale

George Bush Vettori Wittgenstein Turchese World Wide Web

Il corpus selezionato è stato ripulito(didascalie, fotografie, indici, citazioni, ecc).

I testi sono stati convertiti da documenti worda .txt unicode (UTF-8)

Tramite il software (T-lab 9.1) sono stati analizzati i contenuti delle voci

Esempio: verbi, sostantivi Esempio: articoli, preposizioni

Hanno un significato anche al di fuoridella struttura della frase.

Termini il cui contenuto semantico si riduce solo alla loro funzione

strutturale all’interno della frase.

PAROLE PIENE PAROLE VUOTE

Rapporto tra il numero di parole piene e il

numero di parole totali

0,46

Il numero di parole totale della voce è:

2740tokens.

Il numero di parole piene è:

1274.

Applicando la formula avremo

80%

70%

60%

50%

40%

30%

20%

10%

0%

FILOSOFIA MATEMATICA SOCIETA' STORIA GEOGRAFIA BIOGRAFIA TECNOLOGIA ARTE CULTURA SCIENZE

de

nsi

tà le

ssic

ale

Densità lessicale media delle categorie

Densità lessicale Italiano Densità lessicale Inglese

0%

10%

20%

30%

40%

50%

60%

70%

80%

Wikipedia Treccani

de

nsi

tàle

ssic

ale

GRAFFITISMO

• Densità lessicale italiano

• Valore massimo

58,22 % (TURCHESE)

• Valore minimo

47,07 % (ALGEBRA DI BOOLE)

• Valore medio

52,49 %

• Scostamento massimo

11,15 %

• Densità lessicale inglese

• Valore massimo

74,8 % (PIZZA)

• Valore minimo

23,8 % (EPISTEMOLOGIA)

• Valore medio

43,5 %

• Scostamento massimo

51 %

• Per quanto riguarda la D.L.l’inglese rispettoall’italiano ha una variabilemaggiore.

• Il confronto interno tra le variecategorie ci hanno dimostratoche non c’è una sostanziale differenza tra le categorieumanistiche e quelle scientifiche

• Treccani contrariamente a quello supposto ha una D.L. inferiore rispetto aWikipedia.