wizard grafico una guida alla visualizzazione dei dati wizard... · istogramma) relativo al...

61
Wizard Grafico Una guida alla visualizzazione dei dati numerici

Upload: hanga

Post on 24-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Wizard Grafico

Una guida alla visualizzazione dei dati numerici

Wizard Grafico Introduzione (1)

Lrsquoidea allrsquoorigine della realizzazione di questo Wizard Grafico egrave nata dalla lettura di un post pubblicato da Amit Agarwal sul suo blog Digital Inspiration dal titolo ldquoHow to Find the Right Chart Type for your Numeric Datardquo in cui egrave riportato un semplice ma ingegnoso diagramma da lui ideato Si tratta di uno schema che ha la funzione di suggerire il tipo di grafico piugrave adatto sulla base dei dati a disposizione e del particolare scopo rappresentativo Lo schema ha origine da una domanda centrale

Cosa desideri mostrare

Il Wizard Grafico egrave chiaramente ispirato al diagramma di Agarwal ed intende rappresentare un primo tentativo drsquoideazione di un metodo applicabile ai piugrave moderni strumenti di consultazione dellrsquoinformazione (tablet mobile device ecc) e allo stesso tempo conduca lrsquoutilizzatore attraverso un facile accesso ad argomenti decisamente tecnici Naturalmente gran parte dellrsquoefficacia del diagramma di Agarwal risiede nellrsquoestrema capacitagrave di sintesi caratteristica che accumuna molti dei prodotti della moderna arte dellrsquoinfografica

Il Wizard Grafico egrave stato studiato per rispondere ad una seconda e a una terza domanda centrale La seconda domanda centrale ha in realtagrave la funzione di arricchirecompletare lrsquoinformazione fornita dal diagramma di Agarwal Supponiamo ad esempio che allrsquoutilizzatore sia stato suggerito drsquoimpiegare un grafico a torta A questo punto la seconda domanda centrale saragrave

Cosrsquoegrave un grafico a torta

Wizard Grafico Introduzione (2)

Tuttavia il principale scopo del Wizard Grafico egrave rispondere alla terza domanda centrale che sulla base dellrsquoesempio a cui abbiamo accennato in precedenza saragrave

Come posso costruire un grafico a torta

La risposta a questo quesito rappresenta per me il vero motivo per cui egrave stato realizzato il Wizard Grafico Se da un lato egrave stato necessario individuare un metodo per guidare lrsquoutilizzatore attraverso il percorso logico per la scelta del grafico piugrave adatto ai propri scopi dallrsquoaltro lato il Wizard Grafico si propone di suggerire alcuni degli strumenti utilizzabili per realizzare il grafico desiderato

Alla base delle scelta degli strumenti suggeriti vi egrave la precisa intenzione di limitare le opzioni ai soli software basati sul web (web based) La proliferazione di piattaforme web che offrono la possibilitagrave di creare rappresentazioni grafiche e statistiche di alta qualitagrave egrave tale da consentire ormai a chiunque di ottenere visualizzazioni di base e complesse con pochi clic e senza spendere un euro in costose licenze di utilizzo Inoltre tali strumenti web per funzionare appoggiano spesso su interfacce per lrsquoinserimento dati (data entry) altrettanto agevoli da utilizzare e anchrsquoesse basate sul web

Wizard Grafico Introduzione (3)

Wizard Grafico Grafici base

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Introduzione (1)

Lrsquoidea allrsquoorigine della realizzazione di questo Wizard Grafico egrave nata dalla lettura di un post pubblicato da Amit Agarwal sul suo blog Digital Inspiration dal titolo ldquoHow to Find the Right Chart Type for your Numeric Datardquo in cui egrave riportato un semplice ma ingegnoso diagramma da lui ideato Si tratta di uno schema che ha la funzione di suggerire il tipo di grafico piugrave adatto sulla base dei dati a disposizione e del particolare scopo rappresentativo Lo schema ha origine da una domanda centrale

Cosa desideri mostrare

Il Wizard Grafico egrave chiaramente ispirato al diagramma di Agarwal ed intende rappresentare un primo tentativo drsquoideazione di un metodo applicabile ai piugrave moderni strumenti di consultazione dellrsquoinformazione (tablet mobile device ecc) e allo stesso tempo conduca lrsquoutilizzatore attraverso un facile accesso ad argomenti decisamente tecnici Naturalmente gran parte dellrsquoefficacia del diagramma di Agarwal risiede nellrsquoestrema capacitagrave di sintesi caratteristica che accumuna molti dei prodotti della moderna arte dellrsquoinfografica

Il Wizard Grafico egrave stato studiato per rispondere ad una seconda e a una terza domanda centrale La seconda domanda centrale ha in realtagrave la funzione di arricchirecompletare lrsquoinformazione fornita dal diagramma di Agarwal Supponiamo ad esempio che allrsquoutilizzatore sia stato suggerito drsquoimpiegare un grafico a torta A questo punto la seconda domanda centrale saragrave

Cosrsquoegrave un grafico a torta

Wizard Grafico Introduzione (2)

Tuttavia il principale scopo del Wizard Grafico egrave rispondere alla terza domanda centrale che sulla base dellrsquoesempio a cui abbiamo accennato in precedenza saragrave

Come posso costruire un grafico a torta

La risposta a questo quesito rappresenta per me il vero motivo per cui egrave stato realizzato il Wizard Grafico Se da un lato egrave stato necessario individuare un metodo per guidare lrsquoutilizzatore attraverso il percorso logico per la scelta del grafico piugrave adatto ai propri scopi dallrsquoaltro lato il Wizard Grafico si propone di suggerire alcuni degli strumenti utilizzabili per realizzare il grafico desiderato

Alla base delle scelta degli strumenti suggeriti vi egrave la precisa intenzione di limitare le opzioni ai soli software basati sul web (web based) La proliferazione di piattaforme web che offrono la possibilitagrave di creare rappresentazioni grafiche e statistiche di alta qualitagrave egrave tale da consentire ormai a chiunque di ottenere visualizzazioni di base e complesse con pochi clic e senza spendere un euro in costose licenze di utilizzo Inoltre tali strumenti web per funzionare appoggiano spesso su interfacce per lrsquoinserimento dati (data entry) altrettanto agevoli da utilizzare e anchrsquoesse basate sul web

Wizard Grafico Introduzione (3)

Wizard Grafico Grafici base

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Il Wizard Grafico egrave chiaramente ispirato al diagramma di Agarwal ed intende rappresentare un primo tentativo drsquoideazione di un metodo applicabile ai piugrave moderni strumenti di consultazione dellrsquoinformazione (tablet mobile device ecc) e allo stesso tempo conduca lrsquoutilizzatore attraverso un facile accesso ad argomenti decisamente tecnici Naturalmente gran parte dellrsquoefficacia del diagramma di Agarwal risiede nellrsquoestrema capacitagrave di sintesi caratteristica che accumuna molti dei prodotti della moderna arte dellrsquoinfografica

Il Wizard Grafico egrave stato studiato per rispondere ad una seconda e a una terza domanda centrale La seconda domanda centrale ha in realtagrave la funzione di arricchirecompletare lrsquoinformazione fornita dal diagramma di Agarwal Supponiamo ad esempio che allrsquoutilizzatore sia stato suggerito drsquoimpiegare un grafico a torta A questo punto la seconda domanda centrale saragrave

Cosrsquoegrave un grafico a torta

Wizard Grafico Introduzione (2)

Tuttavia il principale scopo del Wizard Grafico egrave rispondere alla terza domanda centrale che sulla base dellrsquoesempio a cui abbiamo accennato in precedenza saragrave

Come posso costruire un grafico a torta

La risposta a questo quesito rappresenta per me il vero motivo per cui egrave stato realizzato il Wizard Grafico Se da un lato egrave stato necessario individuare un metodo per guidare lrsquoutilizzatore attraverso il percorso logico per la scelta del grafico piugrave adatto ai propri scopi dallrsquoaltro lato il Wizard Grafico si propone di suggerire alcuni degli strumenti utilizzabili per realizzare il grafico desiderato

Alla base delle scelta degli strumenti suggeriti vi egrave la precisa intenzione di limitare le opzioni ai soli software basati sul web (web based) La proliferazione di piattaforme web che offrono la possibilitagrave di creare rappresentazioni grafiche e statistiche di alta qualitagrave egrave tale da consentire ormai a chiunque di ottenere visualizzazioni di base e complesse con pochi clic e senza spendere un euro in costose licenze di utilizzo Inoltre tali strumenti web per funzionare appoggiano spesso su interfacce per lrsquoinserimento dati (data entry) altrettanto agevoli da utilizzare e anchrsquoesse basate sul web

Wizard Grafico Introduzione (3)

Wizard Grafico Grafici base

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Tuttavia il principale scopo del Wizard Grafico egrave rispondere alla terza domanda centrale che sulla base dellrsquoesempio a cui abbiamo accennato in precedenza saragrave

Come posso costruire un grafico a torta

La risposta a questo quesito rappresenta per me il vero motivo per cui egrave stato realizzato il Wizard Grafico Se da un lato egrave stato necessario individuare un metodo per guidare lrsquoutilizzatore attraverso il percorso logico per la scelta del grafico piugrave adatto ai propri scopi dallrsquoaltro lato il Wizard Grafico si propone di suggerire alcuni degli strumenti utilizzabili per realizzare il grafico desiderato

Alla base delle scelta degli strumenti suggeriti vi egrave la precisa intenzione di limitare le opzioni ai soli software basati sul web (web based) La proliferazione di piattaforme web che offrono la possibilitagrave di creare rappresentazioni grafiche e statistiche di alta qualitagrave egrave tale da consentire ormai a chiunque di ottenere visualizzazioni di base e complesse con pochi clic e senza spendere un euro in costose licenze di utilizzo Inoltre tali strumenti web per funzionare appoggiano spesso su interfacce per lrsquoinserimento dati (data entry) altrettanto agevoli da utilizzare e anchrsquoesse basate sul web

Wizard Grafico Introduzione (3)

Wizard Grafico Grafici base

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Grafici base

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot egrave uno strumento grafico attraverso il quale associare due variabili quantitative (continue o discrete) Viene principalmente utilizzato per dedurre se vi sono relazioni di tipo direttamente o inversamente proporzionale tra le due misure confrontate Si tratta inoltre di un grafico utile qualora si desideri dedurre attraverso unrsquounica visualizzazione la natura distributiva delle due misure confrontate

Fig 1 ndash Google Chart API Scatter Chart

Google Chart API rappresenta uno dei principali strumenti di visualizzazione di dati quantitativi su web Le Chart API sono un insieme di procedure disponibili agli utilizzatori del web per ottenere dei grafici a partire da un semplice url Tra le altre egrave disponibile la procedura di creazione delle Scatter Chart attraverso la specificazione di un semplice elenco di parametri e dei valori da rappresentare egrave possibile ottenere lrsquoesatta rappresentazione desiderata

Gli scatterplot di Many Eyes sono un ottimo strumento di visualizzazione soprattutto percheacute mettono a disposizione una discreta varietagrave di opzioni drsquointerazione

Ersquo possibile infatti creare il grafico sulla base di un numero di variabili quantitative maggiore di 2 e scegliere in qualsiasi momento quali variabili utilizzare per il confronto Fig 2 ndash Scatterplot di Many Eyes

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra due variabili quantitative

La curva di adattamento viene impiegata in particolare in presenza di variabili quantitative con molti dati di natura continua Egrave molto utile per stabilire le tendenze delineate dalla relazione di due variabili a confronto e per valutare il livello di scostamento dei punti dato dalla curva interpolante (variabilitagrave)

WolframAlpha egrave un motore computazionale in grado di elaborare le parole chiave specificate dallrsquoutente e di fornire una serie drsquoinformazioni numeriche dati e informazioni Gli sviluppatori di questo motore di ricerca sono i medesimi che hanno sviluppato il software Mathematica questo il motivo del suo forte orientamento al calcolo e alla statistica La curva di adattamento in fig 4 egrave stata realizzata specificando nel suo campo di ricerca lrsquoespressione

exponential fit 078305520383024501650097

ZunZuncom egrave attualmente uno dei piugrave potenti strumenti di strumenti di modellazione statistica su web Consiste in una semplice interfaccia grafica attraverso la quale inserire agevolmente i propri dati e specificare i gruppi di funzionimodelli da adattare ad essi Il suo output comprende un report dettagliato contenente indici di bontagrave drsquoadattamento e curve di adattamento

Fig 3 ndash Curva di adattamento realizzato con ZunZun

Fig 4 ndash Curva di adattamento realizzato con WolframAlpha

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra due variabili quantitative

Il grafico di equazione egrave lrsquoesatta rappresentazione grafica di unrsquoequazione a due dimensioni

Il grafico di equazione in fig 5 egrave stato realizzato con Wessa specificando allrsquointerno del campo Equation lrsquoespressione

y=axx+bx-5

Google supporta la creazione di grafici anche attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 6 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

sin(x)x

Fig 5 ndash Grafico di equazione creato con Wessa

Fig 6 ndash Grafico di equazione creato con Google Search

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra due variabili qualitative

Il grafico di tipo heatmap (Sneath 1957)egrave la riproduzione visiva ideale di una tabella di contingenza a doppia entrata attraverso di esso vengono confrontate due variabili categoriali caratterizzate da un numero limitato di categorie La gradazione dei colori egrave indicativa della dimensione delle frequenze di ogni cella A valori (ad es percentuali) piugrave grandi corrisponderanno colori piugrave intensi

Il software Tableau egrave uno strumento orientato alla produzione di visualizzazioni di alta qualitagrave principalmente inerenti al settore della business intelligence

Ultimamente viene molto utilizzato per scopi drsquoinfografica e di data journalism

La sua versione gratuita (Tableau Public) consiste anchrsquoessa ndash come pure la sua versione commerciale ndash di un applicativo da installare sul proprio computer Ciograve nonostante rimane uno strumento orientato al web proprio per la sua possibilitagrave di ldquopubblicarerdquo dati e grafici su un apposito server web Tableau Public offre unrsquoinnumerevole varietagrave di opzioni drsquointerazione noncheacute una quantitagrave di grafici di tutti i tipi

Fig 7 ndash Heatmap realizzata con Tableau Public

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra tre variabili quantitative

Lo scatterplot (Chambers 1983) oltre a consentire di associare due variabili quantitative per determinare se vi sia un rapporto di proporzionalitagrave diretta o inversa tra di esse permette di considerare opzionalmente una terza variabile ldquodi entitagraverdquo (Z) Questa variabile anchrsquoessa numerica definisce lrsquoordine di grandezza di ogni singolo dato-punto allrsquointerno del grafico Per distinguerlo da un semplice Scatterplot a due dimensioni questo tipo di rappresentazione egrave spesso chiamato anche bubble chart

Tra le caratteristiche piugrave utili di Tableau Public vi egrave la possibilitagrave di rappresentare in un unico grafico a due dimensioni la relazione che intercorre tra tre variabili numeriche come nel grafico in fig 8 Due variabili sono utilizzate per la rappresentazione dei dati sugli assi principali ed una terza viene impiegata per determinare il diametro delle bolle (bubble) corrispondenti ad ogni punto-dato

Nellrsquoesempio viene utilizzata anche una quarta variabile numerica per lrsquoidentificazione dei diversi gruppi di dati attraverso la variazione del gradiente del colore

Fig 8 ndash Bubble chart realizzato con Tableau Public

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra tre variabili

La superficie egrave un particolare tipo di grafico che consente la rappresentazione tridimensionale di tre variabili quantitative (continue soprattutto ma pure ordinali se necessario) Questi grafici hanno il particolare pregio di sfruttare diversi elementi visivi Come in una carta topografica ad esempio i colori e i motivi servono per rappresentare le aree che contengono lo stesso intervallo di valori

Fig 9 ndash Grafico 3D prodotto con Google Search

Google supporta la creazione di grafici 3D attraverso la semplice specificazione di una formula allrsquointerno del campo di ricerca il grafico in fig 9 egrave stato creato inserendo nel campo di ricerca lrsquoespressione

100-3(sqrt(x^2+y^2))+sin(sqrt(x^2+y^2))+sqrt(200-(x^2+y^2)+10sin(x)+10sin(y))1000 x is from -15 to 15 y is from -15 to 15 z is from 90 to 101

La particolare tecnologia WebGL su cui si basa la funzione di resa grafica 3D di Google consente di utilizzare alcune interessanti opzioni drsquointerattivitagrave quale ad esempio la funzione di zoom od il trascinamento del grafico con rotazione lungo uno dei tre assi

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra tre variabili quantitative

Il grafico a linee di livello (meglio noto come contour plot) egrave la perfetta trasposizione bidimensionale di un grafico a Superficie Una volta stabilite le variabili da riportare sulle assi dellrsquoascissa e dellrsquoordinata la terza variabile saragrave rappresentata da linee e curve riportate sul piano dimensionale Ogni intervallo definito dallo spazio incluso tra le diverse curve rappresenta una particolare classe di variazione dei valori della variabile Z contrassegnata a sua volta da un particolare colore di gradiente

Fig 10 ndash Grafico a linee di livello realizzato con WolframAlpha

Questo Grafico a linee di livello egrave stato realizzato con WolframAlpha specificando nel suo campo di ricerca lrsquoespressione

plot x^2 y^3 x=-11 y=03

Solitamente i grafici a linee di livello vengono prodotti dallrsquoapplicativo a fianco della rispettiva rappresentazione 3D con grafico a superficie

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra molte variabili

Le matrici di grafici consistono in vere e proprie griglie a doppia entrata in cui vengono riportati in corrispondenza di ogni ldquoincrociordquo il singolo grafico (scatterplot grafico a torta istogramma) relativo al confronto tra coppie di variabili

Il portale Wessa (Free Statistics and Forecasting Software) implementa un calcolatore online gratuito basato su R Attraverso di esso egrave possibile caricare i propri dati su web specificare pochi parametri grazie ad unrsquointerfaccia facile ed intuitiva e creare diverse tipologie di grafico a seconda del pacchetto di R implementato per lo scopo

Fig 11 ndash Matrice di scatterplot creata con Wessa

Il tipo di visualizzazione Matrix Chart di Many Eyes permette di rappresentare dati multidimensionali allrsquointerno di una vera e propria griglia In particolare lo strumento grafico utilizzato per rappresentare ogni cella della griglia puograve essere un grafico a bolle e a torta

Fig 12 ndash Matrice di grafici a bolle creata con Many Eyes

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra molte variabili

Lo starplot (Chambers 1983) egrave un metodo particolare di visualizzazione di dati multivariati Ogni stella rappresenta una singola osservazione ed ogni punta della stella corrisponde ad una delle dimensioni (variabili) coinvolte nel piano multivariato Quanto piugrave egrave lunga una punta tanto maggiore egrave il valore della rispettiva variabile in corrispondenza della specifica osservazione

Questo starplot egrave stato realizzato con Wessa inserendo i dati di tre variabili quantitative (dimensioni) allrsquointerno del campo Data X

Fig 13 ndash Starplot creato con Wessa

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione e Composizione tra (pochi) insiemi di elementi

Il diagramma di Venn (Venn 1880) egrave una tipologia di rappresentazione utilizzata per riprodurre graficamente tutte le possibili relazioni tra un numero limitato drsquoinsiemi di elementi Nei diagrammi di Venn i diversi insiemi sono raffigti da particolari regioni ognuna delle quali puograve contenere al suo interno elementi appartenenti anche ad altri insiemi In questi casi nel diagramma saragrave presente una ldquosovrapposizionerdquo tra regioni che a sua volta corrisponderagrave ad una regione I diagrammi di Venn sono particolarmente utili per rappresentare le relazioni di ldquounionerdquo ed ldquointersezionerdquo

Per consentire agli utenti di creare in modo semplice grafici di ogni tipo tramite il suo Chart API Google mette a disposizione unrsquointerfaccia nota come Chart Wizard Questo strumento ha lo scopo di consentire la specificazione di poche opzioni lrsquoinserimento dei dati ed ovviamente la scelta del tipo di visualizzazione da rappresentare Tra i tipi disponibili vi egrave il VennDiagram

Una volta specificate tutte le opzioni richieste il Chart Wizard produrragrave il testo intero dellrsquoURL corrispondente allrsquoimmagine richiesta ed unrsquoanteprima del risultato finale Fig 14 ndash Diagramma di Venn creato con

Google Chart API

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione di una singola variabile quantitativa

Il semplice plot dei punti-dato di una singola variabile quantitativa consente di riportare su grafico ogni dato associandovi un marcatore di punto Solitamente allrsquointerno del plot nella piugrave semplice delle sue rappresentazioni i valori dei dati sono riportati sullrsquoasse verticale (Y) mentre sullrsquoasse orizzontale (X) viene riportato il numero di ordinamento corrispondente ai singoli valori

Il grafico in fig 15 di Plot di serie univariata di dati egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wessa consente di produrre lo script in R che ha generato il grafico noncheacute di salvare lrsquooutput generandone una versione HTML Word ed Excel

Fig 15 ndash Plot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione di una singola variabile quantitativa (pochi dati)

Lo stemplot (o anche Steam-and-leaf plot Tukey 1977) consiste in una rappresentazione grafico-numerica di una distribuzione di dati Generalmente viene costruito sulla base della ldquoscomposizionerdquo di numeri (di minimo due cifre) ordinati in modo crescente la foglia dello stemplot conterragrave generalmente lrsquoultima cifra (a sinistra) del numero mentre il gambo conterragrave tutte le altre cifre

Uno Stem-and-leaf Plot puograve essere realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Lrsquooutput generato non consiste in unrsquoimmagine bensigrave in una stringa di testo corrispondente allrsquooutput testuale di R

Fig 16 ndash Stemplot creato con Wessa

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione di una singola variabile (pochi dati)

Lrsquoistogramma (Pearson 1895) egrave un grafico a barre in cui ogni barra rappresenta la frequenza in cui un numero (nel caso di variabili quantitative) o una categoria (nel caso di variabili qualitative) ricorre allrsquointerno della variabile considerata Questo tipo di grafico egrave particolarmente efficace quando si dispone di un numero limitato di casi

Il grafico in fig 17 egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Le opzioni drsquointerattivitagrave offerte da Tableau Public (fig 18) consentono di aggiornare i dati dellrsquoistogramma utilizzando una semplice barra di scorrimento per la selezione del sottoinsieme di dati da visualizzare

Google Chart API offre la possibilitagrave di creare bar chart (Playfair 1786) personalizzati (fig 19) Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard

Fig 17 ndash Istogramma creato con Wessa

Fig 19 ndash Istogramma creato con Google Chart API

Fig 18 ndash Istogramma creato con Tableau Public

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione di piugrave variabili (poche variabili)

Lrsquoistogramma categorizzato egrave un istogramma che consente di rappresentare piugrave distribuzioni contemporaneamente In questi casi si usa utilizzare un colore differente per ognuna delle singole dimensioni coinvolte nel confronto Un requisito indispensabile per una corretta rappresentazione del fenomeno che si desidera descrivere egrave che gli intervalli di variazione delle dimensioni da confrontare abbiano caratteristiche simili per ampiezza e limiti e che le dimensioni siano in numerositagrave ridotta

Attraverso Tableau Public egrave possibile realizzare istogrammi categorizzati in perfetto stile Microsoft Excel (fig 20)

Per costruire Istogrammi categorizzati con Many Eyes egrave necessario ricorrere al tipo di visualizzazione bar chart (fig 21)

Fig 20 ndash Istogramma categorizzato creato con Tableau Public

Fig 21 ndash Istogramma categorizzato creato con Many Eyes

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione di una singola variabile quantitativa (molti dati)

Le curve di adattamento si prestano a molti usi Uno di questi egrave certamente quello relativo alla rappresentazione ldquosemplificatardquo di una o piugrave distribuzioni di frequenza La curva di adattamento consente di evidenziare alcuni aspetti importanti delle singole distribuzioni tramite di esse egrave infatti possibile percepire ad esempio la presenza di asimmetrie o di sottocampioni provenienti da popolazioni differenti

Questo esempio di curva di adattamento egrave stato realizzato utilizzando Wessa

In particolare lrsquoistogramma e la curva sono stati costruiti in seguito a una generazione casuale di dati con distribuzione normale

Per questo esempio sono state utilizzate le librerie di R MASS e msm

Fig 22 ndash Curva di adattamento creata con Wessa

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale Il grafico a torta (Playfair 1801) egrave una delle rappresentazione grafiche tra le piugrave intuitive

raffig la distribuzione di frequenza di una variabile categoriale (di natura sconnessa o ordinale) quando le categorie disponibili sono di numerositagrave limitata Condizione fondamentale e intuitiva percheacute la rappresentazione sia da considerarsi attendibile egrave che la somma delle frequenze (percentuali) di tutte le categorie disponibili sia pari a 100

Tra le visualizzazioni disponibili in Google Chart API vi sono le pie charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Tra le diverse personalizzazioni disponibili egrave possibile ottenere ad esempio una versione 3D oppure anche una rappresentazione a sezioni concentriche (fig 23)

Per costruire grafici a torta con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Pie Chart (fig 24) Tra le opzioni possibili la funzione Slice size consente di aggiornare i dati sulla base di unrsquoinformazione categoriale (ad es lrsquoanno di riferimento)

Fig 23 ndash Grafico a torta creato con Google Chart API

Fig 24 ndash Grafico a torta creato con Many Eyes

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione e Composizione

di una singola variabile categoriale La mappa ad albero (Shneiderman 2009) egrave una versione alternativa al grafico a torta la funzione egrave la medesima (ovvero sia la rappresentazione di una distribuzione di frequenza) si distingue perograve per la possibilitagrave di rappresentare in maniera gerarchica sotto-distribuzioni Ogni ldquoquadranterdquo equivale cioegrave ad una categoria che a sua volta puograve rappresentare la somma delle unitagrave appartenenti ad un insieme limitato di sotto-categorie

Per costruire mappe ad albero con Many Eyes egrave necessario ricorrere al tipo di visualizzazione Treemap Questo tipo di grafico dispone di una serie di utili opzioni drsquointerattivitagrave il principale consiste nella possibilitagrave di modificare le scale dei colori utilizzando un semplice widget disponibile sul fondo del grafico (fig 26)

Attraverso Tableau Public egrave possibile realizzare mappe ad albero di qualsiasi forma (fig 26)

Fig 25 ndash Mappa ad albero creato con Many Eyes Fig 26 ndash Mappa ad albero realizzato con Tableau Public

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione delle occorrenze di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 27) Attraverso questo tipo di grafico egrave possibile costruire Matrici di grafici principalmente basati su barre o grafici a torta (Bars or Bulbbles)

I Bar Charts sono tra gli strumenti di visualizzazione grafica piugrave tradizionali Google Chart API offre la possibilitagrave di creare e personalizzare semplici grafici a barre attraverso lrsquoutilizzo del Chart Wizard (fig 28)

Fig 27 ndash Grafico a barre impilate realizzato con Many Eyes

Fig 28 ndash Grafico a barre impilate realizzato con Google Chart API

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Il grafico ad aree impilate egrave una versione corretta del grafico a barre impilate La differenza rispetto a questrsquoultimo grafico egrave la tipica rappresentazione ldquocontinuardquo dei valori lungo lrsquoasse orizzontale Le Aree impilate trovano la loro applicazione ideale quando sullrsquoasse orizzontale egrave riportata una dimensione temporale il caratteristico andamento ldquocontinuordquo delle curve che delineano le aree consentono di rivelare al meglio le eventuali tendenze ed evoluzioni nel tempo

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (valori assoluti)

I Stack Graphs sono tra i grafici piugrave esteticamente efficaci tra quelli disponibili in Many Eyes (fig 29)

Per le visualizzazioni piugrave complesse Google Chart API mette a disposizione Google Code Playground una console di generazione di codice in stile javascript il cui scopo principale egrave quello di consentire agli sviluppatori web drsquointegrare i grafici di Google nelle proprie applicazioni web (fig 30)

Fig 29 ndash Grafico ad aree impilate realizzato con Many Eyes

Fig 30 ndash Grafico ad aree impilate realizzato con Google Code Playground

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Il grafico a barre impilate egrave lo strumento ideale per visualizzare la distribuzione di frequenza (delle percentuali) di ognuna delle categorie di una specifica variabile categoriale (qualitativa) lungo i diversi livelli di una seconda variabile categoriale (X)

Many Eyes consente di costruire grafici a barre impilate ricorrendo al tipo di visualizzazione Matrix Chart (fig 31) Se si sceglie lrsquoopzione della rappresentazione a barre (Bars) egrave possibile utilizzare lrsquoopzione Same size per riportare su grafico le dimensioni delle diverse categorie su base proporzionale (percentuale)

Per molte delle realizzazioni grafiche di Tableau Public egrave possibile creare delle versioni alternative basate sugli stessi dati in grado di offrire un livello drsquointerattivitagrave maggiore (fig 32)

Fig 31 ndash Grafico a barre impilate realizzato con Many Eyes Fig 32 ndash Grafico a barre impilate realizzato

con Tableau Public

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Il grafico ad aree impilate puograve essere utilizzato quale versione corretta del grafico a barre impilate per percentuali

Wizard Grafico Distribuzione e Composizione di una singola variabile categoriale segmentata (percentuali)

Gli stack graphs sono tra i grafici esteticamente piugrave efficaci tra quelli messi a disposizione da Many Eyes Attraverso lrsquoopzione Percentage egrave possibile visualizzare la distribuzione percentuale delle frequenze delle diverse categorie

Fig 33 ndash Grafico ad aree impilate realizzato con Many Eyes

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto tra livello di performance e livello target

Il bullet chart (Few 2006) egrave un particolare tipo di grafico in cui egrave possibile riportare il valore di una misura di performance (numero) su una scala che ne stabilisce ndash generalmente ndash lrsquointervallo di variazione La particolare caratteristica che distingue questo tipo di grafico da un semplice grafico a barre egrave la presenza di un livello target (obiettivo) al quale la misura di performance viene confrontata Da tale confronto egrave possibile dedurre un giudizio qualitativo sulla perfomance misurata

Attraverso Tableau Public egrave possibile realizzare bullet chart personalizzabili in ogni loro aspetto e forma (fig 34)

Fig 34 ndash Bullet Chart realizzato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Noto come Box-plot o meglio ancora come box and whiskers plot (diagramma a scatole e baffi Tukey 1977) questo tipo di grafico egrave principalmente utilizzato in statistica per confrontare le posizioni (media mediana ecc) e le misure di dispersione (deviazione standard intervallo interquartile ecc) lungo diversi gruppi di unitagrave appartenenti ad una medesima variabile Lrsquoulteriore vantaggio di questa rappresentazione risiede nella possibilitagrave drsquointerpretare la natura distributiva dei dati allrsquointerno di ogni gruppo I baffi in special modo possono consentire di evidenziare una maggiore o una minore dispersione al di sotto o al di sopra della rispettiva misura di posizione

Attraverso Google Code Playground egrave possibile creare Candlestick Chart personalizzabili Posizionando il puntatore del mouse sopra i box egrave possibile visualizzare i valori corrispondenti sia agli estremi del box che dei whiskers (fig 36)

I box and whiskers plot possono essere creati anche con Wessa inserendo i dati delle diverse variabili quantitative da confrontare allrsquointerno del campo Data X (fig 37)

Fig 35 ndash Box and Whiskers Plot realizzato con Google Chart API

Fig 36 ndash Box and Whiskers Plot realizzato con Wessa

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto e Distribuzione tra misure di posizione e misure di dispersione

Un grafico molto simile al box and whiskers plot per scopo e utilizzo egrave certamente il grafico delle medie (o piugrave in generale ldquografico delle tendenze centralirdquo) nel quale lrsquoobiettivo egrave confrontare le misure di posizione (medie mediane ecc) di un insieme di variabili confrontabili per unitagrave di misura e intervallo di variazione In questo tipo di grafico le medie sono attraversate da una retta spezzata e sono solitamente riportati i punti-dato corrispondenti ai valori delle variabili

Attraverso una scatter view con Tableau Public egrave possibile posizionare ogni punto dato allrsquointerno di una griglia Ogni punto dato puograve corrispondere come in questo caso ad una media Egrave possibile visualizzare una retta spezzata che interpoli i punti corrispondenti alla misura media generale cosigrave come ottenere anche un indicatore visivo della tendenza di tutti i punti dato allrsquointerno della griglia

Fig 37 ndash Grafico delle medie creato con Tableau Public

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto e Distribuzione tra due variabili quantitative

Il bagplot (Rousseeuw 1999) egrave la rappresentazione bidimensionale del box-plot Nel bagplot sono riportate le misure bivariate di tendenza centrale (media mediana ecc) noncheacute una regione piugrave scura ed una piugrave chiara ed esterna intorno ad esse Nel caso di tendenza centrale rappresentata da una mediana la regione scura potrebbe rappresentare i valori compresi nellrsquointervallo di valori piugrave prossimi alla mediana (ad es intervallo definito dal 25-imo e il 75-imo percentile) mentre il ldquorecintordquo che delimita la regione piugrave chiara potrebbe rappresentare lrsquoarea delimitata ad esempio dal 15-imo ed il 85-imo percentile Le osservazioni fuori dal recinto saranno considerate outlier

Tramite Wessa egrave possibile creare i bagplot gestendone ogni suo aspetto estetico e di contenuto Per la funzione particolare implementata in Wessa si ricorre allrsquoutilizzo del pacchetto di R rpart

Fig 38 ndash Bagplot creato con Wessa

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto temporale tra variabili quantitative (poche variabili)

Il grafico a linee (Harary amp Norman 1960) per piugrave categorie egrave bene interpretabile soprattutto quando sono disponibili pochi step temporali (intervalli) solitamente riportati sullrsquoasse orizzontale dal meno recente al piugrave recente In tali occasioni egrave possibile tracciare una serie di linee passanti attraverso i diversi punti-dato di ogni categoria In questo modo saragrave possibile confrontare agevolmente lrsquoevoluzione dei dati di tali categorie nel tempo

Tra le visualizzazioni disponibili in Google Chart API vi sono le scatter charts Per la loro realizzazione egrave possibile ricorrere allrsquoutilizzo del Chart Wizard Questo tipo di visualizzazione rappresenta lo strumento ideale per la creazione di Grafici a linee (fig 40)

Many Eyes consente di costruire grafici a linee ricorrendo alle line chart Tra le opzioni disponibili vi egrave anche la possibilitagrave drsquoimpostare Relative Set Start = 100 molto utile soprattutto quando si desidera rendere confrontabili diverse misurazioni indicizzando pari a 100 il valore corrispondente al primo step di confronto (fig 41)

Fig 39 ndash Grafico a linee creato Google Chart API

Fig 40 ndash Grafico a linee creato Many Eyes

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto temporale serie storica

Quando si desidera riportare su grafico i dati di una serie storica lo strumento certamente piugrave adeguato egrave rappresentato da un grafico a linee Le serie storiche sono solitamente caratterizzate da un numero elevato di step temporali in corrispondenza dei quali egrave disponibile un corrispettivo valore numerico (la maggior parte delle volte di natura continua) Il grafico a linee egrave lrsquounico tipo di visualizzazione in grado di evidenziare tutte le componenti principali di una serie storica (tendenza ciclicitagrave stagionalitagrave ecc)

Con Tableau Public egrave possibile creare bellissimi grafici a linee per ogni scopo Tra le possibili alternative alla modalitagrave Line dei punti dato vi sono tra gli altri Bar Circle Polygon Pie Shape Square (fig 42)

Un altro strumento di analisi interattiva su web basato su R egrave Stockplot Questo software offre unrsquointerfaccia molto intuitiva ed un numero elevato di opzioni per la personalizzazione dei grafici Stockplot egrave principalmente orientato allrsquoanalisi di dati finanziari (fig 43)

Fig 41 ndash Grafico a linee creato Tableau Fig 42 ndash Grafico a linee creato con Stockplot

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto temporale dati ciclici

Lrsquoarea circolare (o grafico radar) egrave un particolare tipo di grafico in cui piugrave che lrsquoevoluzione temporale lo scopo egrave il confronto tra ldquoperiodirdquo i cui dati si presentano ciclicamente (stagioni ore del giorno ecc) La condizione fondamentale per utilizzare un simile tipo di grafico egrave che i periodi da confrontare non cambino in numero e caratteristiche nel tempo Ersquo consuetudine riportare per ogni periodo il valore grezzo ordinato temporalmente altrimenti egrave possibile che ad ogni periodo sia associato un valore calcolato (ad esempio una media aritmetica) sulla base di piugrave valori corrispondenti al medesimo periodo Quanto tali valori (grezzi o calcolati) saranno elevati tanto maggiore saragrave distanza del rispettivo punto-dato dallrsquoorigine

Google Chart API consente di costruire bellissimi radar chart Ciograve egrave possibile ricorrendo anche al chart wizard messo a disposizione da Google il quale consente di costruire interattivamente il grafico definendone ogni suo aspetto (dati colori etichette ecc) In particolare per questo tipo di rappresentazione egrave disponibile lrsquoopzione Spline tramite le quale approssimare con arrotondamento i segmenti che congiungono i diversi punti-dato giacenti sugli assi

Fig 43 ndash Area circolare creata con Google Chart API

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto temporale serie storica ad alta intensitagrave

Un grafico sparkline (Tufte 2004) egrave generalmente contraddistinto da due principali caratteristiche piccole dimensioni ed alta densitagrave dei dati Lo sparkline rappresenta trend e variazioni associate ad una particolare misurazione (temperatura andamenti finanziari) nel modo piugrave semplice possibile In generale lo strumento di rappresentazione usato per riprodurre uno sparkline puograve essere un grafico a linee uno scatterplot oppure un grafico a barre

Fig 44 ndash Sparkline a linee creati con Tableau

Il grafico in fig 45 egrave basato su un dashboard di Tableau costituito da una griglia di line chart

Ideato da Joe Gregorio Sparklines bitworking egrave uno strumento su web che consente di utilizzare Google Chart API per costruire facilmente sparkline a linee o a barre controllandone tutti gli aspetti grafici (fig 46)

Fig 45 ndash Sparkline a barre creato con Sparkline bitworking

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Concentrazione di una variabile quantitativa

La curva di Lorenz (Lorenz 1905) egrave il principale strumento di rappresentazione degli indici di concentrazione La curva egrave rappresentata in un piano sulla cui ascissa sono riportate le frequenze cumulate relative mentre sullrsquoordinata sono riportate le quantitagrave cumulate relative Larea compresa tra la curva e la retta di equidistribuzione (la retta a 45deg) egrave detta area di concentrazione e puograve essere utilizzata come base per la definizione di appositi rapporti di concentrazione Maggiore infatti egrave la concentrazione osservata maggiore saragrave tale area

Fig 46 ndash Curva di Lorenz creata con Wessa

Questa curva di Lorenz o (grafico di concentrazione) egrave stato realizzato con Wessa inserendo i dati della serie numerica allrsquointerno del campo Data

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Classificazione di una variabile quantitativa

La curva ROC egrave uno strumento molto utilizzato in statistica biomedica Nella sostanza si tratta della rappresentazione grafica di un classificatore binario i cui due assi rappresentano generalmente la sensibilitagrave ed il valore (1 ndash specificitagrave) di un particolare test La struttura dei dati richiede normalmente una variabile numerica di cui egrave identificato un valore soglia ed una seconda variabile a due categorie (ad es positivo o negativo) La curva ROC consente di analizzare la performance del test lungo tutto lrsquointervallo di variazione dei valori della variabile numerica Unrsquoarea sotto la curva (AUC) pari a 1 indica un test perfetto mentre unrsquoarea pari a 05 (curva ROC equivalente a retta a 45deg) indica un test che ha probabilitagrave pari a 05 di classificare positivo

JROCFIT egrave un software web messo a disposizione dalla Johns Hopkins University Baltimore Maryland USA per consentire ai suoi studenti e non solo di produrre curve ROC Nel portale viene spiegato che formato devono avere i dati cosigrave come vengono riportate le istruzioni su come esportare i risultati

Fig 47 ndash Curva ROC creata con JROCFIT

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Classificazione analisi dei gruppi (raggruppamento gerarchico)

Il dendrogramma egrave il grafico utilizzato per rappresentare i risultati di unrsquoanalisi dei gruppi (cluster analysis) secondo la tecnica del raggruppamento gerarchico Ogni gruppo egrave definito da minimo un membro (gruppo composto da unrsquounica osservazione) ad un massimo che equivale al numero totale di osservazioni (un unico gruppo contenente tutte le osservazioni) La distanza tra un estremo e lrsquoaltro del grafico definisce il grado di omogeneitagrave dei membri appartenenti al medesimo gruppo Quanto piugrave prossima allrsquoestremo di partenza (passo 0) egrave lrsquounione tra piugrave osservazioni tanto maggiore saragrave il grado di omogeneitagrave tra le osservazioni in termini di caratteristiche appartenenti al gruppo formatosi in seguito a tale unione

Fig 48 ndash Dendrogramma creato con Wessa

Con Wessa egrave possibile creare dendrogrammi di ogni livello di complessitagrave Trattandosi di un grafico tradizionalmente realizzato nel contesto dellrsquoanalisi dei gruppi per la realizzazione di questo grafico si ricorre allrsquoutilizzo del pacchetto di R cluster

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Mappe

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave Nella mappa con bubble chart la visualizzazione ottenuta egrave solitamente rappresentata da una zona geografica punteggiata da una numero di bolle che identificano per dimensione ed intensitagrave di colore quanto maggiore o minore egrave il valore della variabile che si desidera rappresentare Ogni valore corrisponde ad una particolare localitagrave geografica

Allrsquointerno di un dashboard di Tableau Public egrave possibile integrare mappe relative a numerose localitagrave geografiche Per fare questo egrave possibile ottenere rappresentazioni mappali e geocodifiche da una serie di portali dedicati (fig 50)

Many Eyes offre una libreria di viste mappali Grazie allrsquoopzione Colors or Bubbles egrave possibile passare da una visualizzazione con Bubble chart ad una visualizzazione Heatmap (fig 51)

Fig 49 ndash Mappa con bubble chart creata tramite Tableau Public

Fig 50 ndash Mappa con bubble chart creata tramite Many Eyes

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto tra valori di una medesima variabile quantitativa

calcolati in differenti localitagrave La heatmap puograve basarsi graficamente su una mappa geografica In questi casi la Heatmap egrave solitamente utilizzata per confrontare i valori drsquointensitagrave associati ai valori (per diverse localitagrave geografiche) di una medesima variabile come avviene nella mappa con bubble chart

Tramite Google Chart API egrave possibile creare Heatmap in modo semplice ed efficace Tramite il Chart Wizard si possono realizzare mappe con confronti internazionali Se poi si consulta la documentazione riguardante questo tipo di grafico egrave possibile ottenere quanto serve per raggiungere un livello di rappresentazione provinciale

Attraverso Tableau Public egrave possibile realizzare heatmap personalizzabili in ogni loro aspetto e forma

Fig 51 ndash Heatmap creata con Google Chart API Fig 52 ndash Heatmap creata con Tableau

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto tra valori di una medesima variabile calcolati in

differenti localitagrave Nella mappa con grafici a torta la variabile calcolata puograve essere rappresentata anche da una mutabile categoriale In questo caso le frequenze calcolabili per ogni categoria possono essere ottenute per tutte le localitagrave che si desidera confrontare Il risultato finale consiste in una mappa costellata di tanti Grafici a torta quanti saranno le localitagrave da confrontare

Fig 53 ndash Mappa con grafici a torta creata tramite Tableau Public

Tra gli ldquooggetti graficirdquo da poter inserire allrsquointerno di una mappa di Tableau Public egrave vi sono certamente i grafici a torta

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Grafici avanzati

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Relazione e Confronto temporale tra tre variabili con evoluzione temporale

Il termine motion chart egrave solitamente associato non tanto ad un particolare tipo di grafico bensigrave a unrsquoavanzata tecnica di visualizzazione animata Nella sostanza si tratta di uno strumento che consente di confrontare 3 dimensioni con lrsquoaggiunta di una quarta variabile temporale che ha la funzione di rappresentare lrsquoevoluzione temporale delle prime tre In altre parole si tratta di una bubble chart animata in cui ogni punto-dato si muove e cambia di dimensione sullrsquoasse temporale La visualizzazione motion chart

disponibile in Google Chart API egrave basata su un progetto chiamato Gapminder ed originariamente ideato da Hans Rosling

La numerose possibilitagrave alternative di rappresentazione dei medesimi dati fanno della Motion Chart probabilmente uno dei piugrave affascinanti ed efficaci strumenti di visualizzazione dei dati storici

La caratteristica piugrave evidente egrave la funzione di play che consente di animare i punti-dato riportati sulla griglia grafica mano a mano che ci si sposta sullrsquoasse temporale

Fig 54 ndash Motion chart creata con Google Chart API

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Confronto tra ampiezze rispetto ad una tendenza centrale

I grafici a barre possono essere utilizzati anche per confrontare valori di ampiezza (di un valore assoluto di una differenza di uno scarto ecc) rispetto ad una tendenza centrale

Nellrsquoesempio riportato in fig 57 Tableau Public egrave presente un grafico a barre orizzontali la cui ampiezza nella fattispecie rappresenta la distanza media tra i salari degli uomini e salari delle donne per settore lavorativo In questo caso con Tableau Public egrave stato possibile riportare il valore medio complessivo dei salari in forma di tendenza centrale (linea rossa) noncheacute evidenziare gli estremi laterali delle barre con simboli che rappresentano in modo differente uomini e donne Tableau Public ha il vantaggio notevole di offrire unrsquoampia gamma di strumenti drsquoinfografica che contribuiscono in modo significativo ad abbellire le visualizzazioni realizzabili

Fig 55 ndash Grafico a barre creato con Tableau

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Mappe 3D

Attraverso le mappe 3D egrave possibile ottenere una rappresentazione tridimensionale di diversi tipi di Mappe (heatmap mappe con grafici a torta grafico con bubble chart ecc)

Lrsquointegrazione tra le visualizzazioni disponibili in Google Chart API e le funzionalitagrave di Google Earth consentono di costruire mappe 3D esplorabili dal punto da un punto geografico e contemporaneamente numerico thematicmappingorg egrave un portale che offre ampia documentazione riguardante le possibili personalizzazione di questo tipo suggestivo di visualizzazioni

Fig 56 ndash Mappe 3D realizzate con Google Chart API e Google Earth

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Wizard Grafico Relazione tra due variabili quantitative

Lo scatterplot di immagini egrave un tipo speciale di scatterplot in cui ogni marcatore di punto-dato corrisponde ad un simbolo che connota in senso univoco il valore ad esso associato

Tableau Public consente di riportare su scatterplot anzicheacute marcatori di stile tradizionale anche marcatori personalizzati sulla base dei singoli punti-dato Per ognuno di questi infatti egrave possibile associare un simbolo (immagine) differente

Fig 57 ndash Scatterplot di immagini creato con Tableau Public

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Glossario

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Infografica Linfografica (information graphic o infographic) egrave una forma di rappresentazione

dellrsquoinformazione in cui numeri e testo trovano una loro precisa collocazione in una forma visiva organizzata Le tecniche utilizzate per ottenere questo tipo di rappresentazioni richiedono competenze grafiche ed informatiche noncheacute non indifferenti qualitagrave espositive

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Open data Per open data (dati aperti) srsquointende lrsquoinsieme di dati liberamente accessibili e privi di

restrizioni allrsquoutilizzo e alla riproduzione Percheacute sia soddisfatta la caratteristica indispensabile di ldquoaperturardquo i dati non devono essere vincolati da brevetti o da altre forme di controllo che ne limitino la riproduzione Le uniche restrizioni consentite si riferiscono allrsquoobbligo eventuale di citazione delle fonti o alle modalitagrave di modifica

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Data journalism Il data journalism (o Data-driven journalism) si puograve considerare un particolare metodo di

giornalismo basato sullrsquoanalisi di grandi insiemi di dati Nella maggior parte dei casi si tratta di open data liberamente disponibili su web e la loro elaborazione richiede lrsquoimpiego di strumenti open source

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Distribuzione Nella statistica il concetto di distribuzione si riferisce principalmente alla forma di una

distribuzione di probabilitagrave e ha lo scopo di suggerire visivamente quale potrebbe essere il migliore modello statistico da adattare ai dati che formano la particolare forma distributiva La distribuzione ha quindi la particolare funzione ldquograficardquo di evidenziare quali potrebbero essere le particolari proprietagrave statistiche della popolazione a cui appartiene lrsquoinsieme di dati analizzati

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Composizione Per composizione srsquointende lrsquoinsieme di dati quantitativi che rappresentano ognuno una

parte del tutto e che descrivono esclusivamente una parte relativa drsquoinformazione (Aitchison1986) Nella statistica lrsquoutilizzo di questo tipo di dati egrave frequente quando ogni punto-dato rappresenta una ldquofrazionerdquo di un insieme non negativo di numeri la cui somma egrave 1 In genere ogni punto-dato suggerisce la proporzione (o ldquopercentualerdquo) di unitagrave statistiche che corrispondono a una specifica categoria allrsquointerno dellrsquoinsieme totale di categorie presenti nellrsquoinsieme di dati

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Variabile In statistica una variabile rappresenta una caratteristica che puograve assumere piugrave di un

insieme di valori a cui associare una misura numerica o una categoria classificatoria (ad es reddito etagrave peso ecc per le variabili numeriche oppure ldquoprofessionerdquo ldquocolore occhirdquo ldquomalattiardquo ecc per le variabili categoriali)

Le variabili numeriche si suddividono principalmente in due categorie

bull Variabili continue che possono assumere un numero infinito di valori tra due valori distinti (es pressione arteriosa temperatura ecc)

bull Variabili discrete che assume valori da un insieme finito o conteggiabile di valori (ad es numero di figli numero di gambe di un animale ecc)

Le variabili categoriali si suddividono in due categorie

bull Variabili nominali in cui le modalitagrave identificano specifiche categorie cioegrave caratteristiche o qualitagrave precise non ordinabili (es sesso razza mezzo di trasporto ecc)

bull Variabili ordinali in cui le modalitagrave identificano categorie che possono essere organizzate sulla base di una qualche relazione drsquoordine o gerarchia (es titolo di studio grado di soddisfazione ecc)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Variabilitagrave In statistica la variabilitagrave (anche detta dispersione statistica o variazione) misura il grado

di dispersione di una variabile o distribuzione probabilistica In particolare un indice di variabilitagrave (varianza deviazione standard intervallo interquantile ecc) serve per descrivere quanto i suoi valori sono distanti dalla rispettiva misura di tendenza centrale (media mediana rango medio ecc)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Differenza assoluta Il termine differenza assoluta di due numeri reali x e y egrave data dalla dalla formula |x-y| e

rappresenta la distanza di una retta reale tra i punti corrispondenti a x e y

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Differenza relativa Le differenze relative vengono solitamente utilizzate per confrontare quantitagrave considerate

in termini di porzioni di ldquodimensionirdquo Il confronto si basa su misure espresse in rapporti e non esprimibili sulla base di alcuna unitagrave di misura Se tali rapporti vengono moltiplicati per 100 tali rapporti possono essere considerati come valori percentuali In questo caso le differenze relative possono considerarsi vere e proprie differenze percentuali

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Curva interpolante Per curva interpolante srsquointende la funzione derivante dal processo di curve fitting Il

curve fitting consiste nella costruzione di una curva o di una funzione matematica caratterizzata dalla migliore corrispondenza con una serie di punti

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Tabella di contingenza La tabella di contingenza (Pearson 1904) egrave un particolare tipo di tabella in forma di

matrice in cui egrave riportata la distribuzione di frequenza (multivariata) delle variabili coinvolte nellrsquoanalisi

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Riferimenti bibliografici (1)

bull Aitchison J (1986) The Statistical Analysis of Compositional Data Chapman amp Hall reprinted in 2003 with additional material by The Blackburn Press

bull Chambers John William Cleveland Beat Kleiner and Paul Tukey (1983)Graphical Methods for Data Analysis Wadsworth

bull Few Stephen (2006) Information Dashboard Design The Effective Visual Communication of Data

bull Harary F Norman R Z (1960) Some properties of line digraphs Rendiconti del Circolo Matematico di Palermo 9 (2) 161ndash169

bull Lorenz M O (1905) Methods of measuring the concentration of wealth Publications of the American Statistical Association (Publications of the American Statistical Association Vol 9 No 70) 9 (70) 209ndash219

bull Pearson K (1895) Contributions to the Mathematical Theory of Evolution II Skew Variation in Homogeneous Material Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences 186 343ndash326

bull Pearson K (1904) On the Theory of Contingency and Its Relation to Association and Normal Correlation in Research Memoirs Biometric Series I Drapers Company

bull Playfair W (1786) The Commercial and Political Atlas Representing by Means of Stained Copper-Plate Charts the Progress of the Commerce Revenues Expenditure and Debts of England during the Whole of the Eighteenth Century

bull Playfair W (1801) Statistical Breviary Shewing on a Principle Entirely New the Resources of Every State and Kingdom in Europe London Wallis

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Riferimenti bibliografici (2)

bull Rousseeuw P J Ruts I Tukey J W (1999) The Bagplot A Bivariate Boxplot The American Statistician 53 (4) 382ndash387

bull Shneiderman Ben Plaisant Catherine (June 25 2009) Treemaps for space-constrained visualization of hierarchies Retrieved February 23 2010

bull Sneath PHA (1957) ldquoThe application of computers to taxonomyrdquo Journal of General Microbiology 17 (1) 201ndash226

bull Tufte E (May 27 2004) Sparkline theory and practice Edward Tufte forum

bull Tukey John W (1977) Exploratory Data Analysis (1 ed) Pearson

bull Venn J (July 1880) On the Diagrammatic and Mechanical Representation of Propositions and Reasonings Philosophical Magazine and Journal of Science 5 10 (59)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)

Sitografia delle applicazioni

bull Google Chart Tools (httpsdevelopersgooglecomchart)

bull Google Search (httpswwwgooglecom)

bull JROCFIT (httpwwwradjhmiedujengjavaradrocJROCFITihtml)

bull Many Eyes (httpwww-958ibmcomsoftwaredatacognosmanyeyes)

bull Sparklines bitworking (httpsparklinesbitworkinginfo)

bull Stockplot (httprwebstatuclaedustockplot)

bull Tableau Public (httpwwwtableausoftwarecompublic)

bull Thematicmapping (httpthematicmappingorg)

bull Wessa (httpwwwwessanet)

bull WolphamAlpha (httpwwwwolframalphacom)

bull ZunZuncom (httpzunzuncom)