Università degli studi di Padova
Facoltà di scienze statistiche
corso di laurea in
statistica e tecnologie informatiche
tesi di laurea
Studio del comportamento di visita a due
siti web.
relatore: dott. Bruno Scarpa
Laureando:Yabre Yacouba
matricola: 523827
Anno accademico: 2008-2009
�
Voglio ringraziare la mia famiglia, per avermi sost enuto inquesta straordinaria avventura.
Ringrazio inoltre il mio relatore il dott. Bruno Sc arpa e laprof. Patrizia Amaglio dell' IPSS Bartolomeo Montag na diVicenza per la pazienza che hanno avuto nel corregg ere glierrori dovuti alla lingua.
Infine ringrazio le signore dell' “Alliance françai se deVicenza” senza le quale non sarei qui.
�
Indice������ ������������������������������������������������������������������������������������������������������������������������������������������������
����� � ������������� ��� �� ��� ������������� ��������������������������������������������������������������������������
•��������� ������������������������������������������������������������������������������������������������������������������������������������������
•�������� �� ������������������� ������������������������������������������������������������������������������������������
������� ���� ��� ��������� ���� ���� ���� ���� �����������������������������������������������������������������
!��"����� ��� ����������� ���������#�$%������������������������������������������������������������������������������������
���%��� ��&��������� ���������#�$%����������������������������������������������������������������������������������������������'
��(����� ���� ����������� �! � � �������������������������������������������������������������������������������������
���(��������������������������� ��� �� ��� ������������������������������������������������������������������������)
*������������� ��������������� ��� �� ��� ������������������������������������������������������������������������������
���� � �� ��� ������ � �������������������������������������������������������������������������������������������������������������������
•��� ����� �����������������������������������������������������������������������������������������������������������������������������������������
•������� � ����� �� ���������������������������������������������������������������������������������������������������������������������������������)
•���" **����������� �!�� ��� ����� � ��� ��� �����������������������������������������������������������������������������������������������
•������� ��� ������#�$%��� ��� ������������������������������������������������������������������������������������������������������������'
������� ��� ���� ���� ���� ���������� ��� �������� ��+�����������������������������������������������������'
!������ � �� ��� ������ � �� �!�� ��� ��� ��������������������������������������������������������������������������������������'
�������� ��%����������� ���� ������� ���������� ����������������������������������������������������'
��������� ������������� ��������������� ��������������������������������������������������������������������)
���� � �� ����������� � �� � ������� �� �� ���*��������������������������������������������������������������������������'
•��������� ����������������������������������������������������������������������������������������������������������������������������������������'
���,�������������� ������ �! ��� � ��� ��� ����#����������������������������������������������������������������'
!��%�������� ���� ��� ��������������������������������������������������������������������������������������������������������������-
•������� � �������� ���� ��� �����������������������������������������������������������������������������������������������������������������)
•��������������� ��� ������#���� � ������������� ��� �� ��� ��� ����������� �������������������������������������������'�
'
, !� ���* ����������������������������������������������������������������������������������������������������������������������������������������������-�
-
Introduzione
Gli ultimi decenni sono stati caratterizzatidall'esplosione delle nuove tecnologie. All'occorre nza, inquesti ultimi anni assistiamo alla proliferazione d ella retteinternet e alla creazione di tanti servizi ad esso connessotale “social network”, videoconferenze, commercio online etc.
Infatti in questi ultimi anni, si può dire che ness unopuò fare almeno di usare internet, il che ovviament econtribuisce alla creazione di vere e proprie azien de online,e quindi di usare particolari tecniche per poter tr arreinformazioni su ad esempio il comportamento degli u tenti chevisitano particolari siti, in modo da sviluppare sp ecificheazioni di marketing.
Queste tecniche conosciute con il termine di “webmining” costituiscono oggi un potente strumento per analizzaredei dati avente tante variabili. Infatti il web min ingraggruppa tanti strumenti statistici tale l'analisi dei gruppi(cluster analysis), l'analisi delle componenti prin cipale etc.
Questi strumenti che oggi caratterizzano della stat isticamoderna sono usati per analizzare dati provenienti da tantisettori d'attività, perché permettono una sintesi a ccurata efacilmente interpretabile, anche da non statistici.
In questa sede useremo solo uno di questi strumenti ,ovvero useremo solo l'analisi delle componenti prin cipali perpoter sintetizzare l'informazione contenuta nei dat i.Cercheremo quindi nel primo capitolo di illustrare i metodi dicalcoli delle componenti per passare negli ultimi duecapitoli all'analisi dei dati provenienti da due si ti dicommercio online.
�
Capitolo I:
Analisi delle componenti principali: procedure di calcolo .
1. Introduzione
La disponibilità di grandi “basi di dati” permette oggidi archiviare grandi quantità di informazioni, e qu indi lanecessità di usare specifiche tecniche per poter ol trepassareil limite della semplice analisi descrittiva, che d i solito silimita all’analisi di una o due variabili.
Questi metodi, tra cui l’analisi delle componentiprincipali fanno parte dell’ambito della statisticamultivariata.
L’analisi delle componenti principali (ACP) in trodotta daK. Pearson nel 1901 e sviluppati da H. Hotelling ne l 1933, haavuto un grande successo, perché oltre a presentare irisultati in modo chiaro e facilmente interpretabil e, ha ilpregio di avvalersi di rappresentazioni grafiche, c he rendonoil suo uso immediato anche da non esperti e in ambi ti diversi.
Lo scopo primario di questa tecnica è la riduz ione di unnumero elevato di variabili in alcune variabili lat enti.Questo avviene tramite l’individuazione di particol aricombinazioni lineari dette appunto “componenti prin cipali”.Tali combinazioni saranno tra loro intercorrelate e d ordinatein modo tale che la prima combinazione sintetizza l a quotamassima possibile della variabilità totale, la seco ndasintetizza la quota massima della variabilità total e dopo laprima, e cosi via.
�
L’individuazione delle variabili, come abbiamo detto,consiste in una trasformazione lineare delle variab ili cheproietta quelle originarie in un nuovo sistema cart esiano nelquale le variabili vengono ordinate in ordine decre scente divarianza spiegata. Pertanto, la variabile che spieg a lamaggior percentuale di varianza viene proiettata s ul primoasse, la seconda sul secondo e cosi via.
In questo capitolo, vedremo le procedure e i risult atisalienti di questa analisi per poi passare nei pros simicapitoli a delle applicazioni vere e proprie.
2. Metodologia di calcolo delle componenti.
a. Matrice dei dati, delle medie e di varianze-covar ianze.
Supponiamo di voler studiare le caratteristich e di unacerta popolazione, a questo proposito si rilevano p variabilisu un insieme di n unità. Questi dati possono esseresintetizzati in una matrice detta matrice dei dati . ChiamiamoX questa matrice; una sua rappresentazione è la seg uente.
Ogni colonna rappresenta una variabile e ogni r igaun’unità.
Una prima sintesi dei dati consiste nell’individuar e il
vettore delle medie ovvero X .
��
11 12 1
1 2,
, ,......,
....................
....................
, .......,
p
n n np
x x x
X
x x x
=
1( , , )nX X X= K
Un’idea della relazione che esiste tra le variabili ovvero unasintesi delle informazioni relative alla distribuzi onecongiunta delle variabili può essere ottenuta attra verso imomenti secondi centrati, che costituiscono la matr ice divarianze-covarianze.
Tale matrice risulta simmetrica (ovvero S'= S) e semi-definitapositiva. Va notato però che questa matrice present a a voltedegli inconvenienti, infatti, essa risente dell’uni tà dimisura. Nel caso in cui volessimo fare un’analisi n ella qualetutte le variabili non sono espresse nella stessa u nità dimisura, conviene considerare una sua versione stand ardizzata,cioè la matrice di correlazione.
Nel seguito, considereremo la matrice di varianze- covarianzeovvero ci mettiamo in un contesto in cui tutte le v ariabilihanno la stessa unità di misura.
b. Determinazione della varianza nell’ACP
L’ACP, come abbiamo detto, ha per obiettivo la dete rminazionedi combinazioni lineari tra di loro indipendenti de llevariabili di partenza, in modo da avere, dopo alcun esemplificazioni ed eliminazioni delle ridondanze, u na sintesifacilmente interpretabile dei dati.
Sia allora Y la matrice delle variabili trasforma telinearmente,
��
11 12 1
1 2,
, ,......,
....................
....................
, .......,
p
p p pp
s s s
S
s s s
=
cioè: Y XA=
Dove con A indichiamo una particolare matrice di pe si didimensione (p x p), e Y la matrice delle componenti principalidi dimensione (n x p).
La forma matriciale della matrice y è quindi:
11 22 1 11 12 1
21 22 2 21 22 2
1 2 1 2
, ,...... , ,......
, ,...... , ,......
.................... ....................
.................... ....................
, ....... , .......np
p p
p p
n n p p
x x x a a a
x x x a a a
y
x x x a a a
= pp
Per semplicità d’esposizione consideriamo la prima componente.
Abbiamo quindi che:
1 1y xa= ove:
11 11 1( ,......, ,...., )psa a a a= , ovvero il vettore 1a
rappresenta la prima colonna della matrice A, e x i ndica laprima riga di X.
Vogliamo che la prima componente sia, per definiz ione, lacombinazione lineare di massima varianza. Dato che la varianzatotale di una trasformazione lineare di x è esprimibile infunzione della matrice di varianze-covarianze S, a bbiamo:
Il vettore dei coefficienti dovrà essere in modo tale damassimizzare l’espressione precedente. Le soluzioni di taleproblema di massimizzazione sono però infinite, per ché lacombinazione lineare contiene un fattore di scala a rbitrario.Ovvero le soluzioni sono del tipo, scelto un k qual siasi:
��
'1 1 1var( )y a Sa=
si capisce che k può aumentare all’infinito. Per ovviare aquesto, si introduce quindi un vincolo, cioè si imp one che lanorma del vettore di coefficienti sia uguale ad una costante.Solitamente, si sceglie la condizione di normalizzaz ione, cioè
che tale norma sia uguale ad uno, nel nostro caso: '1 1 1a a = .
Il problema diventa quindi un problema di massimizz azionevincolata e va risolto con il metodo dei moltiplicatori diLagrange, ovvero richiede l’impiego di un moltiplicatore di
Lagrange λ .
Poniamo:
Massimizzare f equivale a determinare le soluzioni delladerivata prima di f rispetto agli “a”, ovvero:
(1)
L’equazione (1) ha soluzione se e solo se (teorema di ROUCHE-CAPELLI) è singolare, ovvero, se il suo determinant e è nullo.Questa equazione è conosciuta come equazione caratt eristica .
La soluzione di essa comporta la ricerca di p valor i di λ ,
dette radici caratteristiche o semplicemente radici oppureautovalori (in inglese Eigenvalues)
��
( ) ' ( )ka S ka
' '( 1)f a Sa a aλ= − −
2 2 0f
S aa
λ∂ = − =∂
2( ) 0S I aλ− =
( ) 0S I aλ− =
⇒
⇒
Abbiamo posto:
Moltiplicando entrambi i membri per 1a si ottiene
ma sappiamo che '1 1 1a a = allora si ottiene:
'1 1 1a sa λ= ma sappiamo ancora che:
allora:
1 1var( )y λ=
Abbiamo così mostrato che la varianza della prima c omponente èl’autovalore associato ad essa, che sappiamo essere il massimodi tutti gli autovalori.
Passiamo adesso a determinare la seconda componente :
2 2y xa= ,
affinché essa sia ortogonale alla prima componente, il vettore
dei coefficienti 2a deve soddisfare il seguente vincolo:
1 2 0a a = , oltre al vincolo di normalizzazione: 2 2 1a a = .
Operando in maniera analoga a prima si ottiene:
��
1 1
1 1
( ) 0S I a
Sa a
λλ
⇒ − =⇒ =
' '1 1 1 1 1a Sa a aλ=
'1 1 1var( )y a Sa=
'1 1 1 1var( )y a Sa λ= =
per cui si sceglie il secondo autovalore, in ordi nedecrescente dalla matrice di varianze-covarianze, e lo si
indica con 2λ .
In generale, si dice i-esima componente principale di pvariabili, espresse in termini di scostamenti dalla media, lacombinazione lineare:
i iy xa= , per i=1. . . . k ≤ p
In cui ia è l’autovettore associato all’i-esimo autovalori iλ ,
in ordine decrescente, della matrice di varianze-co varianze.
Ogni autovalore iλ è uguale alla varianza della corrispondente
componente.
c. Proprietà della varianza nell’ACP
• Due componenti qualsiasi iy e jy sono linearmenteindipendenti, ovvero i rispettivi vettori sonoortogonali:
Quindi per ogni i ≠j abbiamo i jy y⊥ , il che equivale alla
condizione ' 0a a = .
Siccome la matrice S è simmetrica e gli autovettori sonoa due a due ortogonali, si deduce che la matrice divarianze-covarianze delle componenti è una matricediagonale avendo sulla diagonale le rispettive vari anze.
• La somma degli autovalori è uguale alla traccia, ossiaalla somma degli elementi diagonali della matrice. Se perla determinazione delle componenti principali abbia mousato la matrice di varianze-covarianze allora la somma
�'
2 2( ) 0S I aλ− =
degli autovalori è uguale alla somma delle varianze dellevariabili osservate.
2( )pr
i ji j
tr s sλ = =∑ ∑
Se invece le componenti sono state ottenute a parti re dallamatrice di correlazione, allora:
( )p
ii
tr R pλ = =∑
•Il prodotto degli autovalori è uguale al determinan te dellamatrice di partenza.
1
| |p
iisλ
==∏
Dal teorema di scomposizione spettrale (Salce 2005) , si deduceche:
- È sempre possibile scomporre una matrice di varia nzecovarianze o una matrice di correlazione, in un num ero dicomponenti principali mai superiore al numero divariabili osservate.
- È sempre possibile ricomporre una matrice di vari anze-covarianze, conoscendo autovalori e autovettori.
- Una matrice di varianze-covarianze può essere app rossimatacon gli autovalori e gli autovettori più “significa tivi”.
�-
- Le componenti non sono indipendenti dalla scala di misuradelle variabili: se si moltiplica una variabile oss ervataper un valore costante, la matrice di varianze-cova rianzecambia, e così pure le componenti generate. Esse n onvariano se le variabili hanno uguali varianze, oppu resono state standardizzate.
d. Standardizzazione delle variabili di partenza
ACP, essendo una procedura esplorativa multivariata vieneadoperata su in insieme di dati che ha di solito ta ntevariabili, inoltre queste variabili non sono a volt e tra diloro confrontabili. In tale caso, non è possibile l avoraredirettamente con la matrice di varianze-covarianze, ma occorreuna sua trasformata, ovvero lavorare con la matrice dicorrelazione.
La standardizzazione è un procedimento che riconduce unavariabile aleatoria con media µ e varianza σ2, ad una variabilealeatoria con distribuzione "standard", ossia di me dia zero evarianza pari ad uno.
Il procedimento è il seguente a partire dalla ma trice dipartenza X, e note le medie e le varianze delle pop olazioni diappartenenza delle variabili, il processo di standa rdizzazionepermette di normalizzare le variabili:
1 1 2 2
1 2
, ,........ p p
p
xx x µµ µσ σ σ
−− −
Ed ottenere un nuovo campione che ha la particolari tà di averele variabili con media nulla e varianza unitaria. S i mostrache la matrice di varianze-covarianze del nuovo cam pione cosìottenuto coincide con la matrice di correlazione de l campioned’origine. Ecco il perché dell’uso diretto della ma trice dicorrelazione. Va notato però che gli autovalori ott enuti conla matrice di correlazione sono diversi da quelli o ttenuti conla matrice di varianze-covarianze iniziale.
��
e. Scelta del numero delle componenti principali
Come abbiamo visto precedentemente la varianza d i unacomponente è uguale al relativo autovalore, e la va rianzatotale è quindi uguale alla somma di questi ultimi .
Per ottenere la proporzione di variabilità spieg ata daciascuna componente, è sufficiente, quindi, avere i l rapportotra l’autovalore relativo alla componente e la vari anzatotale:
1
/p
i ii
λ λ=∑
Resta allora da definire il numero di componenti dascegliere, ovvero, quali sono i criteri per la scel ta delnumero di componenti?
I criteri sono in generale di tre tipi:
- Il primo consiste nel prendere le prime component i le cuipercentuali cumulate spiegano tra l’80% e il 90% de llavariabilità dei dati.
- Oppure seguire “ la regola di Kaiser” che ci dice diprendere solo quelle componenti che hanno un autova loremaggiore o uguale a uno (se l’analisi è stata fatta sullamatrice di correlazione), oppure, in modo equivale nte,prendere le componenti che hanno varianza maggiore dellamedia degli autovalori (se invece l’analisi è statacondotta su quella di varianze-covarianze).
- Oppure usare il metodo grafico detto “screen-plot ”, dovesi sceglie il numero di componenti in corrispondenz a delquale il grafico presenta un “gomito”.
�)
f. Interpretazione delle componenti principali .
Dopo aver scelto il numero delle componenti e quind i lecomponenti stesse, viene la parte più importante de ll’analisiovvero l’interpretazione delle componenti trovate.
Interpretare una componente o fattore significa att ribuirgli“un nome”, ma non è facile a volte trovare un nome ad unacombinazione di variabili. Questo può risultare più agevole seè stata ben fatta prima un’accurata analisi esplora tiva deidati in modo da accertarsi che le variabili siano d avverounite da relazioni così forti da rendere plausibile l’ACP.Quindi oltre a limitarsi all’analisi delle componen ti trovateconviene considerare anche la forma del test grafic o (screen-plot) sugli autovalori; se il grafico presenta un g omito,allora l’ipotesi dell’esistenza di fattori è plausi bile, seinvece la forma è quasi rettilinea allora le compon entitrovate sono di solito una semplice trasformazione dellevariabili di partenza.
Poi, viene la fase vera e propria dell’analisi d ellecomponenti trovate. Questo può essere fatto in dive rse maniereelencate di seguito:
- Saturazione di una componente: Il coefficiente dicorrelazione tra un componente e una variabile pren de ilnome di peso fattoriale o saturazione, questo valor erisulta particolarmente interessante perché permett e diquantificare l’importanza di ogni variabile nellospiegare la componente.Infatti, tanto grande è in valore assoluto, tanto èimportante nello spiegare il fattore stesso. Non es istonoperò regole universali per fissare il limite dopo i lquale una saturazione è rilevante. Si possono accet tarealcuni suggerimenti, come quello di Overall e Klett(1972), di prendere come valore minimo in assoluto 0.35,oppure, tenendo conto del fatto che il livello dell acorrelazione è legato alla variabilità della compon ente,si può scalare la soglia in funzione della radicequadrata degli autovalori, si può partire ad esempi o con
��
il primo fattore da 0.8 e arrivare per l’ultimo con unvalore prossimo a quello suggerito da Overrall e Kl ett.
• A volte per interpretare agevolmente le componenti ,occorre appoggiarsi ai mezzi grafici che abbiamo adisposizione. Infatti, la rappresentazione grafica deipesi fattoriali sui piani definiti da coppie di fat torimette in evidenza le variabili che più saturano lecomponenti.Questa rappresentazione permette di percepire forme difattori e posizioni particolari di classi di entità . Trale forme più comuni si evidenziano: la concentrazio ne dinuvole di punti in posizioni isolate dello spaziofattoriale e le configurazioni curve, dette “EFFETT OGUTTMAN”.
- L’individuazione di un insieme di punti in posizi oneisolate nello spazio fattoriale sta a indicare che levariabili che fanno parte di una nuvola si riferisc onoalla stessa componente, e quindi in questo caso con vieneruotare gli assi finchè uno non vi passa o, ovviame nte,nelle vicinanze.
- Effetto Guttman: è caratterizzato da forme generalmentecurvilinee. La più nota è sicuramente quella che pr esentauna configurazione detta a forma di “ferro di caval lo”,con eventuale involuzione (rientro verso l’interno) deipunti terminali. Questo è dovuto generalmente dallamancata standardizzazione delle variabili, oppuredall’aver dato alle variabili peso uguale quando inrealtà hanno peso diverso.
Un fattore curvilineo di solito implica la necessit a diestrarre un numero di componenti generalmente super iore aquello effettivamente estratto: la rappresentazione diuna componente non lineare richiede l’estrazione di dueassi fattoriali.
In alcuni casi la forma a ferro di cavallo è una distorsionedella rappresentazione eliminabile cambiando la sca la degliassi, se la ragione dell’arcuarsi degli assi sta ne llecompressioni dei punti terminali; può anche essere
��
ineliminabile se il pattern rappresentato è comples so oppure idati analizzati sono effetti di vari errori di rile vazione.
Nei prossimi capitali analizzeremo dei casi relativ i alcomportamento degli utenti che visitano alcuni siti .
��
CAPITOLO II:
Analisi dei dati relativi al dataset gazelle
1. introduzione
Il sito web "www.Gazelle.com" è un portale di com mercioelettronico che vende prodotti di calzetteria e di prodottiper la cura delle gambe (sito in realtà ora chiuso, ma quipresumiamo che sia ancora attivo). L'ufficio Market ingdell'azienda che gestisce il portale è interessato a conosceremeglio i navigatori ed i loro comportamenti per pot erpredisporre meglio il disegno e l'ordinamento delle diversepagine di cui si compone il sito, eventualmente ado ttandostrumenti per la personalizzazione delle pagine.
Con lo scopo quindi di identificare i navigatori (o meglioloro comportamenti) che sono clienti buoni, sono st atiraccolti alcuni dati per ciascun cliente sulle vari e sedute incui ha acquistato o è entrato nel sito. I dati rigu ardano (ovepresenti) le risposte ad un questionario somministr ato aiclienti al primo accesso al sito, e informazioni le gate allanavigazione e agli ordini di acquisto effettuati. L e variabilidisponibili sono descritte nel seguito. Si osservi che questidati non sono frutto di un esperimento controllato e possonoessere influenzati da fattori esterni (come campagn e dimarketing ecc.) non controllabili.
I dati sono composti di 1781 unità e 136 variabili, per farel’analisi abbiamo deciso di dividere la matrice insottomatrici, una composta dalle variabili qualitat ive e
��
un’altra composta da sole variabili quantitativi, d ella qualeriportiamo di seguito il significato delle variabil i:
��������� ���������������������������������������������������������� ��
.�� %����������� �%��� ���/� ���� � �0 ��1��
.�� %����������� �%��� ���/� ���� � �(�!����
.�� %����������� �%��� ���/� ���� � ������1��
.�' %����������� �%��� ���/� ���� � �"��� ����
.�- %����������� �%��� ���/� ���� � �������1��
.�� %����������� �%��� ���/� ���� � �.����1��
.�) %����������� �%��� ���/� ���� � �2���1��
.�� %����������� �%��� ���/� ���� �������)����������������
.'� %����������� �%��� ���/� ���� ����������������������
.'� %����������� �%��� ���/� ���� ����������������������
.'� %����������� �%��� ���/� ���� �������'����������)�����
.'� %����������� �%��� ���/� ���� ������������������'�����
.'� %����������� �%��� ���/� ���� �����������������������
.'' %�������������/� �� ���������� ������ ���3 �3��
.'- %�������������/� �� ���������� ������ ��4 %�� ����
.'� %�������������/� �� ���������� ������ ���5���
.') %�������������/� �� ���������� ������ ���,��
.'� %�������������/� �� ���������� ������ ��'3 -3��
.-� %�������������/� �� ���������� ������ �����
.-� %�������������/� �� ���������� ������ �����
.-� %�������������/� �� ���������� ������ �����
.-� %�������������/� �� ���������� ������ ���6��
��
.-� %�������������/� �� ���������� ������ �����
.-' %�������������/� �� ���������� ������ ��'��
.-- %�������������/� �� ���������� ������ ���%��
.-� %�������������/� �� ���������� ������ �����
.-) %�������������/� �� ���������� ������ ���7��
.-� %�������������/� �� ���������� ������ ��,��
.�� %�������������/� �� ���������� ������ ��$��
.�� %�������������/� �� ���������� ������ ��"��
.�� %�������������/� �� ���������� ������ ��8��
.�� %�������������/� �� ���������� ������ ��9��
.�� %�������������/� �� ���������� ������ �����
.�' %�������������/� �� ���������� ������ ��2��
.�- %�������������/� �� ���������� ������ �����
.�� %�������������/� �� ���������� ������ ��%��
.�) %�������������/� �� ���������� ������ ��(��
.�� %�������������/� �� ���������� ������ ��:��
.)� %�������������/� �� ���������� ������ ��(5���
.)� %�������������/� �� ���������� ������ ���%��
.)� %�������������/� �� ���������� ������ ��$"��
.)� %�������������/� �� ���������� ������ ���7��
.)� %�������������/� �� ���������� ������ ��2572��
.)' %�������������/� �� ���������� ������ ���%��
.)- %�������������/� �� ���������� ������ ��$5"��
.)� %�������������/� �� ���������� ������ ���7��
.)) %�������������/� �� ���������� ������ ���5���
�'
.)� %�������������/� �� ���������� ������ ��89��
.�� %�������������/� �� ���������� ������ ��- )��5���
.�� %�������������/� �� ���������� ������ ���7��
.�� %�������������/� �� ���������� ������ ����7���
.�� %�������������/� �� ���������� ������ ��� ����
.�� %�������������/� �� ���������� ������ ��%���
.�' %�������������/� �� ���������� ������ ���3 �3��
.�- %�������������/� �� ���������� ������ ��%���
.�� %�������������/� �� ���������� ������ ��%���
.�) %�������������/� �� ���������� ������ ���52��
.�� %�������������/� �� ���������� ������ ��;���( ����
.��� %�������������/� �� ���������� ������ ��72��
.��� %�������������/� �� ���������� ������ ��7:��
.��� %�������������/� �� ���������� ������ ��' -��5���
.��� %�������������/� �� ���������� ������ ��%%��
.��� %�������������/� �� ���������� ������ ���5,��
.��' <���=�����%�����. �>���
.��- <���;�!���%�����. �>���
.��� <������� ���8����� ����%�����. �>���
.��) <���"���? ��%�����. �>���
.��� <���"���@�����%�����. �>���
.��� <���0 ����AB�%�����. �>���
.��� <���8���% ����%�����. �>���
.��� <���< ���� �����%�����. �>���
.��� <���=�(3�%�����. �>���
�-
.��� <���8����:���B�%�����. �>���
.��' <���2��>����%�����. �>���
.��- <���2��$����%�����. �>���
.��� <���$����%�����. �>���
.��) <���<B���%�����. �>���
.��� <���$���3�%�����. �>���
.��� <���2B����%�����. �>���
.��� <���2�3��B�%�����. �>���
.��� <���C�B��%�����. �>���
.��� <���$���5���B� ��%�����. �>���
.��� <���( �?�%�����. �>���
.��' <���;��/���%�����. �>���
.��- <���=��� ��!���%�������. �>���
.��� <���(�� ���%�������. �>���
.��) <���%�� �%�������. �>���
.��� <���$������� ����%�������. �>���
.��� <���(� �%�������. �>���
.��� <���% /���%�������. �>���
.��� <���% ��"��%�������. �>���
.��� <���9�����%�������. �>���
.��� <���,���;��������������. �>���
.��' <���D� /��,�� /��������������. �>���
.��- <���,���������������. �>���
.��� <���"���������������������. �>���
.��) <���2 *�(�B��������������. �>���
��
.��� <���(������������������������. �>���
.��� <���E����������������. �>���
.��� <���(�����������������. �>���
!�� ��=������� ���� ��� F� �G�������� ����:����9�����
In questa sede ci limiteremo all’analisi della matr icerelativa ai dati quantitativi.
2. Analisi descrittive
Un primo approccio all’analisi dei dati consiste ne l farne unasintesi in modo da evidenziare le loro principalicaratteristiche. Di seguito riportiamo una tabella cheriassume la loro sintesi, dove abbiamo indicato con :
-N: il numero totale di unità.-Media: le medie delle variabili.-Std.Dev: le devianze standard.
�)
���������������<������������ ���������(������� ���������������������������������������������������
.����������)��������)����������������- .����������)����������������������������-�
.����������)�������)�������������������� .����������)������������������������������
.����������)�����)����������������)�'� .����������)����������-�����������������-�
.�'��������)�������'������������������)� .�'��������)����������)���������������'���
.�-��������)����������������������'��� .�-��������)����������)�������������������
.����������)����������������������'��� .����������)����������������������������)�
.�)��������)�������-��-�������������'��- .�)��������)�����������������������������)
.����������)�������)����������������)��� .����������)����-���)�����������������
.'���������)�������������������������' .��������)����������������������������''
.'���������)���������)��������������-�-) .��������)����������'�����������������-�
.'���������)�����'�������������������� .��������)�����������������������������-
.'���������)�������-������������������ .��������)������������������������������
.'���������)��������'����������������� .��������)����������'���������������-�-�
.''��������)����������)���������������-��) .��'�����)���������-������������������-�
.'-��������)����������-������������������� .��-�����)����������������������������-�
.'���������)�����������������������������) .��������)�����������������������������'
.')��������)���������������������������) .��)�����)����������)�������������������
.'���������)����������������������������'' .��������)�����������������������������)
.-���������)���������)����������������)��� .��������)������������������������������
.-���������)��������������������������-� .��������)�����������������������������)
.-���������)������������������������-�'' .��������)������������������������������
.-���������)������������������������������ .��������)����������'�������������������
.-���������)���������'����������������-��� .��������)���������-������������������-)
.-'��������)���������'����������������-��� .��'�����)�������'��������������������
.--��������)������������������������������ .��-�����)������������������������������
.-���������)������������������������������ .��������)�����������������������������-
.-)��������)������������������������������ .��)�����)������������������������������
.-���������)���������)-���������������)��) .��������)�����������������������������)
.����������)����������'������������������� .��������)������������������������������
.����������)���������'����������������-�)' .��������)����������-�������������������
.����������)�����������������������������) .��������)����������������������������'�
.����������)�����������������������������) .��������)������������������������������
.����������)���������-)����������������- .��������)�����������������������������'
.�'��������)���������������������������� .��'�����)�����������������������������'
.�-��������)���������')����������������� .��-�����)����������������������������'�
.����������)������������������������������ .��������)������������������������������
.�)��������)����������'����������������� .��)�����)������������������������������
.����������)���������')�������������'��� .��������)���������))�������������������
.)���������)��������������������������-��� .��������)��������������������������'���
.)���������)��������������������������'��� .��������)������������������������������
.)���������)����������)����������������' .��������)�����������������������������-
.)���������)����������������������������)' .��������)������������������������������
.)���������)������������������������������ .��������)����������������������������-)
.)'��������)��������������������������'��� .��'�����)����������������������'��-
.)-��������)����������)������������������� .��-�����)��������������������������
.)���������)����������'������������������� .��������)����������'���������������''
.))��������)������������������������������ .��)�����)����������������������������))
.)���������)����������'���������������)�)� .��������)�����������������������������-
.����������)������������������������������ .��������)����������)�������������������
��
.��������)������������������������������
A questo punto, analizziamo questa tabella in dett aglio inmodo da identificare le pagine più visitate. Per fa re ciò,ordiniamo le pagine in ordine decrescente rispetto al numeromedio divisibile e ci limitiamo alle prime diciasse tte.
V99 V46 V52 V53 V50 V54 V44 V42 V4 7 V136
60.98 29.21 25.33 21.61 20.92 20.25 18.44 17.18 14. 74 11.43
V135 V49 V43 V137 V48 V115 V45
10.03 8.74 8.10 7.25 6.96 5.71 5.09
Analizzando questa tabella, sembra che la pagina v9 9 sia lapagina più visitata, a seguire vengono le altre con frontandoquesta tabella con la sua omologa relativa alle per centuali divalori maggiore di zero:
V115 V134 V135 V137 V136 V99 V130 V117 V107 V46 V 129 V52
0.97 0.85 0.79 0.75 0.69 0.64 0.56 0.53 0.40 0.30 0 .30 0.26
V140 V118 V114 V53 V105 V50 V54 V44 V113 V42 V47 V108
0.25 0.24 0.23 0.22 0.22 0.21 0.21 0.19 0.19 0.18 0 .15 0.14
L'analisi di questa tabella mette in luce le pagine piùvisitate, infatti, vediamo che il 97% degli utenti visitano lapagine v115,a seguire, le pagine v134, v135, v136, v99, e v130che sono visitate da più del 50% degli utenti, si p uò alloraintuire che queste pagine sono le pagine di più int eresseovvero le pagine le più visitate.
Si può inoltre verificare in corrispondenza a quali pagine sihanno dei massimi:
��
V136 V115 V135 V118 V130 V137 V108 V116 V42
548 271 206 162 162 162 160 154 100
A questo punto possiamo dire che le pagine V136, V1 15, V135,V118, V130, V137, V108, V116 sono le pagine più vis itate.
Restringiamo la nostra analisi alla sotto-matrice c ompostadalle variabili relative al numero di articoli vist i dagliutenti nei diversi giorni in modo da vedere se esis tono delledifferenze sostanziali tra i buoni e i cattivi clie nti.
3. Differenze tra i buoni e i cattivi clienti
In questa parte, siamo interessati a mettere in evi denza ledifferenze che esistono tra i buoni e i cattivi cli enti,identificati dalla variabile disponibile “buono”.
A questo proposito, consideriamo una nuova variabil e chemisura il numero di tutti i siti visitati.
Effettuiamo prima un’analisi esplorativa dei dati. Siamoallora interessati a sapere se mediamente i buoni c lientivisitano più spesso il sito rispetto agli altri.
La sintesi dei dati trasformati relativi ai due gru ppi è laseguente:
• Buoni clienti:
Min. primo Qu. Mediana Media 3° Qu. Max .
4 26 40 49.79 62.00 232
• Cattivi clienti:
Min. 1st Qu. Mediana Media 3° Qu. Max.
1 22 34 41.98 52 248
��
Sembra che i buoni clienti visitino più siti rispet to aiclienti cattivi; infatti, il primo quantile, la me diana e ilterzo quantile relativi ai buoni clienti sono legge rmentesuperiori a quelli dei cattivi. Il boxplot, diviso in manieratale da identificare i buoni e i cattivi clienti, è riportatodi seguito:
• Boxplot relativo ai buoni e cattivi clienti
Il boxplot, in entrambi i casi, presenta delle asim metrie adestra, il che significa che i dati non si possono considerarenormali, come ci conferma il test di Shapiro (shapi ro 1985)che verifica la normalità di un insieme di dati.
Test di normalità dei dati
•data : buoni clienti
W = 0.8466, p-value < 2.2e-16
��
• data: cattivi clienti
W = 0.7849, p-value < 2.2e-16
In entrambi i casi il test rifiuta l’ipotesi di nor malità deidati al livello 5% e questo si vede anche dai grafi ci diconfronto dei quantili delle distribuzioni osservat e conquelli teorici della normale.
-3 -1 1 3
050
100
150
200
buoni
Theoretical Quantiles
Sam
ple
Qua
ntile
s
-3 -1 1 3
050
100
150
200
250
cattivi
Theoretical Quantiles
Sam
ple
Qua
ntile
s
��
• grafici di confronto dei quantili delle distribuzi oniosservate con quelli teorici della normale.
Va notato però, che abbiamo un'elevata numerosità d i dati, ilnostro dataset è composto da 1768 unità, numero tal mentegrande da permetterci di applicare il test senza pr eoccuparcidella loro normalità.
Il risultato del test t-student ( Laboratorio di statistica conR, Stefano M. Iacus, Guido M.) per la verifica delle medie neigruppi è il seguente
t.test a due campioni
data: buoni e cattivi
t = 4.0866, df = 1766, p-value = 4.573e-05
ipotesi alternativa: le due medie sono diverse da z ero
intervalli di confidenza al 95%
0.07777575 0.22132360
stime delle medie:
media di x media di y
3.682171 3.532621
Il valore del test è 4.0866, con un valore di signi ficativitàosservato di 4.573e-05; rifiutiamo quindi l’ipotesi nullaovvero che le due medie sono uguali.
In conclusione, possiamo affermare che mediamente e sistonodelle differenze tra i buoni e i cattivi clienti ne l visitarele pagine relative ai diversi articoli; in effetti, unapersona prima di acquistare un prodotto tende a vis itare piùarticoli.
Questo è un fatto interessante, perché suggerisce d iclassificare rigorosamente le pagine in base all’in teresse diparticolari gruppi di clienti, in modo da attirare le loro
��
attenzioni, e quindi “costringerli” a spendere anch e più deldovuto.
Per agevolare questa classificazione, è opportuno a vereun’idea sull’importanza dei prodotti visti dagli ut enti. Conquesto scopo applichiamo sulle variabili così otten utel’analisi delle componenti principali.
4. Applicazione dell’ACP sui dati
a. Matrice di varianze-covarianze o matrice di corr elazione?
Come abbiamo visto nel primo capitolo, la scelta de lla matriceè molto importante ai fini dei calcoli e dell’inter pretazionedei risultati.
In questo caso, notiamo che i nostri dati sono tutt i relativial numero di prodotti visti da un utente. Possiamo considerarele osservazioni nella stessa unità di misura, quind i, èpossibile confrontarle senza procedere ad una lorotrasformazione. Optiamo allora per la matrice di va rianze-covarianze invece di quella di correlazione.
b. Analisi dei dati relativi ai buoni clienti
i. Percentuale di varianza spiegata da ogni componente.
La tabella sottostante riporta lo standard error, l epercentuali di varianza spiegata da ogni componente e lepercentuali cumulate di ogni componente.
�'
std. error P. di varianza P. cumulata
Comp.1 25.91 61.61 61.65
Comp.2 14.69 19.80 81.42
Comp.3 9.40 8.12 89.54
Comp.4 6.50 3.87 93.42
Comp.5 4.84 2.15 95.58
Comp.6 3.55 1.16 96.74
Comp.7 2.96 0.80 97.54
Comp.8 2.29 0.48 98.03
Comp.9 2.13 0.42 98.45
Comp.10 1.74 0.27 98.73
Comp.11 1.46 0.19 98.92
Comp.12 1.44 0.19 99.12
Comp.13 1.24 0.14 99.26
Comp.14 1.18 0.12 99.39
Comp.15 1.15 0.12 99.51
Comp.16 1.00 0.093 99.60
Comp.17 0.96 0.085 99.69
Comp.18 0.77 0.055 99.74
Comp.19 0.72 0.048 99.79
Comp.20 0.69 0.044 99.84
Comp.21 0.60 0.037 99.87
Comp.22 0.58 0.031 99.90
Comp.23 0.49 0.022 99.92
Comp.24 0.44 0.018 99.94
Comp.25 0.36 0.012 99.96
Comp.26 0.33 0.010 99.97
Comp.27 0.26 0.0066 99.97
�-
Comp.28 0.26 0.0063 99.98
Comp.29 0.25 0.0059 99.98
Comp.30 0.17 0.0029 99.99
Comp.31 0.15 0.0023 99.99
Comp.32 0.14 0.0019 99.99
Comp.33 0.125 0.00145 99.99
Comp.34 0.11 0.00124 99.99
Comp.35 0.06 0.00034 99.99
Comp.36 0.04 0.0002 100
Vediamo che i risultati sono soddisfacenti; infatti , si vededal riassunto che per spiegare più dell’80% della v ariabilitàdei dati abbiamo bisogno solo di tre componenti su un totaledi trentasei. I grafici mostrano, infatti, che dopo la terzacomponente il guadagno in termini di variabilità ri sultainsignificante.
componenti principali dei prodotti visti
Va
ria
nce
s
01
00
20
03
00
40
05
00
60
0
Comp.1 Comp.3 Comp.5 Comp.7 Comp.9
��
Vediamo da questi grafici che dopo la terza compone nte il“guadagno” in termini di variabilità è irrilevante; scegliamoallora tre componenti per poter spiegare e interpre tare idati.
ii. Interpretazione delle componenti trovat e.
L’interpretazione delle componenti principali consi stenell’analisi delle combinazioni trovate e quindi de icoefficienti di correlazione o autovalori.
Queste combinazioni sono le seguenti (riportiamo so lo le primetre componenti):
Pesi:
Comp.1 Comp.2 Comp.3
V108 -0.108
V115 -0.359 0.160
V116 0.116
V117 0.100
V118 -0.114
V130 -0.163
V135 -0.255 -0.922 -0.223
V136 -0.827 0.356 -0.270
V137 -0.222 0.898
In questa tabella sono stati omessi gli autovalori in valoreassoluto inferiore a 0,1 e le variabili in cui ness una dellecomponenti ha valori maggiore di 0,1. Per interpret areagevolmente questi risultati è meglio avvalersi di una nuova
�)
tabella nella quale da una parte mettiamo le variab ili consegno + e dall’altra quelle con segno (-).
• Prima componente
Variabili con segno (+) Variabili con segno (-)
•V108 Num DanskinProduct Views( -0.108)
•V115 Num Leg wearProduct Views( -0.359)
•V118 Num NylonProduct Views( -0.114 )
•V130 Num SolidPattern Views( -0.163)
•V135 Num UniqueBoutiquesAssortment Views(-0.255)
•V136 Num BrandsAssortment Views(-0.827)
• V137 NumDepartmentsAssortment Views(-0.222)
Nell’analisi di questa componente, vediamo che tutt i gliautovalori hanno segno negativo; questo vuole dire che essi sicollocano solo sul quadrante relativo all’asso nega tivo.
Vediamo inoltre che la variabile che ha il più gran de valore(in valore assoluto) è la variabile v136, relativa alle nuovecollezioni, poi viene la variabile v115 (che è la c ategoriadelle calze).
Tornando all’analisi effettuata sulla tabella relat iva allasintesi dei dati si nota che queste variabili sono levariabili più importanti, ovvero le pagine che sono più
��
visitate. Si può allora dire che questa componente mette inluce le pagine più importanti.
• Seconda componente:
Variabili con segno (+) Variabili con segno (-)
• V136 Num BrandsAssortment Views(0.356)
• V135 Num Unique BoutiquesAssortment Views (-0.922)
Questa componente sceglie solo due delle variabiliimportanti e le mette a confronto, ovvero oppone i prodottidella ”unique boutique” a quelli dei nuovi assortim enti.
Abbiamo quindi da un lato i clienti attenti alla mo da, edall’altra parte quelli che sono interessati ai pro dottidella “unique boutique”. Andando quindi a indagare a fondosulle variabili vediamo che i prodotti della “uniqu eboutique” sono i cosiddetti “prodotti chic” mentre i nuoviassortimenti sono i prodotti intermedi.
•Terza componente :
Variabili con segno + Variabili con segno -
•V115 Num Leg wearProduct Views (0.160)
•V116 Num Leg CareProduct Views (0.116)
•V117 Num Cotton ProductViews (0.100)
•V137 Num DepartmentsAssortment Views(0.898)
•V135 Num Unique BoutiquesAssortment Views( -0.223)
•V136 Num Brands AssortmentViews (-0.270)
Qui abbiamo da un lato i prodotti relativi alle gam be insiemeai prodotti in cotone e i prodotti del dipartimento , eall’opposto abbiamo i prodotti relativi alla “uniqu e boutique”e i nuovi assortimenti.
��
Questa componente divide quindi la popolazione dei clienti indue: abbiamo in primis i clienti a basso profilo in teressatisolo ai prodotti legati alle gambe senza tener cont o dellamarca e dall’altra parte abbiamo l’insieme dei clie ntiinteressati sia alla marca che ai prodotti trend.
Dopo queste analisi conviene a questo punto andare a vedere lecorrelazioni che esistono tra le componenti, analiz ziamo i
grafici sottostanti :
-0.6 -0.4 -0.2 0.0 0.1
-0.6
-0.4
-0.2
0.0
0.1
comp1 vs comp2
Comp.1
Co
mp
.2
12
3
4
56 7
8910
11
12
13
1415
16
17181920212223
24252627
2829
303132
3334353637383940414243
44
45
46
47484950
515253
54
5556
5758596061626364656667
6869
70717273
74
75
76777879808182
83 84
858687888990919293949596979899100101102103104105
106107
108
109110111112113
114115
116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149
150151152153154155156157158159160161162
163164165166167168169170171172173174175176177178179180
181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213
214215216217218219
220
221222223224225226227228229230231
232233234235236237238239240241242243
244245246247248
249
250251252253254255256257258259260261262263264265266267268269270271272273274275276277278
279280281282283284285286287288289290291292293294
295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349
350351352353354355356357358359
360361362363364365366367368
369370371372373374375376377378379380381382383384385386387388389390391392393394395396
397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430
431432433434435436437438439440441442443444
445446447448449450451452453454455456457458459460461462463464465466
467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504
505506507508509510511512513514515516517518519520521522523524525526527528
529530531
532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570
571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603
604
605606607608609610611612613614615616617618619620621622623624625626627628629630
631632633634635636637638639640641642643644645646647648649650651652653654655656657
658659660661662663664665666667668
669
670671672673674675
676
677
678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750
751752753
754755756757758759760761762763764765766767768
769
770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803
804805806807808809810811812813814815816817818819820821822
823824825826
827
828829830831832833834835836837838839840841842843844845846
847848849
850851852
853854855856857858859860861862863
864865866867868869870871872873874875876877878879880
881
882883884885886887888
889
890891892893894895896897898899
900901902903904
905
906907908909910911912913914915916917918
919
920921922923924925
926
927928929930931932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969
970971972973974975976977978979980
981982983984985986987988989990991992993994995
996
9979989991000100110021003100410051006100710081009101010111012101310141015101610171018101910201021102210231024102510261027102810291030
103110321033103410351036
10371038103910401041104210431044104510461047104810491050105110521053105410551056105710581059
106010611062106310641065106610671068
1069
107010711072107310741075
1076107710781079108010811082108310841085108610871088108910901091
10921093109410951096
1097109810991100110111021103110411051106110711081109111011111112
1113111411151116111711181119
1120112111221123112411251126112711281129113011311132113311341135113611371138113911401141114211431144114511461147114811491150115111521153115411551156
115711581159116011611162116311641165116611671168116911701171117211731174117511761177117811791180
1181118211831184118511861187118811891190119111921193119411951196119711981199120012011202120312041205120612071208120912101211121212131214121512161217121812191220122112221223122412251226
1227
122812291230123112321233123412351236
123712381239124012411242124312441245124612471248124912501251125212531254125512561257125812591260126112621263126412651266
12671268126912701271127212731274
1275
12761277127812791280
128112821283128412851286128712881289129012911292129312941295
12961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318
131913201321132213231324132513261327
132813291330133113321333
1334133513361337133813391340134113421343134413451346134713481349135013511352
1353135413551356135713581359136013611362136313641365
1366
1367136813691370137113721373137413751376
137713781379138013811382138313841385138613871388138913901391
139213931394139513961397139813991400140114021403140414051406140714081409141014111412141314141415
1416141714181419142014211422142314241425142614271428142914301431143214331434143514361437143814391440144114421443144414451446
14471448144914501451145214531454145514561457145814591460146114621463146414651466146714681469147014711472147314741475147614771478
1479148014811482
1483148414851486148714881489149014911492149314941495
149614971498
1499150015011502150315041505150615071508150915101511151215131514151515161517151815191520152115221523152415251526152715281529153015311532153315341535153615371538153915401541154215431544154515461547154815491550
15511552155315541555155615571558155915601561156215631564
1565156615671568
15691570157115721573157415751576
1577157815791580158115821583158415851586158715881589159015911592159315941595159615971598159916001601160216031604160516061607
160816091610161116121613161416151616161716181619162016211622162316241625162616271628162916301631
1632
163316341635163616371638163916401641164216431644164516461647
164816491650165116521653165416551656165716581659166016611662166316641665
1666166716681669
1670
167116721673167416751676167716781679
1680
1681168216831684168516861687168816891690
1691169216931694169516961697169816991700170117021703
17041705
1706
17071708170917101711
1712
17131714171517161717171817191720
17211722172317241725172617271728
172917301731173217331734173517361737173817391740174117421743174417451746
1747
17481749175017511752
175317541755
175617571758175917601761
176217631764176517661767176817691770177117721773177417751776
17771778
177917801781
-1000 -600 -200 0 200
-10
00
-60
0-2
00
02
00
V105V106V107V108V109V110V111V112V113V114V115 V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134
V135
V136
V137V138V139V140
Questo grafico evidenzia le prime due componenti, l a prima cheha come variabile principale la v136 (i nuovi assor menti) e la
��
seconda componente diretta dalla variabile v135(uni queboutique assortment)
Il grafico della prima componente verso la terza è riportatodi seguito
-0.6 -0.4 -0.2 0.0 0.2
-0.6
-0.4
-0.2
0.0
0.2
comp1 vs comp3
Comp.1
Com
p.3
1
23
4
5
6
78910
111213
1415
1617181920212223
24
25262728
29303132
33
34
35363738394041424344454647484950
51
5253
54
5556
575859606162636465666768
69
7071
7273747576777879808182
838485
868788899091929394
9596979899100101102103104105106107108109110111112113114115
116117118119120121122123124125126127128
129130131132133134
135
136137138139140141142143144145146147148149150151152153154155156157158159160161162
163
164165166167168169170171172173174175176
177
178179180181182183184185
186187188189190191192193194195196197198
199200201202203204205206207208209210211212213
214215216217218219
220
221222223224225226
227228229230231232
233234235236
237238
239240241242243244245246247248249250251252253254255256257258259260261262263
264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315
316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352
353354355356357358359
360361362363364365366367368369370371372373374375376
377
378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425
426427428429430431432433434435436
437
438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479
480481482483484485486
487488489490491492493494495496497498499500501502503
504505506507508509510511
512513514515516517518519520521522523524525526527528529530531
532
533534535536
537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576
577
578579580581582583584585586587588589590591592593594
595596597598599600601602603
604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633
634635636637638639640641642643644645646647
648649650651652653654655656657658659660661662663664665666667668
669670671672673674675676
677678679680
681682683684685686687688689690691692693694695696697698699700
701702703704705706707708709710711712713714715716717718719720721722723724725726
727728729730731732733734735736737738739740741742743744745746747748749750
751752753754755756757758759760761762763764765766767768
769
770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811
812813814815816817818819820
821822823824825826
827
828829830831832833834835836
837
838839840841842
843844845846847848849850851852853854855856857858859860861862863864865866
867
868869870871872873874875876877878879880
881882883884885886887888889890891892893894895896897898899900901902903904905906907
908909910911912913914915916917918
919920921922923924925926927928929930
931
932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969
970
971972973974975
976977978979980981982983984985986987988989990991992993994995996997998999
1000100110021003100410051006100710081009101010111012
1013
10141015101610171018101910201021102210231024102510261027102810291030103110321033103410351036103710381039104010411042104310441045104610471048
10491050105110521053105410551056105710581059106010611062106310641065
1066106710681069107010711072107310741075107610771078
1079108010811082108310841085108610871088108910901091109210931094109510961097109810991100110111021103110411051106110711081109111011111112
1113111411151116111711181119
1120112111221123112411251126112711281129113011311132113311341135
113611371138113911401141114211431144114511461147114811491150115111521153115411551156115711581159116011611162
1163116411651166116711681169
1170117111721173
11741175
1176117711781179118011811182118311841185118611871188118911901191
1192
119311941195119611971198119912001201120212031204120512061207120812091210121112121213121412151216121712181219122012211222
12231224
122512261227122812291230123112321233123412351236
123712381239124012411242124312441245124612471248124912501251125212531254125512561257125812591260126112621263126412651266
1267126812691270127112721273127412751276127712781279128012811282128312841285128612871288128912901291129212931294
129512961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318131913201321132213231324
13251326132713281329133013311332133313341335133613371338133913401341134213431344134513461347134813491350135113521353
13541355135613571358
1359136013611362136313641365
1366136713681369137013711372137313741375
1376
1377137813791380138113821383138413851386138713881389
1390139113921393139413951396139713981399140014011402140314041405
14061407140814091410141114121413141414151416141714181419142014211422142314241425142614271428142914301431143214331434
1435
1436143714381439144014411442
14431444144514461447
1448144914501451145214531454145514561457145814591460146114621463146414651466146714681469147014711472147314741475147614771478
147914801481148214831484148514861487148814891490149114921493149414951496149714981499150015011502150315041505150615071508150915101511151215131514151515161517151815191520152115221523152415251526152715281529153015311532153315341535153615371538153915401541154215431544154515461547154815491550155115521553
15541555155615571558155915601561156215631564
1565
15661567156815691570157115721573
1574
157515761577
157815791580158115821583158415851586158715881589159015911592159315941595159615971598159916001601160216031604160516061607
160816091610161116121613161416151616161716181619162016211622162316241625162616271628162916301631
1632163316341635
16361637163816391640164116421643164416451646
1647
164816491650165116521653165416551656
1657
165816591660166116621663
1664166516661667166816691670167116721673167416751676167716781679
1680
168116821683
1684
16851686
1687
16881689169016911692169316941695169616971698
16991700170117021703
17041705
1706
17071708170917101711
1712
1713171417151716171717181719
1720
1721
172217231724172517261727
1728172917301731173217331734173517361737173817391740174117421743174417451746
174717481749
175017511752
175317541755
17561757
1758
1759176017611762
176317641765176617671768176917701771177217731774177517761777
1778177917801781
-800 -400 0 200 400
-800
-400
020
040
0
V105V106V107V108V109V110V111V112V113V114V115 V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134
V135V136
V137
V138V139V140
Questa componente evidenzia due grandi gruppi: il p rimo che hacome variabile principale la variabile v137(Num Dep artmentsAssortment Views) e il secondo con variabile princi pale v136nuovi assortimenti visti con essa; si nota la corre lazione conle variabili v115 (Num Legwear Product Views) e v13 5 (NumUniqueBoutiques Assortment Views)
��
Infine, l’ultimo grafico è relativo alle componenti due e trein cui si evidenziano tre grandi gruppi:
il primo caratterizzato dalla variabile v137,il sec ondo dallavariabile v135,e infine l’ultimo composto dalla var iabile v136
-0.2 -0.1 0.0 0.1 0.2
-0.2
-0.1
0.0
0.1
0.2
Comp.2
Com
p.3
1
23
4
5
6
7 8
910
11
1213
1415
161718
192021 2223
24
2526
2728
29 30
3132
33
34
3536373839
40
414243
4445
464748
4950
51
5253
54
55
56575859
60 616263646566
67
68
69
70
71
7273 7475 7677
787980
8182
83
8485868788
8990919293
9495
969798
99100101
102103104105106107
108109
110111
112113114115
116117118119120
121122123124125126
127128
129130131132133134
135
136
137138139
140
141142
143
144
145146147148149
150
151152
153154155156
157158159
160161162
163
164165166167168169170171172173174175176
177
178179
180181182183184185
186
187188189190191192193194195196197198
199
200201202203204205206207208209210211212213214
215216217218219
220
221222
223224225226
227228229
230231232
233234235236
237238
239
240241242243
244245246247
248249
250251252253254255256257258259260261
262263264
265266267268269
270
271272273274275276277278279280281282283284285286
287288289290291292293294295296
297298
299300301302303304305306307308309310311312313314315316
317318319
320
321322323324325
326327328
329330331332
333334335336337338339340341342343344345346
347348349
350351352
353
354355356357358
359
360361362363364
365366367368369
370371372373374375376
377
378379380381
382
383384
385386387388
389390391392393394395396
397398399400
401
402403404405406407408409410411412413414415416
417418419420421422423424425
426
427
428429430431432
433
434435
436
437
438439440441442443
444445
446447448449450
451452453454455456457458459460461462463464
465466467468469470471472473474475
476477
478479
480
481482483484485486
487
488489490491492493494495496497498499500
501
502503504505
506507508509510511
512513514515516517518519520
521522523524525526527
528529
530531
532
533534535536
537538
539540541542543
544
545546547
548549
550
551552553554555556
557558559560561562
563564565566567568
569570
571572573574575576
577
578579580
581582
583584585586
587588589590591592593594595596597598
599600601602
603
604605606607608
609610611612613614615
616617618619620621622
623624625626627628629630
631632633634
635636637638639640641642643
644
645646647648649650651652653
654655656657658659660
661662663664665666667668
669670671672 673674675676
677
678679680681682683
684685686
687688689690691692693694
695696697
698699
700
701
702
703704705706707708709710711712713714
715716717718719720
721722723724725726
727
728729730731732
733
734735
736737738739
740741
742743744745746747748749750
751
752753754755756757758759760761762763764765766767768
769
770771772
773774775776 777778779780781782783
784785786787788789790
791792793794795796797798799800801
802803804
805
806807808809810811
812813814
815816
817818819
820821
822 823824825826
827
828829830831832
833834835836
837
838839840841842
843
844845
846847848849850
851852853854855856857858859
860861862863
864865866
867
868869870871
872
873874875876877878
879880
881882883884885886887888889 890891892893
894
895896897898
899900901902
903904905 906907908
909910911912913914915916
917918
919920921
922923924925926 927928929930
931
932933934935936937938939940941
942943944945946947948949950951952953954955956
957
958959960961962963964965966967968969
970
971972973974
975
976977978979980 981982983984985
986987988
989990991992993994995996 997
998
999100010011002
1003
1004100510061007
10081009101010111012
1013
1014101510161017
10181019102010211022102310241025
10261027102810291030
103110321033103410351036
10371038103910401041104210431044104510461047104810491050105110521053105410551056
1057105810591060
10611062106310641065
1066
1067
1068
1069107010711072
107310741075
1076
107710781079108010811082108310841085108610871088108910901091109210931094
109510961097109810991100
1101110211031104110511061107110811091110
11111112
111311141115111611171118
1119
1120
11211122
1123
1124
1125
112611271128112911301131
11321133
113411351136
11371138113911401141
11421143114411451146
1147114811491150
115111521153115411551156115711581159116011611162
11631164116511661167
11681169
11701171
11721173
1174
117511761177
117811791180
1181
1182118311841185118611871188118911901191
1192
11931194
1195
119611971198
1199120012011202
12031204120512061207120812091210121112121213
12141215121612171218121912201221
1222
1223
1224
122512261227
122812291230
123112321233123412351236
12371238123912401241124212431244124512461247
12481249125012511252125312541255
1256125712581259
1260126112621263126412651266
1267
12681269127012711272127312741275127612771278
1279128012811282
12831284128512861287128812891290129112921293
1294
1295129612971298
12991300130113021303130413051306
1307
130813091310131113121313131413151316
131713181319132013211322132313241325132613271328
132913301331133213331334
1335133613371338133913401341
1342134313441345134613471348
1349
135013511352135313541355
135613571358
1359
136013611362136313641365
1366
1367136813691370137113721373
13741375
1376
1377
137813791380138113821383138413851386138713881389
13901391139213931394139513961397
13981399140014011402
140314041405
140614071408
1409141014111412141314141415141614171418141914201421142214231424142514261427
142814291430143114321433
1434
1435
143614371438143914401441
144214431444
14451446
1447
14481449145014511452145314541455
145614571458
145914601461
14621463146414651466146714681469
14701471
1472
1473147414751476
14771478
147914801481
14821483
1484148514861487148814891490149114921493149414951496149714981499
15001501150215031504150515061507
15081509151015111512
151315141515
151615171518151915201521152215231524
1525152615271528
15291530
1531153215331534153515361537153815391540
154115421543154415451546154715481549
1550155115521553
1554
15551556
155715581559
1560156115621563
1564
1565
1566
1567
156815691570157115721573
1574
157515761577
1578157915801581158215831584
1585158615871588158915901591
15921593159415951596
1597
1598159916001601160216031604
160516061607
1608
16091610161116121613
161416151616161716181619
1620
1621
162216231624
162516261627
1628
162916301631
16321633
16341635
16361637
163816391640164116421643
164416451646
1647
1648164916501651165216531654
1655
1656
1657
165816591660166116621663
1664
16651666
1667166816691670 1671
16721673167416751676167716781679
1680
168116821683
1684
16851686
1687
16881689
1690169116921693
169416951696169716981699
1700170117021703
17041705
1706
17071708
170917101711
1712
1713171417151716171717181719
1720
1721
1722
1723
17241725
17261727
17281729
17301731173217331734
173517361737173817391740174117421743174417451746
1747 17481749
1750
17511752
1753
17541755
17561757
1758
17591760
17611762
17631764176517661767
1768176917701771177217731774
17751776
1777
1778177917801781
-600 -400 -200 0 200 400
-600
-400
-200
020
040
0
V105V106V107V108V109V110V111V112V113V114
V115V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134
V135 V136
V137
V138V139V140
Questo esempio è uno tra i molteplici esempi che mo stranol’utilità dell’uso dell’ACP. Infatti, vediamo che q uandoabbiamo dei dati di molte variabili non sempre è fa cileanalizzarli e delineare il profilo dell’informazion e contenutain essi. A questo proposito l’ACP si presta bene a ridurrecome si è visto la dimensionalità dei dati in modo da rendereagevole la loro interpretazione. Partiti da un insi eme di 1781unità e trentasei variabili, ci siamo ricondotti ad un insiemedi tre componenti facilmente interpretabili.
��
L’analisi del dataset gazelle, ci ha fatto vedere c ome ilcomportamento dei clienti di questa società diverge infunzione della loro disponibilità economica e dei l oro gusti;abbiamo mostrato che chi è realmente interessato a comprare unarticolo generalmente visita più pagine di chi inve ce non loè. E tra quelli che comprano possiamo tipicamente d istingueretre classi: quelli non interessati alla marca (che ho chiamatoclienti a profilo basso), quelli che sono interessa ti allamoda e quindi che generalmente visitano gli articol i trend equindi classificati nel profilo medio e infine quel li che sonoclassificati nel profilo alto e che visitano tipica mente iprodotti della “unique boutique”.
��
Capitolo III:
Analisi dei comportamenti di visita al sitodi Microsoft.
1. Introduzione.
a. Breve presentazione degli obiettivi primaridell’autore
I dati che consideriamo in questo capitolo sono gi à statistudiati da studiosi come: Cadez et al. (2000), da un punto divista bayesiano da Giudici e Castello, e Giudici (2 005).
Lo scopo di Giudici (2005) consiste nella classifi cazione deivisitatori in gruppi omogenei, in base ai rispettiv i profilicomportamentali. Ovvero l’analisi è orientata ad ot tenere unaregola che assegni ogni singolo utente a un determi natocluster relativo al comportamento di navigazione su l sito; inquesto modo si ottiene una segmentazione dell’utenz a da poterimpiegare nelle successive decisioni di marketing r elazionale.Con una tale analisi si è, inoltre, in grado di mon itorarel’evolversi del comportamento della clientela, osse rvando indiversi istanti di tempo la distribuzione dell’uten za neidiversi segmenti comportamentali. In tal modo è anc hepossibile valutare l’impatto, in termini di aumento oriduzione delle visite, di una qualsiasi azione eff ettuata sulsito, come ad esempio il restyling delle pagine opp ure leazioni pubblicitarie e promozionali.
Nel seguito, faremo prima un’analisi descrittiva de i dati inmodo da trarre le prime informazioni, e applicherem o l’analisidelle componenti principali.
�'
b. Presentazione dei dati.
Il dataset contiene dei dati relativi alle pagine del sito:www.microsoft.com ; queste pagine sono state visitate da parte di32711 utenti. Per ciascun visitatore viene indicata la paginadel sito web visitata nella prima settimana di febb raio 1998.
L’individuazione di ogni visitatore avviene tramiteassegnazione di un codice univoco che va da 10001 a 42711 enon viene fornita alcuna informazione di carattere personale.Il numero totale delle pagine iniziali ammonta a 19 6. Questepagine sono identificate con un numero, un titolo el’indirizzo corrispondente.
Come si è visto nell’esempio precedente abbiamo g ià tanteunità (32711), e il fatto di avere oltre a queste u nità tantevariabili fa sì che l’analisi dei dati diventi diff icile, equindi il mezzo più facile per ovviare a questo con siste nelridurre il numero delle variabili.
Infatti, come fa notare Giudici, è possibile che non tuttele pagine vengano visitate, e quindi considerare le pagine chenon sono mai o raramente vistate non fa guadagnare niente intermine di informazione.
E stata fatta un’elaborazione dei dati di partenz a in mododa ottenere una matrice dei dati meno complessa. Da un totaledi 294 pagine, abbiamo adesso 13 variabili che ragg ruppano lepagine visitate, di cui diamo una breve descrizione :
-Initial: comprende tutte le pagine di accesso gene rale etutte le pagine dedicate alla ricerca nel sito.
-Support: riguarda le pagine relative alla richiest a disupporto.
-Entertainment: comprende le pagine relative ai sof tware diintrattenimento, ai giochi e alla cultura.
-Office: comprende tutte le pagine relative ai soft ware delpacchetto office.
-Windows: raggruppa le pagine relative al sistema o perativo“Windows”.
�-
-Othersoft: riguarda le pagine relative a tutti i s oftwareper professionisti, diversi da quelli del pacchettooffice.
-Download: comprende le pagine dedicate allo scaric amento disoftware e aggiornamenti.
-Otherint: riguarda le pagine dedicate ai servizi v iainternet per professionisti di information technolo gy,diverse da quelle di download.
-Development comprende tutte le pagine dedicate agl isviluppatori professionisti (per esempio java).
-Hardware: riguarda le pagine relative ai prodotti hardwaredella Microsoft.
-Business: comprende le pagine dedicate alle aziend e.
-Info: comprende tutte le pagine che forniscono inf ormazionisui nuovi prodotti e servizi.
-Area: comprende le pagine che si riferiscono all’a ccessolocale, in base alla propria lingua.
Questo nuovo dataset è tale che per ogni pagina ind ichiamo ilnumero di volte che è stata visitata da un utente. Si capisceallora che il dataset è composto da variabili quant itativediscrete.
Visto che abbiamo provveduto ad una riduzione del numero divariabili, ci si aspetta che le prime tre o quattro componentiprincipali spieghino solo una minima parte della va riabilitàdei dati. Nel senso che quando uno effettua un’ACP su datimolto numerosi, generalmente ci si aspetta che la m aggioreparte dell’informazione sia concentrata nelle prime componenti(generalmente tre), mentre, eseguendo l’ACP su un n umerominore di variabili, ci si aspetta risultati ancora migliori.
A questo punto, eseguiamo una prima analisi esplo rativa inmodo da evidenziare le prime caratteristiche dei da ti.
��
2. Analisi esplorativa dei dati.
Facciamo gli stessi ragionamenti di prima, ovvero i n questaprima parte siamo interessati a sapere quali sono l e paginepiù visitate. La tabella di sintesi dei dati è la s eguente:
N medie Dev. Stand. Mass imi Mediane
initial 32711 0.71 0.88 7 1
help 32711 0.28 0.66 8 0
entertainment 32711 0.09 0.32 4 0
office 32711 0.47 0.70 9 0
windows 32711 0.22 0.53 4 0
othersft 32711 0.09 0.38 7 0
download 32711 0.34 0.48 3 0
otherint 32711 0.19 0.46 6 0
development 32711 0.25 0.67 9 0
hardware 32711 0.09 0.36 6 0
business 32711 0.08 0.30 4 0
information 32711 0.07 0.26 4 0
area 32711 0.09 0.32 5 0
•Tabella 2 :sintesi dei dati.
Notiamo dapprima, analizzando questa tabella, che , oltrealla pagina iniziale, tutte le altre hanno una medi ana dizero; questo ci dice già che la pagina iniziale è u na paginecruciale del sito, ovvero che la maggior parte dei visitatoriinizia la propria navigazione partendo dalla pagina iniziale.Per poter classificare le pagine in funzione del nu mero mediodelle visite disegniamo un diagramma a barre:
�)
windo
ws
othe
rsft
othe
rint
offic
e
initial
inform
ation
help
hard
ware
entertainm
ent
downloa
d
deve
lopm
ent
busin
ess
area
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
Diagramma a barre delle medie
•Grafico 1: diagramma a barre delle medie
come già detto, la pagina più visitata è la pagin a iniziale.Dopo di che viene la pagina di office, questo è log ico vistoche la popolarità della Microsoft risiede oltre al sistemaoperativo, anche al potente pacchetto “Office”. La pagina deidownload viene classificata in terza posizione dopo le pagine“iniziale” e “office”, e prima delle pagine “help” e”development”.
Analizzando la colonna relativa al terzo quartile dellatabella 2, osserviamo un fatto molto importante: ve diamo cheil terzo quartile di tutte le pagine è nullo, ad ec cezionedelle pagine “initial”, “office” e “download”, che hanno ilterzo quartile pari ad uno. Dato che un terzo quart ile nullovuole dire che il 75% dei navigatori non va a visit are questepagine, possiamo allora dire che queste tre pagine, sono le
��
pagine con una frequenza di visita alta,ovvero il 7 5% deivisitatori guarda almeno una volta queste pagine. G uardandoanche il grafico del numero massimo di visite delle pagine,vediamo che: in corrispondenza alle tre pagine appe na citateabbiamo anche dei massimi, a cui aggiungiamo la pag inadevelopment. Questo conferma quanto appena detto
area
inform
ation
busin
ess
hard
war
e
deve
lopm
ent
othe
rint
downloa
d
othe
rsft
windo
ws
offic
e
enterta
inmen
the
lp
initial
9
8
7
6
5
4
3
2
1
0
pagine
massimi
diagamma a barre dei massimi
•Grafico 2 diagramma a barre dei massimi
Questo si vede anche dai boxplot sottostanti dove, oltre alladiversità delle variabilità dei gruppi, osserviamo che a partele tre pagine appena citate grande parte della popo lazione deiclienti non visita queste pagine.
Questo sta a dire che possiamo distinguere già tre pagineimportanti ovvero la pagina iniziale, quella del pa cchettooffice e quella dei download come pagine che più at tiranol’attenzione dei visitatori.
'�
area
inform
ation
busin
ess
hardwar
e
deve
lopm
ent
othe
rint
downloa
d
othe
rsft
windo
ws
offic
e
enterta
inmen
the
lp
initial
9
8
7
6
5
4
3
2
1
0
boxplot dei dati
a.Grafico 3: boxplot dei dati.
'�
3. Applicazione dell’analisi delle componen ti principali sui dati.
Anche in questo caso conviene lavorare con la mat rice dicovarianza invece che con quella di correlazione o un'altramatrice standardizzata. Infatti, osserviamo che tut te levariabili, anche se hanno variabilità diversa come si vede dalboxplot precedente, sono tutte relative al numero d i paginevisitate dagli utenti e quindi nella stessa unità.
L’applicazione della procedura dell’ACP sui dati ha prodottoi dati riassunti nella tabella seguente.
std. error P. di varianza P. cumula te
Comp.1 0.97 26.59 26.59
Comp.2 0.75 16.08 42.67
Comp.3 0.70 13.79 56.47
Comp.4 0.55 8.60 65.07
Comp.5 0.53 7.98 73.06
Comp.6 0.43 5.29 78.35
Comp.7 0.39 4.47 82.83
Comp.8 0.36 3.64 86.47
Comp.9 0.34 3.32 89.79
Comp.10 0.32 2.92 92.72
Comp.11 0.32 2.88 95.61
Comp.12 0.30 2.69 98.306
Comp.13 0.24 1.69 100
I.Tabella 3: riassunto dell’ACP
'�
Comp.1 Comp.3 Comp.5 Comp.7 Comp.9
grafico delle varianze delle componenti
Var
ianc
es
0.0
0.2
0.4
0.6
0.8
Come ci si aspettava, per spiegare l’82% della va riabilitàdei dati abbiamo bisogno di un totale di 7 variabil i su 13,mentre sarebbe stato preferibile che la maggior par te dellavariabilità fosse concentrata nelle prime tre compo nenti e chelo screen-plot presentasse un gomito evidente. Ques to ciporterebbe quindi a dire erroneamente, che l’ACP no n è stataben eseguita, e quindi occorrerebbe cercare magari unaversione standardizzata della matrice in modo da mi gliorare irisultati.
'�
Però bisogna anche tener presente che siamo partit i da undataset avente un totale di 194 variabili e che ci siamoricondotti a 13, aggregando variabili.
Questo è uno dei motivi per cui l’analisi dell’AC P in questocaso non ha prodotto risultati tanto soddisfacenti quantoquelli dell’esempio precedente, perché tende a cons ideraretutte le variabili come importanti e come abbiamo f atto notaresono importanti perché elaborazioni o sintesi di al trevariabili.
Proviamo quindi ad interpretare i risultati prodo tti daquesta analisi. Per l’interpretazione ci imiteremo a cinquecomponenti, perché con cinque componenti riusciamo a spiegarepiù del 70% della variabilità dei dati.
Pesi:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
initial 0.859 0.467 -0.141
help 0.455 0.181 -0.696 0.520
entertainment
office -0.698 -0.623 0.183
windows 0.162 -0.457 -0.749
othersft -0.140 0.165
download -0.223 -0.208 -0.286 -0.317
otherint -0.241 0.293
development -0.586 0.669
hardware
business
information
area
'�
Anche in questo contesto, per poter spiegare il sensodelle variabili trovate, aiutiamoci con le tabell e.
- Componente 1:
Variabili con segnipositivi
Variabili con segninegativi
I.initial 0.859
II.help 0.455
III.windows 0.162
Osserviamo che la prima componente ha valori alti solo incorrispondenza di tre variabili. E queste variabili sono acoefficiente positivo. Vediamo che questa component e èrelativa agli utenti standard, ovvero gli utenti al le primearmi con l’informatica e il mondo virtuale, come si vede dallavariabile più importante “initial”; questi utenti u sufruisconotanto della pagina iniziale, ma hanno anche bisogno dellapagina di aiuto (“help” seconda pagina importante). Notiamoanche che questi utenti sono anche interessati alle paginerelative a Windows.
-Componente 2:
Variabili con segnipositivi
Variabili con segninegativi
I.help 0.181 II.office -0.698
III.othersft -0.140
IV.download -0.223
V.otherint -0.241
VI.development -0.586
''
Analizzando le variabili più importanti di questa componente(office , development), vediamo che questa componen te mette dauna parte i professionisti e i semi professionisti eall’opposto la pagina di aiuto; questo sta a dire c he è veroche i professionisti e semi professionisti visitanoparticolari pagine a loro dedicate, ma hanno anche bisognodella pagina di aiuto. Questo fatto risulta molto i mportante,perchè sta a indicare che la pagina di aiuto è una paginavisitata dalla quasi totalità della popolazione, qu indi unasua buona organizzazione porterebbe ad un miglioram ento deiservizi della società.
-Componente 3:
Variabili con segnipositivi
Variabili con segni negativi
. Othersft 0.165
. otherint 0.293
. development 0.669
. office -0.623
. download -0.208
L’analisi di questa componente, invece, oppone iprofessionisti ai semi professionisti. Infatti, abb iamosull’asse positivo tutte le pagine relative ai soft ware disviluppo per professionisti e dall’altra, i prodott i office ela pagina di download, tipiche pagine visitate, di solito,solo da chi è interessato al prodotto office della Microsoft.
-Componente 4:
Variabili con segnipositivi
Variabili con segninegativi
. initial 0.467 . help -0.696
. windows -0.457
. download -0.286
'-
Questa componente, invece, ci oppone la pagina in iziale aquelle di help, windows e download, ovvero sembra d ividere iprincipianti in due, cioè sembra fare la differenza tra quelliche usano solo la pagina iniziale e quelli con un l ivelloleggermente più alto che visitano le pagine di aiut o, windowsdownload.
-Componente 5 :
Variabili con segni positivi Variabili con segninegativi
. help 0.520
. office 0.183
. initial -0.141
. windows -0.749
. download -0.317
Quest’ultima componente confronta i semi professi onisti coni non professionisti.
L’analisi delle correlazioni tra le variabili si può fareattraverso l’analisi dei grafici sottostanti chiama ti biplot.
Il biplot delle due prime componenti è il seguent e:
'�
Da questo biplot si evidenziamo due grandi gruppi : il primocomposto dalle unità per cui variabili initial e he lp assumonovalori elevati, mentre il secondo composto da quell e convalori alti per office e development. Vediamo che q ueste duepagine sono correlate con le variabili otherdft,do wnlaod,otherint, information e hardware. Questo significa che,generalmente, chi visita le pagine di office e deve lopmentgeneralmente visita anche le pagine ad essa correla te.
')
Il biplot della seconda componente contro la terz a è ilseguente:
Qui si evidenziano tre grandi gruppi: il primo co mpostodalle pagine relative ai professionist development, otherint,othersoft; il secondo ai semi professionisti office download,e infine la pagina di aiuto.
'�
L’analisi di questo dataset ci ha permesso, una v olta dipiù, di mostrare come i comportamenti dei visitator i di unsito web differiscano tra di loro. In particolare l a visitadelle pagine del sito della Microsoft da parte dei clienti sifa in modo ben chiaro, ovvero si sono evidenziati t re grandigruppi che abbiamo deciso di chiamare principiante, ovveroquelli che iniziano la loro navigazione dalla pagin aprincipale e utilizzano tanto la pagina di aiuto, p oi ilgruppo dei semi professionisti, cioè quelli interes sati aiprodotti del pacchetto office, e alla pagina di dow nload,einfine i professionisti, quelli che visitano specif iche paginelegati allo sviluppo di software.
Inoltre si è anche visto come in questo caso l’an alisi, purnon avendo prodotto risultati straordinari, ha perm esso didividere la popolazione in sotto-popolazioni, in ba se al lorocomportamento o meglio conoscenza nel riguardo dei servizidella Microsoft.
Conclusione
Abbiamo visto come attraverso specifici strumenti statisticiè possibile trarre utili informazioni da un insieme di datianche complessi.
Infatti, l'analisi dei dati relativi ai due siti consideratiin questa sede, ci ha permesso di mostrare come ilcomportamento di visita degli utenti a questi siti si fa inmaniera non casuale, ovvero abbiamo visto, ad esemp io, chepossiamo classificare i visitatori del sito della M icrosoft infunzione della loro conoscenza e del loro interesse alle nuovetecnologie. Oppure che, gli utenti che visitano il sito dellaGazelle, possono anch'essi essere divisi in classi in funzionedel loro “portafoglio” e del fatto che siano intere ssati omeno alla moda.
Queste conoscenze ci porta quindi ad usare specific he tecnichedi marketing per poter ottimizzare i profitti delle vendite. Equesta ottimizzazione inizia da un ordinamento rigo roso fattosulla base dei risultati ottenuti dalle analisi.
-�
�����������
- Azzalini A., Scarpa B. (2004), Analisi dei dati e datamining: Springer.
- Dunleman G. H. (1989), Principals components anal isis :Newbury park[etc].
- Fabbris L. (1983), Analisi dei dati multidimensio nali:Cleup.
- Fabbris L. (1997), Analisi multivariata, analisiesplorativa dei dati: �McGraw-Hill
- Marchetti Giovanni (1984), Analisi in componentiprincipali e approssimazioni di matrici: alcuneinterpretazioni e legami con altri metodi multivari ati:Publicazione del dipartimento statistico dell'unive rsitàdi Firenze
- Giudici P (2005), Data mining: Metodi informatici ,statistici e applicazioni, seconda edizione: McGraw -Hill.
- Iacus S. M., Masarotto G. (2007), Laboratorio distatistica con R: McGraw-Hill.
- Shapiro S. S. (1985), Come provare la normalità e d altreipotesi per le distribuzioni di frequenza: Editoria leItaca
-�