cluster analyze
DESCRIPTION
Analiza Custer SPSSTRANSCRIPT
-
Analiza de cluster
M. Popa
-
1. Introducere
2. Pregtirea i organizarea datelor
3. Alegerea metodei de calcul a similaritii
4. Alegerea metodei de grupare
5. Validarea structurii de cluster
6. Exemple de analiz de cluster cu SPSS
7. Concluzii
-
Asociere variabile
Regresie liniar
Regresie logistic
Corelaie parial
Mediere
Moderare
Comparaie grupuri
ANOVA factorial
ANCOVA
MANOVA
MANCOVA
Grupare date
Analiza factorialexploratorie
Analiza de cluster
Clusterizarea procedurilor statistice din programa cursului:
-
1. Introducere
dezvoltat n anii `30 n psihologie de ctre Zubin i Tryon
Colecie de tehnici de clasificare a cazurilor incluse ntr-o baz de date
ct mai omogene intern
Ct mai eterogene extern
Punctele reprezint cazuri
-
Analiza de cluster
Nu conduce la o soluie unic
Cercettorul alege metoda de analiz i soluia de grupare pe care o consider potrivit
Soluia de grupare depinde de o serie de decizii subiective
abordarea ei presupune nsuirea unor concepte i principii cu privire la problematica clasificrii
SUA
The Classification Society of North America, cu o vechime de peste 30 de ani
Mii de articole privind tehnicile de grupare
-
Utilitatea analizei de cluster
Studii exploratorii
cutarea structurii datelor (obiectiv preponderent)
Studii de confirmare Confirmarea unei structuri existente (presupuse)
Obiectiv posibil, dar dificil de abordat
nu exist o teorie unificatoare a metodelor de grupare i nici tehnici sigure de validare
nu exist (nc) un test statistic pentru decizia de confirmare
Elaborarea de tipologii de grupare
nu este singura tehnica de realizare a tipologiilor
Generarea de ipoteze
-
2. Pregtirea i organizarea datelor
datele sunt organizate sub form de matrice
Nume Salariu Norma Poziia Articole Vechime
Rosalyn
123600,00
1,00 5 21 32
Lawrence 96799,92 1,00 5 71 27
Sunila 83358,00 1,00 5 19 24
Randolph 83235,84 1,00 5 17 38
Dea 6962,94 ,50 1 0 0
Claude 6812,82 ,50 1 0 0
Amanda 5999,14 ,50 1 0 0
Boris 4919,85 ,25 1 4 15
Garrett 4738,86 ,25 1 0 0
cazuri itemi modele indivizi subieci obiecte, uniti operaional-taxonomice, profile
variabile, descriptori, atribute, caractere, itemi, profileVariabil de identificare
Orice scalde msurare
-
Selectarea cazurilor
eantionarea aleatoare nu este o condiie necesar eantionul trebuie s reprezinte categoriile vizate proporia cazurilor din cadrul eantionului nu trebuie s respecte n mod
necesar proporia de la nivelul populaiei dect dac se urmrete generalizarea rezultatelor
categorii mai puin reprezentate la nivelul populaiei vor avea anse mai reduse de a fi surprinse de analiza de cluster soluie: supra-reprezentarea tipurilor minoritare
Separarea bazei de date n dou, pentru validarea ulterioar a soluiei de grupare
cazuri-tip ideale cazuri care descriu categorii tipice, prognozate de cercettor
Regsirea lor n anumite clustere vor fi o dovad a validitii
Atenie la valorile extreme (outliers) duc la clustere artificiale
Valorile lips (missing) sunt eliminate de SPSS reduc volumul util de date, prin eliminarea cazurilor de ctre SPSS
Codificarea concordant a variabilelor codificari discordante fac dificil interpretarea
-
Selectarea variabilelor
nu se impune condiia distribuiei normale a variabilelor
metodele de grupare se bazeaz pe euristici care nu iau n considerare distribuia variabilelor
Probleme importante
Numrul variabilelor
Alegerea variabilelor
Variabilitatea
Asocierea variabilelor n dimensiuni
Corelaia variabilelor
-
Numrul variabilelor
n exemplul dat exist 5 variabile
Sunt multe? Puine? Cte ar trebui s fie?
Nu exist criterii pentru un rspuns sigur
Wuensch a pstrat doar o parte din variabilele disponibile a eliminat genul i o variabil n care numrul de articole nu era
sigur
-
Variabilitatea
Operaiunea de grupare (clusterizare) este favorizat de utilizarea unor variabile cu o variaie ct mai mare produc o discriminare mai bun ntre cazuri
se va evita utilizarea unor variabile a cror valori sunt de ordine de mrime foarte diferite dac una din variabile este de ordinul zecilor de mii
(salariul), iar alt variabil este de ordinul zecilor (vechimea n ani), atunci prima va avea pondere mai mare n operaiunea de grupare
Soluie: transformare a variabilelor n scoruri standard de regul n scoruri z, dar exist i alte metode, care nu se
bazeaz pe ab. standard (medie)
-
Asocierea variabilelor n dimensiuni
asocierea lor n anumite dimensiuni trebuie luat n considerare
Ex.: pentru clasificarea cadrelor didactice pot fi luate n considerare diverse variabile care descriu aprecierea i performana academic
dac performana academic ar fi reprezentat prin mai multe variabile dect aprecierea, atunci acest aspect ar avea o pondere mai mare n alctuirea clusterelor
acest lucru nu este negativ n sine, cercettorul are drept de opiune
-
Corelaia (asocierea) variabilelor
exist autori care recomand eliminarea variabilelor care coreleaz ntre ele
Millgram i Hirtle (op. cit.) consider c existena unor corelaii nu este un aspect negativ pentru analiza de cluster ar putea fi tocmai rezultatul unei grupri naturale a acelor
variabile, iar eliminarea corelaiei nu ar face dect s distorsioneze gruparea datelor
analiza de cluster poate fi precedat de analize factoriale, care urmresc gruparea variabilelor
acest lucru este justificat numai dac se presupune c gruparea n clusteri are loc n spaiul factorilor i nu al variabilelor individuale
prin comprimarea variabilelor se ajunge la soluii de grupare n clusteri care pot diferi substanial de gruparea pe baza variabilelor individuale
-
Alegerea variabilelor
n nici un caz nu vor fi puse cu furca, la grmad!
Omiterea unor variabile importante, dar i punerea unor variabile irelevante afecteaz soluia de grupare Ex.: stabilirea unei tipologii a organizaiilor utilizndu-se
variabile ca cifra de afaceri, profitul realizat, nivelul de calificare a angajailor, dar fr a se include o variabil cu numrul de angajai
Consecina: mrimea organizaiei nu va fi luat n considerare la stabilirea clusterelor
Ex.: dac se vor include variabile nerelevante, cum ar fi cheltuielile cu sponsorizarea activitilor sportive, care se regsesc doar la unele dintre organizaiile analizate
Consecina: gruparea n clustere va fi deformat de aceast variabil
Chiar i una sau dou variabile irelevante pot afecta n mod important soluia de grupare
-
Alegerea variabilelor - Concluzii
rezultatele analizei de cluster depind decisiv de modul de alegere a variabilelor
Programul statistic ofer soluii de grupare indiferent de oportunitatea variabilelor
nu semnaleaz prin nimic caracterul nepotrivit al variabilelor
-
3. Alegerea metodei de calcul a similaritii
Analiza de cluster grupeaz cazurile similare n categorii ct mai omogene intern i ct mai neomogene extern (ntre categorii)
Gruparea se bazeaz pe evaluarea similaritii/disimilaritii dintre cazuri
-
Metode de calcul a similaritii Corelaia
Corelaie Pearson ntre variabilele cazurilor Valori ntre +1 (similaritate maxim) i -1 (disimilaritate maxim) Este discutabil pentru variabile exprimate pe scale diferite (medie lipsit de sens)
Distana Distana euclidian, cea mai utilizat n practic (radical din suma diferenelor, ridicate la
ptrat) Distana euclidian ptratic, (ptratul distanei euclidiene; Distana Manhattan (sau city-block), este suma diferenelor absolute dintre valorile
itemilor; Distana Cebev, este diferena maxim absolut dintre valorile itemilor; Distana Minkovski este rdcina de ordin r din suma puterilor de ordin r ale diferenelor
dintre valorile cazurilor. Distana Mahalanobis ine cont de standardizarea variabilelor i ajusteaz intercorelaiile
dintre acestea Util n cazul variabilelor msurate pe scale diferite sau atunci cnd exist un set de variabile corelate
ntre ele, care pot avea o pondere excesiv n procesul de grupare
Asocierea (pentru variabile categoriale) Coeficientul de asociere simpl Coeficientul lui Jaccard Coeficientul lui Gower
-
4. Metode de grupare
exist mai multe modaliti de realizare a gruprii
fiecare metod de grupare va produce o configuraie diferit a clusterelor
metodele cele mai uzuale
A. tehnici de grupare ierarhic aglomerativ
B. tehnici de partiionare iterativ
-
A. Gruparea ierarhic aglomerativ
fiecare caz individual este considerat drept un obiect
La primul pas se asociaz obiectele care au cel mai mare grad de similaritate (sunt
mai apropiate sub aspectul valorilor care i descriu)
La urmtorul pas avem, pe de o parte, cazuri individuale i, pe de alt parte, obiecte
rezultate prin gruparea unor cazuri individuale la pasul anterior
algoritmul calculeaz distana dintre aceste obiecte i le grupeaz pe baza aceluiai criteriu de distan
n continuare, prin pai succesivi, obiectele sunt grupate progresiv pn cnd, la penultimul pas, toate cazurile iniiale sunt grupate n doi clusteri
la ultimul pas toate cazurile se vor regsi grupate ntr-un singur cluster.
-
c1c4
c3
c2
c1c4
c3
c2
c1 c2 c3 c4
c1 c2 c3 c4
-
Tehnici aglomerative
complete linkage (legtur complet)
average linkage between groups (legtura medie ntre grupuri)
.a.
-
Tehnici de grupare iterativ (k-means clustering)
metodele aglomerative constituie progresiv grupuri din ce n ce mai largi, pn epuizeaz toate cazurile
abordarea iterativ pornete de la un numr fix de clusteri declarat de cercettor
Construcia clusterelor poate fi declarat: prin metoda actualizrii iterative a centrilor clusterelor
sau prin utilizarea unor centri de cluster declarai, care sunt pstrai pe toat durata analizei
Procedura salveaz apartenena de cluster a fiecrui caz
distana fiecrui caz fa de centrul clusterului din care face parte
centrul clusterelor n stadiul final
Tehnici potrivite pentru baze de date mari (sute de cazuri)
-
?
-
5. Numrul de clustere algoritmul de grupare ofer soluii progresive
de la un numr de clusteri egal cu numrul cazurilor, pn la soluia final, n care toate cazurile sunt grupate ntr-un singur cluster
soluia optim se localizeaz ntre aceste dou situaii cercettorul trebuie s decid unde se oprete
nu exist n prezent o metod de stabilire general acceptat depinde de obiectivele cercettorului n legtur cu utilizarea acestora
Recomandabil s fie analizate caracteristicile clusterilor rezultai n etape succesive s se decid cnd s-a ajuns la o soluie interpretabil, sau la o soluie cu un
numr rezonabil de clusteri, ori suficient de omogeni
atunci cnd distana dintre clusteri nvecinai crete brusc, putem presupune c la pasul respectiv sunt unite dou grupuri sensibil diferite
este recomandabil s se produc mai multe soluii de grupare acestea vor fi analizate comparativ pentru a se adopta soluia final
reprezentri grafice specifice: dendograma i graficul icicle (urure)
-
6. Validarea structurii de cluster
Interpretarea clusterelor Statistici descriptive
Reprezentrile grafice Scatter plot
Testarea ipotezelor ANOVA, MANOVA, chi-ptrat
Atenie, variabilele criteriu de grupare dau, oricum, diferene semnificative!
Studiile de replicare Clusterizare dubl a altui set de date
Odat pe baza distanei fa de centroizii primelor clustere
A doua oar, prin analiza de cluster direct a setului de rezerv
Testarea semnificaiei concordanei dintre cele dou soluii
-
Exemple de analiz de cluster cu SPSS
Analiza ierarhic aglomerativ (Hierachical Cluster Analysis)
Analiza de partiionare iterativ (K-Means Cluster)
-
Cluster 1 Seniori
Cluster 2 Restul
Cluster 3 Adjunci
-
Concluzii
Analiza de cluster poate fi o soluie util pentru investigarea structurii cazurilor i obinerea de tipologii
Utilizarea ei va fi abordat cu pruden Implic multe decizii subiective Necesit cunotine teoretice i experien necesit o permanent consultare a literaturii de specialitate i o
practic individual bazat pe ncercarea unor soluii variate i analiza efectelor acestora
structurarea tipologic a datelor, orict de tentant ar fi, nu reprezint n mod necesar o soluie pentru orice problem de cercetare n psihologie
analiza de cluster nu este o procedura de testare a ipotezelor de cercetare soluiile sale sunt ntr-o msur destul de ridicat afectat de opiunile
subiective ale cercettorului