cluster analyze

28
Analiza de cluster M. Popa

Upload: cllndalexandra

Post on 26-Sep-2015

56 views

Category:

Documents


1 download

DESCRIPTION

Analiza Custer SPSS

TRANSCRIPT

  • Analiza de cluster

    M. Popa

  • 1. Introducere

    2. Pregtirea i organizarea datelor

    3. Alegerea metodei de calcul a similaritii

    4. Alegerea metodei de grupare

    5. Validarea structurii de cluster

    6. Exemple de analiz de cluster cu SPSS

    7. Concluzii

  • Asociere variabile

    Regresie liniar

    Regresie logistic

    Corelaie parial

    Mediere

    Moderare

    Comparaie grupuri

    ANOVA factorial

    ANCOVA

    MANOVA

    MANCOVA

    Grupare date

    Analiza factorialexploratorie

    Analiza de cluster

    Clusterizarea procedurilor statistice din programa cursului:

  • 1. Introducere

    dezvoltat n anii `30 n psihologie de ctre Zubin i Tryon

    Colecie de tehnici de clasificare a cazurilor incluse ntr-o baz de date

    ct mai omogene intern

    Ct mai eterogene extern

    Punctele reprezint cazuri

  • Analiza de cluster

    Nu conduce la o soluie unic

    Cercettorul alege metoda de analiz i soluia de grupare pe care o consider potrivit

    Soluia de grupare depinde de o serie de decizii subiective

    abordarea ei presupune nsuirea unor concepte i principii cu privire la problematica clasificrii

    SUA

    The Classification Society of North America, cu o vechime de peste 30 de ani

    Mii de articole privind tehnicile de grupare

  • Utilitatea analizei de cluster

    Studii exploratorii

    cutarea structurii datelor (obiectiv preponderent)

    Studii de confirmare Confirmarea unei structuri existente (presupuse)

    Obiectiv posibil, dar dificil de abordat

    nu exist o teorie unificatoare a metodelor de grupare i nici tehnici sigure de validare

    nu exist (nc) un test statistic pentru decizia de confirmare

    Elaborarea de tipologii de grupare

    nu este singura tehnica de realizare a tipologiilor

    Generarea de ipoteze

  • 2. Pregtirea i organizarea datelor

    datele sunt organizate sub form de matrice

    Nume Salariu Norma Poziia Articole Vechime

    Rosalyn

    123600,00

    1,00 5 21 32

    Lawrence 96799,92 1,00 5 71 27

    Sunila 83358,00 1,00 5 19 24

    Randolph 83235,84 1,00 5 17 38

    Dea 6962,94 ,50 1 0 0

    Claude 6812,82 ,50 1 0 0

    Amanda 5999,14 ,50 1 0 0

    Boris 4919,85 ,25 1 4 15

    Garrett 4738,86 ,25 1 0 0

    cazuri itemi modele indivizi subieci obiecte, uniti operaional-taxonomice, profile

    variabile, descriptori, atribute, caractere, itemi, profileVariabil de identificare

    Orice scalde msurare

  • Selectarea cazurilor

    eantionarea aleatoare nu este o condiie necesar eantionul trebuie s reprezinte categoriile vizate proporia cazurilor din cadrul eantionului nu trebuie s respecte n mod

    necesar proporia de la nivelul populaiei dect dac se urmrete generalizarea rezultatelor

    categorii mai puin reprezentate la nivelul populaiei vor avea anse mai reduse de a fi surprinse de analiza de cluster soluie: supra-reprezentarea tipurilor minoritare

    Separarea bazei de date n dou, pentru validarea ulterioar a soluiei de grupare

    cazuri-tip ideale cazuri care descriu categorii tipice, prognozate de cercettor

    Regsirea lor n anumite clustere vor fi o dovad a validitii

    Atenie la valorile extreme (outliers) duc la clustere artificiale

    Valorile lips (missing) sunt eliminate de SPSS reduc volumul util de date, prin eliminarea cazurilor de ctre SPSS

    Codificarea concordant a variabilelor codificari discordante fac dificil interpretarea

  • Selectarea variabilelor

    nu se impune condiia distribuiei normale a variabilelor

    metodele de grupare se bazeaz pe euristici care nu iau n considerare distribuia variabilelor

    Probleme importante

    Numrul variabilelor

    Alegerea variabilelor

    Variabilitatea

    Asocierea variabilelor n dimensiuni

    Corelaia variabilelor

  • Numrul variabilelor

    n exemplul dat exist 5 variabile

    Sunt multe? Puine? Cte ar trebui s fie?

    Nu exist criterii pentru un rspuns sigur

    Wuensch a pstrat doar o parte din variabilele disponibile a eliminat genul i o variabil n care numrul de articole nu era

    sigur

  • Variabilitatea

    Operaiunea de grupare (clusterizare) este favorizat de utilizarea unor variabile cu o variaie ct mai mare produc o discriminare mai bun ntre cazuri

    se va evita utilizarea unor variabile a cror valori sunt de ordine de mrime foarte diferite dac una din variabile este de ordinul zecilor de mii

    (salariul), iar alt variabil este de ordinul zecilor (vechimea n ani), atunci prima va avea pondere mai mare n operaiunea de grupare

    Soluie: transformare a variabilelor n scoruri standard de regul n scoruri z, dar exist i alte metode, care nu se

    bazeaz pe ab. standard (medie)

  • Asocierea variabilelor n dimensiuni

    asocierea lor n anumite dimensiuni trebuie luat n considerare

    Ex.: pentru clasificarea cadrelor didactice pot fi luate n considerare diverse variabile care descriu aprecierea i performana academic

    dac performana academic ar fi reprezentat prin mai multe variabile dect aprecierea, atunci acest aspect ar avea o pondere mai mare n alctuirea clusterelor

    acest lucru nu este negativ n sine, cercettorul are drept de opiune

  • Corelaia (asocierea) variabilelor

    exist autori care recomand eliminarea variabilelor care coreleaz ntre ele

    Millgram i Hirtle (op. cit.) consider c existena unor corelaii nu este un aspect negativ pentru analiza de cluster ar putea fi tocmai rezultatul unei grupri naturale a acelor

    variabile, iar eliminarea corelaiei nu ar face dect s distorsioneze gruparea datelor

    analiza de cluster poate fi precedat de analize factoriale, care urmresc gruparea variabilelor

    acest lucru este justificat numai dac se presupune c gruparea n clusteri are loc n spaiul factorilor i nu al variabilelor individuale

    prin comprimarea variabilelor se ajunge la soluii de grupare n clusteri care pot diferi substanial de gruparea pe baza variabilelor individuale

  • Alegerea variabilelor

    n nici un caz nu vor fi puse cu furca, la grmad!

    Omiterea unor variabile importante, dar i punerea unor variabile irelevante afecteaz soluia de grupare Ex.: stabilirea unei tipologii a organizaiilor utilizndu-se

    variabile ca cifra de afaceri, profitul realizat, nivelul de calificare a angajailor, dar fr a se include o variabil cu numrul de angajai

    Consecina: mrimea organizaiei nu va fi luat n considerare la stabilirea clusterelor

    Ex.: dac se vor include variabile nerelevante, cum ar fi cheltuielile cu sponsorizarea activitilor sportive, care se regsesc doar la unele dintre organizaiile analizate

    Consecina: gruparea n clustere va fi deformat de aceast variabil

    Chiar i una sau dou variabile irelevante pot afecta n mod important soluia de grupare

  • Alegerea variabilelor - Concluzii

    rezultatele analizei de cluster depind decisiv de modul de alegere a variabilelor

    Programul statistic ofer soluii de grupare indiferent de oportunitatea variabilelor

    nu semnaleaz prin nimic caracterul nepotrivit al variabilelor

  • 3. Alegerea metodei de calcul a similaritii

    Analiza de cluster grupeaz cazurile similare n categorii ct mai omogene intern i ct mai neomogene extern (ntre categorii)

    Gruparea se bazeaz pe evaluarea similaritii/disimilaritii dintre cazuri

  • Metode de calcul a similaritii Corelaia

    Corelaie Pearson ntre variabilele cazurilor Valori ntre +1 (similaritate maxim) i -1 (disimilaritate maxim) Este discutabil pentru variabile exprimate pe scale diferite (medie lipsit de sens)

    Distana Distana euclidian, cea mai utilizat n practic (radical din suma diferenelor, ridicate la

    ptrat) Distana euclidian ptratic, (ptratul distanei euclidiene; Distana Manhattan (sau city-block), este suma diferenelor absolute dintre valorile

    itemilor; Distana Cebev, este diferena maxim absolut dintre valorile itemilor; Distana Minkovski este rdcina de ordin r din suma puterilor de ordin r ale diferenelor

    dintre valorile cazurilor. Distana Mahalanobis ine cont de standardizarea variabilelor i ajusteaz intercorelaiile

    dintre acestea Util n cazul variabilelor msurate pe scale diferite sau atunci cnd exist un set de variabile corelate

    ntre ele, care pot avea o pondere excesiv n procesul de grupare

    Asocierea (pentru variabile categoriale) Coeficientul de asociere simpl Coeficientul lui Jaccard Coeficientul lui Gower

  • 4. Metode de grupare

    exist mai multe modaliti de realizare a gruprii

    fiecare metod de grupare va produce o configuraie diferit a clusterelor

    metodele cele mai uzuale

    A. tehnici de grupare ierarhic aglomerativ

    B. tehnici de partiionare iterativ

  • A. Gruparea ierarhic aglomerativ

    fiecare caz individual este considerat drept un obiect

    La primul pas se asociaz obiectele care au cel mai mare grad de similaritate (sunt

    mai apropiate sub aspectul valorilor care i descriu)

    La urmtorul pas avem, pe de o parte, cazuri individuale i, pe de alt parte, obiecte

    rezultate prin gruparea unor cazuri individuale la pasul anterior

    algoritmul calculeaz distana dintre aceste obiecte i le grupeaz pe baza aceluiai criteriu de distan

    n continuare, prin pai succesivi, obiectele sunt grupate progresiv pn cnd, la penultimul pas, toate cazurile iniiale sunt grupate n doi clusteri

    la ultimul pas toate cazurile se vor regsi grupate ntr-un singur cluster.

  • c1c4

    c3

    c2

    c1c4

    c3

    c2

    c1 c2 c3 c4

    c1 c2 c3 c4

  • Tehnici aglomerative

    complete linkage (legtur complet)

    average linkage between groups (legtura medie ntre grupuri)

    .a.

  • Tehnici de grupare iterativ (k-means clustering)

    metodele aglomerative constituie progresiv grupuri din ce n ce mai largi, pn epuizeaz toate cazurile

    abordarea iterativ pornete de la un numr fix de clusteri declarat de cercettor

    Construcia clusterelor poate fi declarat: prin metoda actualizrii iterative a centrilor clusterelor

    sau prin utilizarea unor centri de cluster declarai, care sunt pstrai pe toat durata analizei

    Procedura salveaz apartenena de cluster a fiecrui caz

    distana fiecrui caz fa de centrul clusterului din care face parte

    centrul clusterelor n stadiul final

    Tehnici potrivite pentru baze de date mari (sute de cazuri)

  • ?

  • 5. Numrul de clustere algoritmul de grupare ofer soluii progresive

    de la un numr de clusteri egal cu numrul cazurilor, pn la soluia final, n care toate cazurile sunt grupate ntr-un singur cluster

    soluia optim se localizeaz ntre aceste dou situaii cercettorul trebuie s decid unde se oprete

    nu exist n prezent o metod de stabilire general acceptat depinde de obiectivele cercettorului n legtur cu utilizarea acestora

    Recomandabil s fie analizate caracteristicile clusterilor rezultai n etape succesive s se decid cnd s-a ajuns la o soluie interpretabil, sau la o soluie cu un

    numr rezonabil de clusteri, ori suficient de omogeni

    atunci cnd distana dintre clusteri nvecinai crete brusc, putem presupune c la pasul respectiv sunt unite dou grupuri sensibil diferite

    este recomandabil s se produc mai multe soluii de grupare acestea vor fi analizate comparativ pentru a se adopta soluia final

    reprezentri grafice specifice: dendograma i graficul icicle (urure)

  • 6. Validarea structurii de cluster

    Interpretarea clusterelor Statistici descriptive

    Reprezentrile grafice Scatter plot

    Testarea ipotezelor ANOVA, MANOVA, chi-ptrat

    Atenie, variabilele criteriu de grupare dau, oricum, diferene semnificative!

    Studiile de replicare Clusterizare dubl a altui set de date

    Odat pe baza distanei fa de centroizii primelor clustere

    A doua oar, prin analiza de cluster direct a setului de rezerv

    Testarea semnificaiei concordanei dintre cele dou soluii

  • Exemple de analiz de cluster cu SPSS

    Analiza ierarhic aglomerativ (Hierachical Cluster Analysis)

    Analiza de partiionare iterativ (K-Means Cluster)

  • Cluster 1 Seniori

    Cluster 2 Restul

    Cluster 3 Adjunci

  • Concluzii

    Analiza de cluster poate fi o soluie util pentru investigarea structurii cazurilor i obinerea de tipologii

    Utilizarea ei va fi abordat cu pruden Implic multe decizii subiective Necesit cunotine teoretice i experien necesit o permanent consultare a literaturii de specialitate i o

    practic individual bazat pe ncercarea unor soluii variate i analiza efectelor acestora

    structurarea tipologic a datelor, orict de tentant ar fi, nu reprezint n mod necesar o soluie pentru orice problem de cercetare n psihologie

    analiza de cluster nu este o procedura de testare a ipotezelor de cercetare soluiile sale sunt ntr-o msur destul de ridicat afectat de opiunile

    subiective ale cercettorului