proiect analiza datelor
DESCRIPTION
proiectTRANSCRIPT
Proiectul isi propune analiza situatiei mediului in tarile din Uniunea Europeana
Facultatea de Cibernetica,Statistica si Informatica Economica
Proiect Analiza Datelor
Analiza in componente principale si analiza claselor ierarhiceProfesor Coordonator: Andreea BotezatuStudent: Bianca Cojocaru
Grupa: 1049
Seria AProiectul isi propune sa analizeze progresul tehnologic in 24 tari cu un nivel mediu de dezvoltare umana. Datele prelucrate sunt din 2005 iar sursa este Human Development Raport 2007/2008. Scopul acestei analize este de a estima tara cea mai avantajoasa din punct de vedere a dezboltarii tehnologice.
Analiza in componente principale
Case Summariesa
Taraalfabetizarelinii_telefonieabonati_tel_mobilutilizatori_internetcercetatoriconsum_energiePIB($)indicele_saraciePopulatie_urbananumar_angajati
1Kazakhstan99.5167327276291.557.118.257.37182
2Colombia92.8168479104109.7122.37.972.718217
3Thailand92.61104301102871.4176.610.032.336302
4China90.9269302857082.12234.311.740.4737400
5Turkey87.42636052223411.1362.59.267.322047
6Peru87.980200164226.479.411.672.63400
7Ecuador91.01294724750.836.58.762.83892
8Philippines92.6414195448.799.015.362.732875
9Tunisia74.3125566951013.928.717.965.33315
10Iran82.427810610312791.3189.812.966.919760
11Paraguay93.55432034791.07.38.858.52247
12SriLanka90.763171141281.323.517.815.16943
13ElSalvador80.61413509347.617.015.159.82526
14Nepal48.61794591.07.438.115.87459
15Madagascar70.7427515.15.035.826.88099
16VietNam90.31911151291153.252.415.226.442316
17Indonesia90.45821373207.8287.218.248.194948
18Nicaragua76.7432172773.44.917.959.01953
19Egypt71.414018468493.989.420.042.818119
20Bolivia86.77026452120.49.313.664.22091
21India61.0458255119.8805.731.328.7308760
22Pakistan49.934826775.6110.736.234.938882
23Bangladesh47.58633511.160.040.525.144322
24SouthAfrica82.4101724109307.2239.523.559.311622
TotalN2424242424242424242424
In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica aflarea unor indicatori relevanti pentru analiza, indicatori sintetici redusi din cei initiali, pe baza carora datele pot fi interpretare mai usor. Pentru aceasta se foloseste tehnica analizei componentelor principale pe baza matricei de corelatie. Componentele noi vor exprima atribute noi ale tarilor si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare dintre aceste noi variabile fiind o combinatie liniara de variabile originale.
Variabilele luate in considerare sunt:
alfabetizare- Gradul de alfabetizare a adultilor de peste 15 ani in anul 2005; linii_telefonice - Numatul de linii de telefonice la 1000 de persoane in 2005; abonati_tel_mobil - numarul de telefoane mobile la 1000 de persoane in 2005; utilizatori_internet - numarul utilizatorilor de internet la 1000 de persoane in 2005; cercetatori numar de cercetatori la milionul de locuitori in 2005; consum_energie- consumul de energie pe cap de locuitor(%) din totalul de energie consumata in 2005;
PIB miliarde $ (us) 2005; indicele saracie- indicele de saracie umana, valoare procentuala in 2005( cu cat valoarea sa este mai mare cu atat poporul e mai sarac); populatie_urbana- % din totalul populatiei 2005; numar_angajati- numarul de angajati (mii) in anul 2005.
In prima etapa calculam analiza descriptiva a variabilelor si calculam indicatorii de centrare si imprastire, cum este media, valoarea minima si valoarea maxima, abaterea standard.
Descriptive Statistics
NMinimumMaximumMeanStd. DeviationVariance
alfabetizare2447.599.580.49215.1709230.156
linii_telefonie244278108.2981.4646636.303
abonati_tel_mobil249724280.29194.34337769.259
utilizatori_internet24322272.6752.9772806.580
cercetatori24151279274.08328.794108105.819
consum_energie24.13.2.971.6531.427
PIB($)244.92234.3212.729464.2796215555.590
indicele_saracie247.940.518.97510.0238100.476
Populatie_urbana2415.172.748.53318.5972345.857
numar_angajati24195373740061444.88157025.4562.466E10
Valid N (listwise)24
Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata independent. Din tabel aflam ca pentru variabila gradului de alfabetzare la adulti (peste 15 ani) valoarea maxima este 99.5 iar cea medie este de 80.49 de unde putem concluziona ca desi analizam tari medii din punct de vedere al dezvoltarii umane, gradul de alfabetizare este in medie destul de ridicat. Desi reteaua telefonica nu este foarte bine dezvoltata, existant maxim 278 linii telefonice la 1000 de persoane, numarul maxim al utilizatorilor de telefon mobil este aproximativ triplu 724 la acelasi numar de persoane. Gradul de raspandire a telefoniei mobile in aceste tari este mult mai ridicat decat cel al utilizarii internetului, care are valoarea medie de 72.67 la mia de locuitori.Valoarea medie a consumului de energie pe cap de locuitar a tarilor analizate este 3.2, aceasta variabila avand varianta cea mai mica, 0.427, ceea ce ne arata ca este si cea mai omogena variabila, dar si cea mai stabila, avand abaterea standard cea mai mica, 0.6531. Populatia in aceste tari este predominant rurala, indicele populatiei urbane avand media 48.533.Tot in urma analizei descriptive se obtin si standardizarile variabilelor initiale. Pentru analiza in componente principale se vor folosi variabilele standardizate, evitand in acest fel discrepantele dintre valori ce ar putea fi datorate unitatilor de masura diferite. Informatiile astfel exprimate in forma standardizata, in unitati standard de abatere medie patratitica, se afla in tabelul de mai jos:Case Summariesa
TaraZscore(alfabetizare)Zscore(linii_telefonie)Zscore(abonati_tel_mobil)Zscore(utilizatori_internet)Zscore(cercetatori)Zscore(consum_energie)Zscore: PIB($)Zscore(indicele_saracie)Zscore(Populatie_urbana)Zscore(numar_angajati)
1Kazakhstan1.25295.72067.24034-.862011.07945.81027-.33521-.07732.47140-.34557
2Colombia.81131.732951.02246.59145-.50209-.41471-.19477-1.104871.29948-.27529
3Thailand.79813.02097.77033.70471.03928.65715-.07782-.89537-.87289-.16012
4China.686071.97276.11170.232801.319721.729014.35421-.72578-.437344.30475
5Turkey.455371.899111.670802.81882.20352.19778.32259-.975181.00911-.25090
6Peru.48832-.34729-.413141.72401-.14624-.87407-.28717-.735751.29410-.36965
7Ecuador.69266.25420.98644-.48449-.68153-.26158-.37958-1.02506.76714-.36652
8Philippines.79813-.82603.71373-.35235-.68761-.41471-.24496-.36663.76176-.18194
9Tunisia-.40813.205101.47012.421572.24735-.10846-.39638-.10725.90157-.37019
10Iran.125792.08324-.89682.572573.05637.50403-.04939-.60606.98760-.26547
11Paraguay.85745-.66645.20432-.72987-.59333.04466-.44247-1.01509.53592-.37700
12SriLanka.67289-.55597-.56236-1.10740-.44430.50403-.40758-.11722-1.79776-.34709
13ElSalvador.00714.40151.35869.38381-.69065-.56783-.42158-.38658.60582-.37522
14Nepal-2.10216-1.12064-1.39594-1.29616-.65416.04466-.442251.90797-1.76012-.34380
15Madagascar-.64542-1.28023-1.30332-1.27728-.78798-1.33344-.447421.67851-1.16863-.33973
16VietNam.646521.01528-.850511.06335-.483843.41335-.34533-.37660-1.19014-.12182
17Indonesia.65311-.61735-.34625.00629-.20403-.26158.16040-.07732-.02330.21336
18Nicaragua-.24993-.80148-.32567-.86201-.61158-.87407-.44764-.10725.56281-.37887
19Egypt-.59928.38923-.49547-.08809.66582-.10846-.26564.10226-.30829-.27592
20Bolivia.40923-.47005-.08383-.39011-.46863-.87407-.43816-.53623.84242-.37799
21India-1.28481-.77693-1.02032-.33348-.47167-.261581.277181.22958-1.066471.57500
22Pakistan-2.01647-.91196-1.02032-.10696-.60549-.56783-.219761.71842-.73308-.14369
23Bangladesh-2.17467-1.23112-1.11808-1.31503-.67849.19778-.328962.14740-1.26004-.10905
24SouthAfrica.12579-.089512.28312.68583.10011-1.18032.05766.45143.57894-.31729
TotalN2424242424242424242424
a. Limited to first 100 cases.
In urma standardizarii, variabilele, anterior exprimate in unitati de masura diferite, sunt perfect comparabile intre ele si se pot realiza topuri ale tarilor in functie de fiecare variabila individuala. De exemplu intr-un top al tarilor cu cel mai mare grad de alfabetizare pe primul loc se afla Kazakhstan,urmata de Paraguay si Colombia iar la urma clasamentului se afla Bangladesh. De asemeni, din punct de vedere al indicelui de saracie, cele mai bogate tari din cele analizate sunt: Colombia si Paraguay iar cele mai sarace Bangladesh, Nepal si Madagascar. Pentru a realiza scopul propus de Analiza in componente principale, se calculeaza mai intai matricea corelatiilor variabilelor, o matrice patratica de dimensiune 8x8 in cazul de fata.
Matricea de corelatie, Correlation Matrix, care se obtine prin utilizarea variabilelor standardizate este:
Correlation Matrixa
Zscore(alfabetizare)Zscore(linii_telefonie)Zscore(abonati_tel_mobil)Zscore(utilizatori_internet)Zscore(cercetatori)Zscore(consum_energie)Zscore: PIB($)Zscore(indicele_saracie)Zscore(Populatie_urbana)Zscore(numar_angajati)
CorrelationZscore(alfabetizare)1.000.480.528.352.167.246.092-.882.505.026
Zscore(linii_telefonie).4801.000.369.637.658.525.429-.610.386.323
Zscore(abonati_tel_mobil).528.3691.000.494.175-.142.038-.577.627-.083
Zscore(utilizatori_internet).352.637.4941.000.284.180.159-.534.481.035
Zscore(cercetatori).167.658.175.2841.000.260.285-.255.300.214
Zscore(consum_energie).246.525-.142.180.2601.000.333-.219-.338.358
Zscore: PIB($).092.429.038.159.285.3331.000-.107-.110.983
Zscore(indicele_saracie)-.882-.610-.577-.534-.255-.219-.1071.000-.655-.026
Zscore(Populatie_urbana).505.386.627.481.300-.338-.110-.6551.000-.206
Zscore(numar_angajati).026.323-.083.035.214.358.983-.026-.2061.000
a. Determinant = 1.23E-005
Matricea de corelatie ofera informatii cu privire la taria legaturii dintre variabile si, deasemenea, in functie de valorile coeficientilor ne putem da seama de cate componente principale este necesar in cadrul analizei. Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.983 este intre variabila produsului intern brut si cea a numarului de angajati, urmata de corelatia puternicade 0.92 intre produsul intern brut si gradul de alfabetizare. Din analiza matricei de corelatie deducem faptul ca pentru a caracteriza datele initiale avem nevoie de aproximativ trei variabile artificiale. Continutul informational total al datelor initiale, care reprezinta de fapt varianta generalizata calculata ca determinant al matricei de covarianta, este 1.23E-005.
Tabelul Communalities ne arata influenta variabilelor luate in studiu. Communalities
InitialExtraction
Zscore(alfabetizare)1.000.655
Zscore(linii_telefonie)1.000.850
Zscore(abonati_tel_mobil)1.000.705
Zscore(utilizatori_internet)1.000.530
Zscore(cercetatori)1.000.371
Zscore(consum_energie)1.000.916
Zscore: PIB($)1.000.979
Zscore(indicele_saracie)1.000.824
Zscore(Populatie_urbana)1.000.842
Zscore(numar_angajati)1.000.957
Extraction Method: Principal Component Analysis.
Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea variabilelor artificiale obtinute ulterior(cu exceptia variabilei a 5-a reprezentand numarul cercetatorilor la mia de persoane, fiecare dintre ele, in rest, avand o cantitate de informatie recuperata de peste 40%, dupa cum reiese din coloana Extraction.Din analiza acestuia se observa ca variabila 7 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din acesta variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza 0.957 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total Variance Explained. Tabelul ne ofera informatii cu privire la valoriile proprii ale matricei de corelatie, dar si informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea. O valoare proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa.
Total Variance Explained
ComponentInitial EigenvaluesExtraction Sums of Squared Loadings
Total% of VarianceCumulative %Total% of VarianceCumulative %
14.05340.53340.5334.05340.53340.533
22.51525.15265.6852.51525.15265.685
31.06110.60576.2901.06110.60576.290
4.9709.70485.994
5.6476.47592.469
6.3913.90796.376
7.1681.68298.059
8.1151.15399.211
9.076.75799.969
10.003.031100.000
Extraction Method: Principal Component Analysis.
Se observa ca pentru a recupera o cantitate cat mai mare de informatie din datele initiale avem nevoie de trei componente principale. Acestea corespund valorilor proprii cele mai mari, valori proprii peste 1, iar aceste valori proprii reprezinta variantele corespunzatoare celor trei componente retinute. Cele trei valori proprii retinute, cu valori peste 1, se afla in coloana Initial Eigenvalues si sunt, in ordine descrescatoare, 4.053, 2.515 si 1.061. Utilizand trei componente principale, cantitatea de informatie total recuperata este de 76.29 % din informatia initiala, asa cum se observa in coloana Cumulative %. Dintre cele trei componente principale, prima acopera 40.5% din varianta finala, a doua componenta 25.1% (25.152), in timp ce a treia componenta 10.6% (10.605).Pentru a stabili numarul de componente principale necesare se mai poate folosi si metoda grafica. In Scree Plot, graficul descresterii, se observa trei diferente semnificative de nivel intre segmentele ce indica reprezentarea grafica a valorilor proprii, ceea ce ne indica necesitatea unui numar de 3 componente principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de componente principale necesare reprezentarii spatiului initial. In urma identificarii numarului de diferente semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea grafica se duce o paralela la abscisa, iar numarul de valori proprii ramase deasupra paralelei da numarul de componente principale.
Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul, datele fiind disponibile in Component Matrix. Cu ajutorul tabelului se poate da o interpretare variabilelor in spatiul transformat, aceasta continand coeficientii corelatiilor dintre componentele principale si valorile initiale.Component Matrixa
Component
123
Zscore(alfabetizare).761-.211-.174
Zscore(linii_telefonie).856.288-.184
Zscore(abonati_tel_mobil).665-.414.303
Zscore(utilizatori_internet).721-.100-.018
Zscore(cercetatori).546.262-.062
Zscore(consum_energie).323.609-.664
Zscore: PIB($).360.811.437
Zscore(indicele_saracie)-.867.240.119
Zscore(Populatie_urbana).659-.563.302
Zscore(numar_angajati).242.858.404
Extraction Method: Principal Component Analysis.
a. 3 components extracted.
Se observa astfel ca prima componenta principala se poate analiza in termenii numarului liniilor de telefonie fixa existente la mia de locuitori,a numarului de telefoane mobile la mia de locuitori precum si in functie de gradul de alfabetizare si numarul utilizatorilor de internet, toate avand un coeficient de corelatie de peste 0.700. Prima componenta principala este puternic negativ influientata de indicele de saracie, deoarece, cu cat tara are un indice de saracie mai mare cu atat este mai putin inclinata spre folosirea de tehnilogie. Astfel, aceasta prima componenta poate fi considerata un indicator accesului populaiei la ntreaga gam de servicii oferite de dezvoltarea tehnologiilor informa ionale. In acelasi timp, aceasta prima componenta poate fi folosita pentru a caracteriza tarile in functie de gradul de educatie utilizare a tehnologiei fiind fiind puternic influientata de gradul de alfabetizare. Intr-un top al tarilor ordonate dupa prima componenta principala,Turcia, China si Iran ocupa primele pozitii, acestea putand fi caracterizate drept cele mai dezvoltate tari din punct de vedere tehnologic dintre cele studiate, incadrate in tarile cu nivel mediu de dezvoltare umana, in timp ce ultimele locuri sunt ocupate Pakistan, Madagascar, Bangladesh, Nepal .
Topul tarilor in functie de prima componenta principala, componenta ce indica accesului populaiei la ntreaga gam de servicii oferite de dezvoltarea tehnologiilor informa ionale:TaraFACT_1
Turkey1.692055
China1.649365
Iran1.140779
Colombia0.893408
Tunisia0.689404
Kazakhstan0.526592
Kazakhstan0.526592
Thailand0.497049
Peru0.488084
VietNam0.441834
Ecuador0.435171
SouthAfrica0.404341
SouthAfrica0.404341
ElSalvador0.196265
Paraguay0.089999
Philippines0.073668
Bolivia-0.04832
Indonesia-0.07209
Egypt-0.15825
Nicaragua-0.52321
SriLanka-0.62418
India-0.94564
Pakistan-1.39979
Madagascar-1.65462
Bangladesh-1.86178
Nepal-1.93013
Componenta a doua este puternica influentata de nivelul PIB-ului si a numarului de angajati. Reiese astfel, in urma unei ordonari crescatoare, ca China, India si Viet Nam sunt tarile cu nivelul cel mai ridicat al produsului intern brut si cu numarul cel mai mare de angajati.
Topul tarilor in functie de a doua componenta principala, ordonata crescator, deoarece indica, intr-un fel bogatia tarilor respective:
TaraFACT_2
China3.597186
India1.392008
VietNam1.013131
Bangladesh0.598077
Nepal0.587538
Iran0.408052
Pakistan0.244297
SriLanka0.2331
Egypt0.121975
Thailand-0.0258
Indonesia-0.03121
Kazakhstan-0.05825
Madagascar-0.07117
Turkey-0.43819
Tunisia-0.45884
Nicaragua-0.66802
ElSalvador-0.67436
Paraguay-0.69184
Philippines-0.78346
Ecuador-0.82296
Bolivia-0.82909
SouthAfrica-0.87484
Colombia-0.88103
Peru-0.88629
A treia componenta principala indica pe bogatia monetara a tarilor considerate, fiind influientata atat de PIB si numarul de angajati cat si de economisirea de energie electrica, nivelul dezvoltarii populatiei in mediul urban, numarul de abonati la telefonia mobila.Topul tarilor in functie de cea de-a treia componenta principala, componenta ce indica nivelul dezvoltarii economice a tarilor considerate:
TaraFACT_3
China1.642949
SouthAfrica1.486478
India1.213454
Philippines0.526857
Nicaragua0.50377
Pakistan0.43059
Bolivia0.426051
Peru0.414433
Madagascar0.401167
Colombia0.370185
Tunisia0.320675
ElSalvador0.232681
Indonesia0.208636
Ecuador0.142021
Turkey0.103563
Bangladesh-0.10371
Paraguay-0.23572
Egypt-0.37094
Nepal-0.42547
Thailand-0.78275
Kazakhstan-0.96234
Iran-1.05085
SriLanka-1.27032
VietNam-3.22141
Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor, tehnica Varimax, si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din componentele principale. In cazul nostru interpretarea se poate face cu usurinta si pe prima matrice de corelatie dintre variabilele originale si componentele principale. Se observa ca prin tehnica Varimax obtinem aceeasi interpretare. Tehnica Varimax realizeaza o roatie a axelor initiale pentru a facilita interpretarea factorilor astfel obtinuti.Rotated Component Matrixa
Component
123
Zscore(alfabetizare).753-.053.291
Zscore(linii_telefonie).634.358.566
Zscore(abonati_tel_mobil).808.030-.227
Zscore(utilizatori_internet).691.111.203
Zscore(cercetatori).380.320.353
Zscore(consum_energie)-.039.193.937
Zscore: PIB($).049.978.143
Zscore(indicele_saracie)-.867.015-.267
Zscore(Populatie_urbana).863-.089-.298
Zscore(numar_angajati)-.081.963.154
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.
Tabelul Component Transformation Matrix indica corelatia componentelor inainte si dupa rotatie.Component Transformation Matrix
Component123
1.986.163.030
2-.162.914.371
3.033-.371.928
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 3 componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta. Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul Component Score Coefficient Matrix reprezinta matricea versorilor, continand vectorii proprii corespunzatori valorilor proprii retinute. Datele sunt prezente in tabelul de mai jos:
Component Score Coefficient Matrix
Component
123
Zscore(alfabetizare).184-.106.156
Zscore(linii_telefonie).123.050.265
Zscore(abonati_tel_mobil).251.077-.258
Zscore(utilizatori_internet).175.008.053
Zscore(cercetatori).072.086.141
Zscore(consum_energie)-.105-.140.653
Zscore: PIB($).000.508-.156
Zscore(indicele_saracie)-.218.079-.117
Zscore(Populatie_urbana).274.030-.286
Zscore(numar_angajati)-.038.496-.131
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Matricea Component Score Covariance Matrix demonstreaza faptul ca covarianta dintre componentele principale este 0, componentele fiind interpretate in functie de valori diferite.
Component Score Covariance Matrix
Component123
11.000.000.000
2.0001.000.000
3.000.0001.000
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Noile variabile obtinute prin aplicarea acestei tehnici de analiza multidimensionala sunt prezentate in tabelul de mai jos:Case Summaries
Case NumberTaraREGR factor score 1 for analysis 2REGR factor score 2 for analysis 2REGR factor score 3 for analysis 2
11Kazakhstan.38024-.43993.93203
22Colombia1.21367-.23457-.42825
33Thailand.36263-.32205.79070
44China.227804.18453.89288
55Turkey1.72201.18175.25972
66Peru.85477-.32549-.59911
77Ecuador.74715-.44330-.36339
88Philippines.45200-.29627-.77765
99Tunisia.85068.01123-.25467
1010Iran.73434.043771.42513
1111Paraguay.33445-.64768-.10468
1212SriLanka-.81775-.70189.94673
1313ElSalvador.48172-.34221-.44527
1414Nepal-2.03834-.31111-.00319
1515Madagascar-1.41742-.28633-.90151
1616VietNam-.41491-.892823.26035
1717Indonesia-.02649.07272-.20907
1818Nicaragua-.13780-.38341-.89877
1919Egypt-.23907-.15624.30976
2020Bolivia.34775-.42201-.75645
2121India-1.272381.50697-.64381
2222Pakistan-1.31206.04671-.69341
2323Bangladesh-1.94078-.10370-.23936
2424SouthAfrica.90778.26133-1.49869
TotalN24242424
Analiza claselor ierarhice
Metodele de clasificare sau de analiza cluster au ca scop gruparea indivizilor, caracterizati de diverse variabile, intr-un numar restrans de clase omogene. Analiza claselor ierarhice (Hierarchical Cluster Analysis) este o metoda de grupare ierarhica in care fiecare clasa este in totalitate continuta in alta clasa. Clasele grupeaza indivizi cat mai asemanatori intre ei prin valorile variabilelor lor, in timp ce clasele constituite sunt cat mai diferite.
In urma realizarii analizei ierarhice se obtin mai multe tabele.
Tabelul Case Processing Summary arata cate variabile au fost luate in considerare in analiza, in cazul de fata 24 dintre ele fiind valide, adica un procent de 100%.
Case Processing Summary
Cases
IncludedExcludedTotal
NPercentNPercentNPercent
Tara 24100.0%0.0%24100.0%
REGR factor score 1 for analysis 2 24100.0%0.0%24100.0%
REGR factor score 2 for analysis 2 24100.0%0.0%24100.0%
REGR factor score 3 for analysis 2 24100.0%0.0%24100.0%
Tabelul Proximity Matrix exprima distantele euclidiene dintre variabile, in cazul de fata dintre tari, si se observa ca acestea pot fi folosite ca masura de comparare a tarilor. Cu cat dinstanta dintre tari este mai mare, cu atat punctele sunt mai putin asemanatoare. Astfel, distantele euclidiene masoara disimilaritatea dintre puncte. Valoarea dintre elementele de pe diagonala este 0, in timp ce in restul tabelului o valoare mica indica o similaritate ridicata iar o valoare ridica o disimilaritate puternica. In cazul de fata tabelul rezultat este o matrice patratica de dimensiune 24x24.
In tabelul Agglomeration Schedule se afla gruparea claselor in functie de distantele din matricea de proximitate (Coefficients). Fiecare rand reprezinta o etapa din procesul de grupare al variantelor, numerotate de la 1 la 23 (n-1, unde n este numarul de variante). Ultima etapa, n-1, cuprinde toate variantele intr-un singur cluster. Cele doua coloane continute de campul Stage Cluster First Appears indica etapa la care a mai fost intalnit un cluster deja format, iar Next Stage indica etapa viitoare la care va mai fi intalnita combinatia de clustere formata.
Agglomeration Schedule
StageCluster CombinedCoefficientsStage Cluster First AppearsNext Stage
Cluster 1Cluster 2Cluster 1Cluster 2
11423.439009
218201.108004
38111.161004
48181.247325
5781.706046
6271.782057
72131.938608
82172.0717011
914222.6611010
1014213.3089013
112193.6888012
12264.18811014
1314154.32810019
14234.51412015
152125.40814016
162245.98315017
17126.34101618
18197.48517019
191147.709181320
20158.11019021
2111010.84420022
2211612.07921023
231427.1282200
Tabelul Vertical Icicle indica pentru fiecare tara in parte din cate clustere face parte, intreruperea de X din coloane indicand si locul in care se termina o clasa. Pe pe prima coloana verticala sunt prezentate numarul de clustere, iar urmatoarele coloane reprezinta variantele, in cazul de fata tarile. Citind tabelul de jos in sus, se poate observa cum au fost grupate tarile. Prima solutie din Agglomeration Schedule va fi prezentata pe ultimul rand, n-1, cea in care doar primele doua tari erau grupate, in timp ce primul rand reprezinta clusterul ce contine toate variantele. Pe masura ce se succed randurile, numarul de clustere creste.
Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne indica modul de grupare al tarilor in functie de asemanarile dintre ele, dar si nivelul lor de agregare:
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14
Bangladesh 23
Pakistan 22
India 21
Madagascar 15
Nicaragua 18
Bolivia 20
Philippines 8
Paraguay 11
Ecuador 7
Colombia 2
ElSalvador 13
Indonesia 17
Egypt 19
Peru 6
Thailand 3
SriLanka 12
SouthAfrica 24
Kazakhstan 1
Tunisia 9
Turkey 5
Iran 10
VietNam 16
China 4
In cazul analizei ierarhice prin metoda celor mai departati vecini (Complete Linkage) se obtin informatiile urmatoare. Rezulta tabelul Agglomeration Schedule:
Agglomeration Schedule
StageCluster CombinedCoefficientsStage Cluster First AppearsNext Stage
Cluster 1Cluster 2Cluster 1Cluster 2
11423.439007
218201.108006
38111.161004
4781.7450310
52132.348009
617182.8590210
714223.124108
814154.9767011
9265.0975015
107175.1364615
1114216.0688023
121196.3410013
13137.08012016
149247.4850017
15279.23691017
1611210.24213018
172914.788151420
1811618.13416021
1951020.2880020
202528.684171921
211236.874182022
221444.90921023
2311460.38022110
Dendrogram using Complete Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14
Bangladesh 23
Pakistan 22
Madagascar 15
India 21
Kazakhstan 1
Egypt 19
Thailand 3
SriLanka 12
VietNam 16
Tunisia 9
SouthAfrica 24
Colombia 2
ElSalvador 13
Peru 6
Philippines 8
Paraguay 11
Ecuador 7
Nicaragua 18
Bolivia 20
Indonesia 17
Turkey 5
Iran 10
China 4
In urma folosirii celei de-a treia metode pentru clasificarea ierarhica, metoda centroidelor (Centroid Method), se obtine urmatorul tabel Agglomeration Schedule:
Agglomeration Schedule
StageCluster CombinedCoefficientsStage Cluster First AppearsNext Stage
Cluster 1Cluster 2Cluster 1Cluster 2
11423.439008
218201.108005
38111.161004
4781.435035
57181.952426
67132.036507
77172.001609
814222.7831010
9273.8230712
1014153.9028011
1114213.98510020
12265.1199013
132195.27912014
14235.00113015
15125.96901416
161246.92515017
17198.57716018
181129.05817019
191515.13518020
2011416.907191121
2111019.34420022
2211619.17321023
231431.4002200
Dendograma obtinuta este: Dendrogram using Centroid Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14
Bangladesh 23
Pakistan 22
Madagascar 15
India 21
Nicaragua 18
Bolivia 20
Philippines 8
Paraguay 11
Ecuador 7
ElSalvador 13
Indonesia 17
Colombia 2
Peru 6
Egypt 19
Thailand 3
Kazakhstan 1
SouthAfrica 24
Tunisia 9
SriLanka 12
Turkey 5
Iran 10
VietNam 16
China 4
PAGE 22