proiect spss
DESCRIPTION
spssTRANSCRIPT
Proiect SPSS
1. IntroducereGeneraliti despre programul SPSSSPSS (Statistical Package for the SocialSciences) for Windows este un pachet de programe destinat analizei statistice a datelor. Pe lng SPSS mai pot fi ntlnite i alte programe de analiz statistic (SAS, Statistica for Windows, GraphPad, MS Excel, etc.) ns, prin structura sa complex dar cu o interfa prietenoas i uor utilizabil chiar i de nceptori, SPSS rmne in topul programelor de analiz statistic. Ultimele versiuni disponibile sunt SPSS 17 i IBM SPSS Statistics 18, totui cea mai utilizat versiune rmne deocamdat SPSS 16.Funciile de baz ale SPSS sunt:
editarea datelor (construirea bazelor de date, transformri ale variabilelor);
prelucrarea statistic a datelor (statistici descriptive, teste de semnificaie);
prezentarea rezultatelor sub form numeric sau grafic
realizarea unor proceduri proprii de prelucrare;Prezentarea proiectuluin lucrarea de fa este prezentat analiza datelor cu privire la dou variabile i anume populaia si suprafaa locuibil pentru anul 2007 pe fiecare jude n parte utiliznd programul SPSS versiunea 16.0.
Sursa de date este Anuarul statistic al Institutului Naional de Statistic. (vezi anexele 1.1 i 1.2)Scopul lucrrii este analiza datelor, stabilirea legturii dintre date i obinerea de noi informaii analiznd cele dou variabile i rezultatele obinute n urma prelucrrii i analizrii lor.
Lucrarea este structurat pe capitole i subcapitole, conform cerinelor din suportul de curs dup cum urmeaz:
1. Introducerea o prezentare succint a programului SPSS, a scopului lucrrii i a bazei de date ce urmeaz a fi prelucrat.
2. Analiza indicatorilor medii i ai variaiei folosind cele trei metode de analiz Descriptives, Frequencies, Case Summaries.
3. Grafice specifice prezentarea grafic a datelor utiliznd opiunea Grahps din program.4. Analiza bivariat.5. Analiza legturii dintre variabile.
6. Modele de regresie alegerea celui mai potrivit model de regresie.
7. Anexe n care se regsesc tabelele de unde au fost preluate datele pentru prelucrare.Baza de dateSe pleac de la centralizarea datelor, ce doresc a fi analizate, ntr-un tabel n programul MS Excel pe dou coloane, ce vor reprezenta cele dou variabile care vor fi analizate conform cerinelor din suportul de curs.Crearea bazei se ncepe prin definirea variabilelor n fereastra Data Editor n foaia de lucru Variable View (figura 1.1) dup care de introduc datele n celulele corespunztoare din foaia de lucru Data View (figura 1.3.1).
Tabel nr. 1.1. Populaia i suprafaa locuibil pe judee pentru anul 2007Nr. crt.OraPopulaiaSuprafaa locuibil
1ALBA376.0865.568.829
2ARAD457.7137.967.085
3ARGE644.2369.423.021
4BACU719.8449.680.485
5BIHOR594.1319.036.698
6BISTRIA - NSUD316.6894.727.425
7BOTOANI454.1675.654.800
8BRAOV593.9289.026.837
9BRILA365.6284.993.613
10BUZU488.7637.061.181
11CARA - SEVERIN327.5795.256.009
12CLRAI315.1874.045.910
13CLUJ692.31610.599.070
14CONSTANA718.33010.044.574
15COVASNA223.3643.331.027
16DMBOVIA533.3307.655.357
17DOLJ712.18710.690.487
18GALAI614.4498.340.937
19GIURGIU283.4084.192.515
20GORJ381.6435.463.761
21HARGHITA325.6115.111.176
22HUNEDOARA472.2847.052.612
23IALOMIA290.5633.851.786
24IAI825.1009.957.530
25ILFOV294.0945.879.415
26MARAMURE513.0007.260.251
27MEHEDINI298.7414.720.492
28MURE581.7598.669.402
29NEAM566.0597.725.900
30OLT475.7026.743.485
31PRAHOVA821.01312.426.882
32SATU MARE366.2705.797.322
33SLAJ243.1573.870.253
34SIBIU423.1566.834.478
35SUCEAVA705.8789.899.612
36TELEORMAN413.0645.744.285
37TIMI666.86611.498.029
38TULCEA250.6413.845.408
39VLCEA411.5765.749.767
40VASLUI455.5945.797.254
41VRANCEA329.6196.024.138
2. Calculul i analiza indicatorilor medii ai tendinei centrale i ai variaiein aceast etap a lucrrii vor fi calculai urmtorii indicatori: Media Mean
Mediana Median
Modulul Mode
Abaterea medie ptratic Std. Deviation
Asimetria Skewness
Amplitudinea Range
Minimul i Maximul valorii variabilelor Minimum and Maximum
Dispersia Variance
Calculul variabilelor poate fi realizat prin trei metode utiliznd opiunile din meniul Analyze: opiunea Descriptive, opiunea Frequecies, opiunea Case Summarise. 2.1. Calculul variabilei Populaia folosind opiunea Descriptive
Etapa In fereastra Data Editor, foaia de lucru Data View se acceseaz opiunea Analyze urmnd calea Descriptive Statistics Descriptives.
Etapa II
Se adaug n csua Variable(s) variabila Populaia i se bifeaz n Options: Mean, Std. Deviation, Variance, Range, Minimum, Maximum, Skewness, ordinea de afiare Variable list dup care se apas butonul Continue i OK.
Se poate observa c n fereastra de Output a aprut un tabel cu valorile aferente opiunilor alese.
Etapa III
Pentru analiza datelor tabelul, aprut n fereastra Output, trebuie transformat ntr-un alt format (rezultate statistice pe rnduri). Calea care trebuie urmat este drapta click Edit Content In Separate Window.
Etapa IVInterpretarea rezultatelor conform valorilor indicilor din tabel:Tabel nr. 2.1.1 Valorile opiunilor variabilei PopulaiaDescriptive Statistics
PopulaiaValid N (listwise)
NStatistic4141
RangeStatistic601736
MinimumStatistic223364
MaximumStatistic825100
MeanStatistic476651,83
Std. DeviationStatistic167910,228
VarianceStatistic2,819E10
SkewnessStatistic,427
Std. Error,369
N este numrul de subieci supui cercetrii, n cazul de fa avem 41 de judee,Range este amplitudinea absolut a variaiei sau intervalul (se mai poate calcula fcnd diferena dintre Minimum i Maximum)i are ca rezultat 601736Minimum judeul cu cei mai puini locuitori a fost COVASNA cu 223364 locuitori,Maximum judeul cu cei mai muli locuitori a fost IAI cu 825100 locuitori
Mean este media sau scorul mediu al cazurilor studiate, adic numrul mediu de locuitori per jude este de 476651,83,Std. Deviation abaterea medie ptratic (abaterea standard) este de 167910,228, (n medie cele 41 de judee se abat de la media calculat cu 167910,228).Variance dispersia tinde ctre 0Skewness asimetria seriei este uor pozitiv avnd coeficientul 0,4272.2. Calculul variabilei Populaia folosind opiunea Frequecies
Etapa I n fereastra Data Editor se acceseaz calea Analyze Descriptive Statistics Frequencies.
Etapa II
Se stabilete variabila pentru care urmeaz a fi calculai indicii iar din opiunea Statistics se vor bifa urmtorii indici dup cum urmeaz:
Percentile Values
Quartiles Dispersion
Std. Deviation
Variance
Range
Minimum
Maximum
Central Tendency
Mean
Median
Mode
Distribution
Skewness
Etapa IIIInterpretarea rezultatelor
Tabel nr. 2.2.1 Indicii Frequencies
Statistics
Populaia
NValid41
Missing0
Mean476652
Median455594
Mode223364a
Std. Deviation167910
Variance28193844722
Skewness0
Std. Error of Skewness0
Range601736
Minimum223364
Maximum825100
Percentiles25326595
50455594
75604290
a. Multiple modes exist. The smallest value is shown
Fa de metoda anterioar se observ posibilitatea calculrii medianei, Median = 455594, valoare ce corespunde judeului VASLUI. Asta arat c 50% dintre judee au populaia pn n valoarea de 455594. Analiznd rezultatele de la Percentiles se pot constata urmtoarele: 25% din judee au pn n 326595 locuitori; 50% din judee au pn n 455594 locuitori; 75% din judee au pn n 604290 locuitori; peste 75% din judee au ntre 604290 i 825100 locuitori.
Judeul cu cei mai puini locuitori este COVASNA cu 223364 locuitori.2.3. Calculul variabilei Populaia folosind opiunea Case Summarise
Pentru modalitatea de calcul Case Summaries se alege calea Analyze Reports Case Summaries. (Figura nr. 2.3.1)Etapa I
Se alege variabila pentru care se vor calcula indicii i din opiunea Statistics se debifeaz Display cases i se aleg indicii care vor fi calculai respectiv: Number of Cases Numrul de cazuri supuse cercetrii
Mean
Median
Minimum
Maximum
Standard Deviation
Variance
Skewness
Range
Etapa IIAnaliza rezultatelor din Output.
Tabel nr. 2.3.1. Totalitatea cazurilor studiate
Case Processing Summary
Cases
IncludedExcludedTotal
NPercentNPercentNPercent
Populaia 41100,0%0,0%41100,0%
Case Summaries
Populaia
N41
Mean476651,83
Median455594,00
Minimum223364
Maximum825100
Std. Deviation167910,228
Variance2,819E10
Skewness,427
Range601736
Tabel nr. 2.3.2. Rezultatele indicatorilor
2.4. Calculul variabilei Suprafaa locuibil folosind opiunea Descriptive
Etapa ISe urmeaz calea Analize Descriptive Statistics Descriptives.
Etapa II
Se alege variabila pentru care se vor calcula indicii, n acest caz Suprafaa locuibil.
Etapa IIIAnaliza datelor din tabelul Descriptive Statistics afiat n Output.
Tabel nr. 2.4.1. Valorile indicilor sub forma de tabel
Descriptive Statistics
Suprafaa_locuibilValid N (listwise)
NStatistic4141
RangeStatistic9095855
MinimumStatistic3331027
MaximumStatistic12426882
MeanStatistic7005343,85
Std. DeviationStatistic2376015,441
VarianceStatistic5,645E12
SkewnessStatistic,448
Std. Error,369
La un numr de 41 de judee studiate se pot observa urmtoarele aspecte: media de suprafa locuibil pe jude n 2007 este de 7005343 m2 judeul cu cea mai mare suprafa locuibil a fost PRAHOVA cu un total de suprafa locuibil de 12426882 m2 judeul cu cea mai mic suprafa locuibil a fost COVASNA cu un total de 3331027 m22.5. Calculul variabilei Suprafaa locuibil folosind opiunea Frequecies
Etapa I
Etapa II
Etapa IIIInterpretarea rezultatelor
Tabel nr. 2.5.1. Tabelul cu valorile indicilor selectai
Statistics
Suprafaa_locuibil
NValid41
Missing0
Mean7005344
Median6743485
Mode3331027a
Std. Deviation2376015
Variance6,E12
Skewness0
Std. Error of Skewness0
Range9095855
Minimum3331027
Maximum12426882
Percentiles255183592
506743485
759031768
a. Multiple modes exist. The smallest value is shown
Pentru cele 41 de judee supuse cercetrii se observ ca:
suprafaa medie locuibil pe jude pe anul 2007 a fost de 7005344 m2 25% din judee dein pn la 5183592 m2 suprafa locuibil
50% din judee dein pn la 6743485 m2 suprafa locuibil
75% din judee dein pn la 9031768 m2 suprafa locuibil
peste 75% din judee dein ntre 9031768 m2 i 12426882 m2 suprafa locuibil
2.6. Calculul variabilei Suprafaa locuibil folosind opiunea Case Summaries Etapa I
Etapa II
Etapa III
Analiza rezultatelor
Tabel nr. 2.6.1. Case Processing Summary
Cases
IncludedExcludedTotal
NPercentNPercentNPercent
Suprafaa_locuibil 41100,0%0,0%41100,0%
Case Summaries
Suprafaa_locuibil
N41
Mean7005343,85
Median6743485,00
Minimum3331027
Maximum12426882
Std. Deviation2376015,441
Variance5,645E12
Skewness,448
Range9095855
Tabel nr. 2.6.2. Valorile indicilor selectai
Conform abaterii standard se poate observa c 70% din judee dein suprafee locuibile cuprinse ntre 4629328 m2 i 9381359 m2. 3. Reprezentarea grafic a celor dou distribuii i a indicatorilor calculaiReprezentarea grafic a datelor este foarte important n procesul de analiz a indicilor calculai deoarece graficele utilizeaz sistemul vizual uman pentru a releva patternuri in date patternuri observate cu greu vizualiznd doar cifre sau indici statistici.Elementele componente ale unui grafic sunt: titlul
reeaua graficului
notele explicative i legendele
sursa de informaie
Alegerea unui grafic se face n funcie de scopul urmrit, numrul variabilelor i tipul acestora. n SPSS graficele se pot accesa din meniul Graphs sau Analyze.Tipurile de grafice sunt:A. Grafice univariate n care este reprezentat doar o variabil:a. pentru variabile categoriale:
Bar chart diagrama n bare; Pie chart diagrama de structur sau plcint; Jittered dotplot;
Asymetric dotplot.
b. pentru variabile numerice:
Dotplot;
Histograma arat frecvenele de apariie pentru diferite intervale de repartiie a variabilei observate; Diagrama Kernel;
Error bar bara de erori, arat media i intervalul de ncredere de 95% pentru media respectiv; Boxplot cutia cu musti, folosit la reprezentarea amplitudinii, intervalului interquartilic i medianei unei distribuii.B. Grafice bivariate reprezint dou variabile:a. pentru dou variabile numerice: Scatterplot nor de puncte, folosit pentru a reprezenta relaiile ntre variabile; Lineplot.b. pentru o variabil categorial i una numeric: Boxplot; Error bar; Dotplot; Scatterplot.C. Grafice multivariate care ncearc s reprezinte pe o suprafa bivariat relaiile dintre mai multe variabile.n capitolul curent al prezentei lucrri se vor utiliza Boxplot i Histograma pentru a reprezenta grafic indicii variabilelor Populaie si Suprafa locuibil.3.1. Distribuia locuitorilor pe judee utiliznd diagrama Boxplot
Etapa I
Se acceseaz calea Analyze Descriptive Statistics - Explore.
Etapa II
Etapa III
Etapa IV
Din graficul Boxplot al varaibilei Populaia se observ c seria nu este omogen.3.2. Distribuia locuitorilor pe judee utiliznd HistogramaPentru utilizarea Histogramei se alege calea Graphs Legacy Interactive Histogram.Etapa I
Etapa II
Etapa III
Etapa IV
Etapa V
Etapa VI
Etapa VIIAnaliza rezultatelor
Se poate observa o asimetrie orientat spre stnga unde se gsesc valorile mai mari ale populaiei.
Etapa VIIICalculul curbei cumulative a frecvenelor
Etapa IX
Etapa X
Etapa XI
Etapa XIIInterpretarea graficului
Aproximativ 30 de judee au populaia peste 450000. 3.3. Distribuia suprafeei locuibile pe judee utiliznd diagrama Boxplot
Etapa I
Etapa II
Etapa III
Etapa IV
3.4. Distribuia suprafeei locuibile pe judee utiliznd Histograma
Etapa I
Etapa II
Etapa III
Etapa IV
Etapa V
Etapa VI
4. Analiza bivariat4.1. Analiza bivariat a variabilelor Populaie i Suprafaa locuibilEtapa I
Alegerea intervalelor.Se opteaz pentru alegerea a patru intervale i se utilizeaz urmtoarea formul de calcul:
Maximum = 825100Minimum = 223364
Range = 601736
deoarece mrimea minim de interval rezultat va genera, prin ultilizarea ei, 5 intervale n loc de 4 mrim intervalul la 200000, astfel va rezulta:
[200000 400000) = 300000
[400000 600000) = 500000
[600000 800000) = 700000
[800000 1000000) = 900000
Pentru variabila Suprafaa locuibil se vor alege tot un numr de patru intervale i se vor obine urmtoarele intervale:[2500000 5000000) = 3750000
[5000000 7500000) = 6250000
[7500000 10000000) = 8750000
[10000000 12500000) = 11250000
Se observ c ambele valori ale coeficienilor de corelaie Pearson sunt de 0,829 ceea ce nseamn c ntre variabile exist o corelaie direct i puternic.Valoarea Sig.(2-tailed) este egal cu 0 i este mai mic dect 0,001, ceea ce nseamn c sunt anse mai mici de 1% ca ntre cele dou variabile s nu existe o corelaie semnificativ.
5. Testarea cu ANOVA
Valoarea Sig. = 0,000 (mai mic dect 0,005) arat c testul F a fost validat.6. Modele de regresieModelul Linear I = a + bxModelul Quadratic I = a + bx + cx2Modelul Cubic I = a + bx + cx2 + dx3
R square Linear = 0,913
Tabel nr. 6.1. Tabelul de valoriModel Summary and Parameter Estimates
Dependent Variable:Suprafaa_locuibil
Equation
LinearLogarithmicQuadraticCubicExponential
Model SummaryR Square,919,898,920,923,899
F444,959342,747218,167148,160348,819
df111231
df23939383739
Sig.,000,000,000,000,000
Parameter EstimatesConstant537953,339-7,455E786308,1163499693,3862614945,971
b113,5686267530,24715,555-7,2411,948E-6
b2-1,945E-64,490E-5
b3-2,996E-11
The independent variable is Populaia.
Modelul Cubicy = a + bx + cx2 + dx3 unde
a este constanta
b totalul
c totalul**2
d totalul**3
Tabel nr. 6.2. Valorile coeficienilor modelului CubicCoefficients
Unstandardized CoefficientsStandardized CoefficientstSig.
BStd. ErrorBeta
Populaia-7,24118,662-,512-,388,700
Populaia ** 24,490E-5,0003,2801,195,240
Populaia ** 3-2,996E-11,000-1,847..
(Constant)3499693,3862900228,9841,207,235
y = 3499693,386 7,241x + 0,000x2 0,000.x3fiindc valorile indicilor c i d sunt zero ecuaia tinde ctre un model de regresie Linear.Modelul QuadraticTabel nr. 6.3. Valorile coeficienilor modelului QuadraticCoefficients
Unstandardized CoefficientsStandardized CoefficientstSig.
BStd. ErrorBeta
Populaia15,5554,2441,0993,665,001
Populaia ** 2-1,945E-6,000-,142-,474,638
(Constant)86308,1161008214,486,086,932
y = 86308,116 + 15,555x 0,000..x2coeficientul c avnd valoare zero determin ecuaia s tind ctre un model Linear.Modelul LinearTabel nr. 6.4. Valorile coeficienilor modelului LinearCoefficients
Unstandardized CoefficientsStandardized CoefficientstSig.
BStd. ErrorBeta
Populaia13,568,643,95921,094,000
(Constant)537953,339324627,2431,657,106
y = 537953,339 + 13,568x
Toi termenii ecuaiei au valori peste zero ceea ce nseamn c modelul cel mai potrivit de regresie este cel Linear
7. Anexe
Anexa nr. 7.1. Suprafaa locuibil pe judee
Anexa nr. 7.2. Populaia pe judeeNOT: Informaiile din anexe au fost preluate din Anuarul statistic 2008, de pe site-ul Institutului Naional de Statistic.Figura 1.1. Definirea variabilelor bazei de date n SPSS 16.0
Figura nr. 1.2. Introducerea datelor n baza de date
Figura 2.1.1 Accesarea funciei Descriptive
Figura 2.1.2. Alegerea variabilei i bifarea opiunilor
Figura nr. 2.1.3 Tabelul de valori afiat n fereastra Output
Figura nr. 2.1.4 Calea urmat pentru transformarea tabelului de valori din fereastra Output
Figura 2.1.5 Transformarea tabelului de valori din fereastra Output
Figura 2.1.6 Tabelul de valori transformat
Figura 2.2.1 Accesarea meniului Frequencies
Figura 2.2.2 Alegerea indicatorilor
Figura 2.2.3 Tabelul Frequencies din Output
Figura nr. 2.3.1. Modul de calcul Case Summaries
Figura nr. 2.3.2 Alegerea variabilei i a indicatorilor
Figura nr. 2.3.3. Tabelul din Output pentru Case Summaries
Figura nr. 2.4.1. Alegerea variantei de calcul Descriptive.
Figura nr. 2.4.2. Alegerea indicilor
Figura nr. 2.4.3. Tabelul din Output
Figura nr. 2.5.1. Utilizarea opiunii Frequencies
Figura nr. 2.5.2. Alegerea indicilor
Figura nr. 2.5.3. Tabelul de valori din Output
Figura nr. 2.6.1. Alegerea opiunii de calcul Case Summaries
Figura nr. 2.6.2. Alegerea indicilor
Figura nr. 2.6.3. Tabelul cu valori din Output
Figura nr. 3.1.1. Alegerea opiunii Boxplot din meniu.
Figura nr. 3.1.2. Selectarea opiunilor pentru Boxplot
Figura nr. 3.1.3. Vizualizarea grafic n fereastra Output
Figura nr. 3.1.4. Graficul Boxplot al varabilei Populaia
Figura nr. 3.2.1. Accesarea graficului Histograma
Figura nr. 3.2.2. Alegerea variabilei
Figura nr. 3.2.3. Bifarea curbei distribuiei normale
Figura nr. 3.2.4. Definirea titlului graficului
Figura nr. 3.2.5. Alegerea opiunilor Histogramei
Figura nr. 3.2.6. Vizualizarea Histogramei n Output
Figura nr. 3.2.7. Graficul Histogramei i al curbei distribuiei
Figura nr. 3.2.8. Accesarea Histogramei
Figura nr. 2.3.9. Alegerea variabilei
Figura nr. 2.3.10. Alegerea opiunilor
Figura nr. 2.3.11. Afiarea graficului n Output
Figura nr. 2.3.12. Graficul cumulativ al frecvenelor
Figura nr. 3.3.1. Accesarea graficului Boxplot
Figura nr. 3.3.2. Selectarea opiunilor pentru graficul Boxplot
Figura nr. 3.3.3. Vizualizarea graficului n Output
Figura nr. 3.3.4. Graficul Boxplot pentru variabila Suprafaa locuibil
Figura nr. 3.4.1. Accesarea Histogramei
Figura nr. 3.4.2. Alegerea opiunilor Histogramei
Figura nr. 3.4.3. Alegerea variabilei
Figura nr. 3.4.4. Selectarea curbei distribuiei normale
Figura nr. 3.4.5. Afiarea graficului n Output
Figura nr. 3.4.6. Graficul Histogramei i a distribuiei normale
Figura nr. 4.1.1. Alegerea opiunii Recode into Different Variables
Maximum - Minimum
Numrul de intervale
=
Mrimea minim a intervalului
Figura nr. 4.1.1. Alegerea variabilei i introducerea intervalelor pentru variabila Populaie
Figura nr. 4.1.2. Datele recodificate pentru variabila Populaie
Figura nr. 4.1.3. Definirea intervalelor pentru variabila Suprafaa locuibil
Figura nr. 4.1.4. Datele recodificate pentru variabila Suprafaa locuibil
Figura nr. 4.1.5. Etichetarea datelor recodificate ale variabilei Populaia
Figura nr. 4.1.6. Etichetarea datelor recodificate ale variabilei Suprafaa locuibil
Figura nr. 4.1.7. Selectarea opiunii de analiz bivariat
Figura nr. 4.1.8. Alegerea variabilelor i a opiunilor de calcul
Figura nr. 4.1.9. Rezultatele afiate n Output
Figura nr. 4.1.10. Construirea unui Crosstab
Figura nr. 4.1.11. Alegerea variabilelor pentru Crosstab
Figura nr. 4.1.12. Afiarea rezultatelor n Output
Figura nr. 5.1. Testarea gruprii folosind ANOVA
Figura nr. 5.2. Alegerea variabilelor i a opiunilor de calcul
Figura nr. 5.3 Afiarea rezultatelor n Output
Figura nr. 6.1. Alegerea graficului Scatterplot din meniu
Figura nr. 6.2. Alegerea variabilelor
Figura nr. 6.3. Se bifeaz Regresion n fereastra Fit
Figura nr. 6.4. Se bifeaz Fit Line n fereastra Spikes
Figura nr. 6.5. Vizualizarea grafic n Output
Figura nr. 6.6. Se alege din meniu Curve Estimation
Figura nr. 6.7. Se stabilesc variabilele i se bifeaz opiunile de calcul
Figura nr. 6.8. Testarea cu ANOVA
PAGE 50
_1336317124.unknown