1. colectarea Şi aranjarea datelor. masuri ale tendintei
DESCRIPTION
Inginerie de traficTRANSCRIPT
-
Colectarea i aranjarea datelor
Statistica este o disciplin tiinific i tehnic ce permite colectarea, aranjarea,
sistematizarea, prezentarea i prelucrarea unor date, prelucrare n baza creia se pot trage
concluzii i lua decizii raionale.
1. Colectarea datelor Datele brute, care sunt colectate, sunt mrginite numeric i sunt denumite date de
experiment sau observaii. Acestea aparin unor mulimi de date sau populaii care pot fi
finite sau infinite. Metodele statistice permit, ca prin examinarea unui set de date dintro
mulime, s se trag concluzii asupra ntregii mulimi de date.
2. Rangul datelor colectate Datele brute sunt datele colectate care nu sunt organizate numeric. Aranjarea
datelor const n dispunerea lor ntro ordine numeric cresctoare sau descresctoare
formndu-se aa numita serie de date sau ir de date. Diferena dintre numrul cel mai
mare i numrul cel mai mic al irului de date aranjate se numete rangul datelor. Cu
ct datele sunt mai grupate cu att rangul este mai mic; cu ct datele sunt mai rspndite,
cu att rangul lor este mai mare.
Viteze msurate la 100m Timpul (sec) Banda 2 Banda 3
9..10 5 10 10..11 4 7 11..12 2 11 12..14 11 8 14..18 10 10 18..24 16 0 24..30 3 2 30..36 4 2
NR TOTAL 55 50
-
Viteze msurate la 100m Viteza (km/h) Banda 2 Banda 3
36..40 5 10 32,73..36 4 7 30..32,73 2 11 25,71..30 11 8 20..25,71 10 10
15..20 16 0 12..15 3 2 10..12 4 2
NR TOTAL 55 50
3. Frecvene ale distribuiilor
3.1. Clase sau categorii de date
Cnd numrul de date colectate este mai mare, acestea se mpart n clase sau
categorii i se determin numrul de date ce aparin fiecrei clase.
Dup ce datele brute se dispun ntrun ir de date aranjate, se afl rangul datelor.
Acesta va fi diferena ntre viteza maxim i cea minim, exprimat n km/h.
Exemplu: viteza minim este de 10 km/h, iar cea maxim de 40 km/h
Rangul datelor = 40-10 = 30
Clasele de date se afl mprind ragul datelor la un numr ntreg (cel puin 5).
Rang / 5 = 6 clase de date (5 este intervalul unei clase de date)
3.2. Frecvene
Un astfel de aranjament al datelor pe clase numerice, cu frecvena lor, se numete
frecven a distribuiilor sau tabel al frecvenelor.
Datele organizate i adunate ntrun tabel al frecvenelor se numesc date grupate.
Clase de date Frecvene numerice Viteza(km/h) Banda 2 Banda 3
10..15 7 4 15..20 16 0 20..25 11 8 25..30 10 10 30..35 5 17 35..40 6 11
NR TOTAL 55 50
-
3.3. Intervalele i limitele claselor.
Pentru a grupa n mod corespunztor datele n clase numerice, se va considera
interval deschis la limita superioar a clasei i interval nchis la cea inferioar.
3.4. Marca claselor
Marca clasei este numrul de la mijlocul intervalului clasei i se obine ca medie a
celor dou limite ale clasei (se adun limita inferioar cu cea superioar i se mparte
la 2). Pentru scopurile analizei matematice a datelor, toate datele aparinnd unei
clase se presupun c coincid cu marca clasei respective.
Exemplu: Marca clasei 10..15 este: 5.122
1510=
+
Marca clasei Frecvene numerice Banda 2 Banda 3
12.5 7 4 17.5 16 0 22.5 11 8 27.5 10 10 32.5 5 17 37.5 6 11
NR TOTAL 55 50
3.5. Reguli generale pentru determinarea distribuiilor frecvenelor
3.5.1. Se determin randul datelor
3.5.2. Se mparte rangul ntrun numr convenabil de intervale, avnd aceeai
lungime (acelai pas). Numrul de intervale se ia ntre 5 i 20; astfel nct s
se ndeplineasc dou condiii:
Ct mai multe date observate s coincid cu marca clasei (mijlocul
intervalului),
Nici o dat brut s nu coincid cu limitele claselor
3.5.3. Se determin numrul de date care aparin fiecrui interval
-
3.6. Histograme i poligoane ale frecvenelor
Histograma frecvenelor const ntrun set de dreptunghiuri cu
Bazele pe axa orizontal, cu mijlocul n marca clasei i de lungime egal
cu lungimea intervalului,
Ariile proporionale cu frecvenele claselor (nalimea dreptunghiurilor
reprezint frecvena clasei respective, numrul de vehicule care circul
cu aceeasi vitez).
Histograma frecventelor
02468
1012141618
10..15 15..20 20..25 25..30 30..35 35..40
Clasa de viteze
Frec
vent
a nu
mer
ica
Banda 2
Histograma frecventelor
02468
1012141618
10..15 15..20 20..25 25..30 30..35 35..40
Clasa de viteze
Frec
vent
a nu
mer
ica
Banda 3
-
Poligonul frecvenelor este o linie frnt, cu punctele de frngere situate pe
verticalele mrcilor claselor, care se obine prin unirea laturilor de sus ale
dreptunghiurilor din histograma frecvenelor.
Pe baza histogramei frecvenelor se poate stabili numrul de cazuri (procentul din
totalul de cazuri) cuprinse ntre anumite valori care intereseaz.
Poligonul frecventelor
02468
1012141618
12.5 17.5 22.5 27.5 32.5 37.5
Clasa de viteze
Frec
vent
a nu
mer
ica
Banda 2
Poligonul frecventelor
02468
1012141618
12.5 17.5 22.5 27.5 32.5 37.5
Clasa de viteze
Frec
vent
a nu
mer
ica
Banda 3
-
BANDA 2
02468
1012141618
12.5 17.5 22.5 27.5 32.5 37.5
Clase de viteze
Frec
vent
e nu
mer
ice
Histograma frecventelorPoligonul frecventelor
BANDA 3
02468
1012141618
12.5 17.5 22.5 27.5 32.5 37.5
Clase de viteze
Frec
vent
e nu
mer
ice
Histograma frecventelorPoligonul frecventelor
3.7. Distribuii ale frecvenelor relative
n locul frecvenelor numerice, absolute, se folosesc frecvenele relative. Acestea
reprezint raportul dintre frecvena numeric a clasei i numrul total de cazuri (se
exprim procentual).
-
Exemplu de calcul: pentru banda 2, numrul total de vehicule nregistrate este de
55, iar numarul de vehicule din clasa 10..15 este de 7. Frecvena relativ pentru
aceast clas este (%)100557
=
Marca clasei Frecvene relative Banda 2 Banda 3
12.5 12.73% 8.00% 17.5 29.09% 0.00% 22.5 20.00% 16.00% 27.5 18.18% 20.00% 32.5 9.09% 34.00% 37.5 10.91% 22.00%
100.00% 100.00%
Reprezentarea grafic a frecvenelor relative are aceeai form ca i poligonul
frecvenelor, numai c, n ordonat, n loc de frecvenele numerice, se vor raporta
frecvenele relative.
Poligonul frecventelor relative
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
12.5 17.5 22.5 27.5 32.5 37.5
Clasa de viteze
Frec
vent
e re
lativ
e
Banda 2
-
Poligonul frecventelor relative
0.00%5.00%
10.00%15.00%
20.00%25.00%
30.00%35.00%
40.00%
12.5 17.5 22.5 27.5 32.5 37.5
Clasa de viteze
Frec
vent
e re
lativ
e
Banda 3
3.8. Distribuii ale frecvenelor cumulate
Un alt mod de reprezentare a distribuiei frecvenelor este reprezentarea
frecvenelor cumulate.
Marca clasei Frecvene numerice cumulateFrecvene relative
cumulate (%)
Banda 2 Banda 3 Banda 2 Banda 3
-
Poligonul frecventelor numerice cumulate
0
10
20
30
40
50
60
10 15 20 25 30 35 40
Clasa de viteze
Frec
vent
e nu
mer
ice
cum
ulat
e
Banda 2Banda 3
Poligonul frecventelor relative cumulate
0.00%10.00%
20.00%30.00%
40.00%50.00%60.00%
70.00%80.00%
90.00%100.00%
10 15 20 25 30 35 40
Clasa de viteze
Frec
vent
e nu
mer
ice
cum
ulat
e
Banda 2Banda 3
3.9. Curbele de frecven
Datele colectate pot fi considerate ca facnd parte dintro mulime de date. Cu ct
numrul de date ale setului crete, cu att intervalele n care se claseaz frecvenele
-
se micoreaz i deci, crete numrul claselor, astfel nct poligonul frecvenelor este
aproximat printr-o curb a frecvenelor.
Tipuri de curbe ale frecvenelor:
a) Simetric sau normal (curba lui Gauss)
b) Simetrice mai ascuite (leptocurtice) sau mai aplatisate (platocurtice) n
raport cu curba normal
c) i d) moderat simetrice deplasate la stnga (oblicitate pozitiv) sau la
dreapta (oblicitate negativ)
e) i f) Sub form de J sau J invers
g)Sub form de U
h) bimodale (cu 2 maxime)
i) multimodale (cu mai mult de 2 maxime).
Msuri ale tendinei centrale i ale dispersiei 4. Tendina central
Valorile medii, ce exprim tendina central a unui set de date, sunt denumite
valori tipice sau reprezentative ale setului, deoarece astfel de valori medii tind s se
gseasc n zona central a unui set de date aranjate n ordinea mrimilor.
Pentru a msura tendina central a unui set de date se folosesc mai multe tipuri de
valori cantitative: media aritmetic, mediana, modul, media geometric i media
armonic.
Marca clasei Frecvene numerice Banda 2 Banda 3
12.5 7 4 17.5 16 0 22.5 11 8 27.5 10 10 32.5 5 17 37.5 6 11
NR TOTAL 55 50
-
4.1. Media aritmetic ( X )
Se noteaz cu
=f
xfX
)( unde: x este marca clasei de viteze
f este frecvena numeric (nr. vehicule)
23.23651011167
5.3765.3255.27105.22115.17165.127=
++++++++++
=X
4.2. Mediana ( X~ )
Se noteaz cu X~ i reprezint valoarea din mijlocul setului de date sau
media aritmetic a dou valori din mijlocul setului de date (clasele de date).
n cazul nostru (date grupate), mediana se calculeaz dup formula:
cf
ff
LXmedian
+= 1
1
)(2~
unde: 1L este limita inferioar a clasei care conine mediana
f este suma frecvenelor numerice ale tuturor claselor de viteze ( )1 f este suma frecvenelor numerice ale tuturor claselor de viteze
situate naintea clasei care conine mediana
medianf este frecvena numeric a clasei de viteze ce conine mediana
c este lungimea intervalului clasei care conine mediana
Mediana este 252
5.225.27=
Mediana datelor grupate (banda 2) este
75.21510
)11167(2
55
25~ =++
+=X
-
4.3. Modul ( X )
Modul unui set de numere este numrul care apare n setul de date cu
frecvena cea mai mare (dintre clasele de date). Modul poate s nu existe
(distribuie de valori unice) sau, dac exist, poate s nu fie unic.
Pentru datele grupate modulul se calculeaz dup formula:
cLX +
+=
21
11
unde: 1L este limita inferioar a clasei care conine modul
1 este diferena dintre frecvena clasei care conine modul i frecvena
clasei anterioare
2 este diferena dintre frecvena clasei care conine modul i frecvena clasei urmtoare
c este lungimea intervalului clasei care conine modul
Modul este 17.5
Pentru datele grupate (banda 2):
245111671615 =
+=X
4.4. Media geometric (G ) ( ) = f fn
ff nxxxG ...21 21
Pentru banda 2:
225.375.325.275.225.175.1255 651011167 ==G
4.5. Media armonic ( H )
=
xf
fH 1
Pentru banda 2: 05.05.37
65.32
55.27
105.22
115.17
165.12
7551
=
+++++=H
-
5. Dispersia
Gradul n care datele numerice sunt rspndite n jurul unei valori medii se
numete variaie sau dispersia datelor.
Msuri ale dispersiei cel mai des folosite: rangul datelor, deviaia medie,
abaterea standard i variana.
5.1. Rangul datelor
Este diferena dintre valoarea cea mai mare i valoarea cea mai mic
aparinnd unui set de date. Cu ct rangul este mai mare, cu att dispersia datelor
fa de valoarea central este mai mare i invers.
5.2. Deviaia medie (abaterea medie) DM
( )
=f
XXfDM
5.3. Abaterea standard s
( )[ ]
=f
XXfs
2
5.4. Variana 2s
Variana unui set de date este ptratul abaterii standard.
-
5.5. Dispersia absolut i dispersia relativ. Coeficient de variaie (V )
Variana sau dispersia unor date exprimat prin abaterea standard sau alte
msuri ale dispersiei se numete dispersie absolut.
Dispersia relativ este raportul dintre dispersia absolut i valoarea medie i
se numete coeficient de variaie.
XsV =
5.6. Variabila standardizat z
Variabila care msoar deviaiile fa de medie n uniti ale abaterii
standard, se numete variabil standardizat.
sXXz =
unde: X =o valoare din tabel (numrul de maini ce aparine unei clase
oarecare de date).
6. Momente centrate
6.1. Momente centrate pentru date grupate rM
( )[ ]
=f
XXfM
rj
r ( 4,3,2=r )
6.2. Oblicitatea
sXXaOblicitate
=
-
6.3. Coeficientul de asimetrie
33
3 sMa =
6.4. Gradul de aplatisare (turtire)
44
4 sMa = 34 =a curb normal
34 >a curb laptocurtic
34