curs 3 si 4

Upload: mihai-dumitrescu

Post on 01-Mar-2016

223 views

Category:

Documents


0 download

DESCRIPTION

Sondaje si Anchete Curs 3 si 4 CSIE

TRANSCRIPT

  • Ancheta pilot Informaii ce pot fi furnizate de ancheta pilot sunt:

    Cheltuielile i durata probabil a anchetei.

    Proporia anticipat de non-rspunsuri totale si partiale si cauzele acestora.

    n cazul n care nu se cunosc suficiente informaii n urma organizrii anchetei pilot se pot opiune informaii despre gradul de variabilitate al populaiei i structura acesteia.

    Cel mai important rol al anchetei pilot l reprezint pretestarea chestionarului.

  • Extragerea eantionului n aceast etap se stabilete: planul de sondaj procedeul de extracie mrimea eantionului,precizia teoretic a estimatorilor

    Probleme ridicate:Cunoaterea, chiar cu o aproximaie, dispersia populaiei sau o estimaie a acesteia

    Caracteristica n raport cu care se calculeaz volumul eantionului

    Modul n care urmeaz s fie analizate rezultatele

    Restricii de ordin financiar

  • volumul eantionului de pornire

  • Problema nonraspunsurilorNon-rspunsurile determina: - cresterea erorii de reprezentativitate prin diminuarea volumului eantionului. - modificarea structrurii eantionului, non-respondenii formnd o subpopulaie aparte

  • Metode de tratare a nonrspunsurilor pariale

    A.1. Metoda eliminrii complete Dezavantaje:

    odat cu tergerea unitilor ce conin valori lips mrimea eantionului disponibil se reduce simitor fapt ce determin o scdere a preciziei estimaiei;

    2. este posibil ca indivizii crora le corespund valorile lips (ce urmeaz s fie nlturai din baza de date) s fie foarte diferii de cei rmai. Acest lucru va face ca estimatorii rezultai s fie puternic deplasai;

    3. n schemele sondajelor complexe fiecrui individ i este atribuit o greutate (pondere) ce poate reflecta printre altele i probabilitatea cu care a fost selectat unitatea. tergerea din baz a unitilor ce conin valori lips este foarte probabil s invalideze schema de ponderare.

  • A.2. Metoda imputaiilorNotm:yij = rspunsul pe care l d individului i din eantionul E la ntrebarea j (i=1,..,n, j=1,... ,p). (yi1, ...., yip) vectorul format din raspunsurile individului i Fiecare poziie de coordonate (i,j) unde avem valoare lipsa trebuie tratat separat, prin crearea unei valori yij numit valoare atribuit sau imputaie.

  • Imputaia deductiv

    Se refer la acele situaii (rare n practic) n care se poate stabili valoarea corect printr-o deducie logic. Este vorba de o modalitate determinist de a corecta datele incorecte sau nevalidate.

    n acest caz yij = yij.

    Imputaia predictiv prin mediere global

    Se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media rspunsurilor care au fost obinute la ntrebarea j.

    Avantaje:nlocuirea valorii lips se face cu o valoare probabil ceea ce i d un oarecare grad de stabilitate. Dezavantaje:subevaluare sever a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

  • Imputaia predictiv prin mediere pe claseEste similar imputaiei predictive prin mediere global, cu deosebirea c nu se utilizeaz o singur imputaie, ci mai multe corespunztoare unor clase n care a fost mprit mulimea respondenilor. Astfel, partiionm mulimea respondenilor r la ntrebarea j n q clase disjuncte. Identificm clasa cruia i aparine individul i construim imputaia:

    unde t ia valorile 1,..,q iar k este numrul de respondeni din clasa respectiv.Avantaje:reduce gradul de subestimare a dispersiei estimatorului

  • Imputaia hot-deck.

    Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere global sau pe clase, evit subestimarea dispersiei estimatorului.

    Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile demografice, economice sau sociale pe baza crora se poate pune n eviden structura eantionului.

    Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse n prima nregistrare a unei caracteristici dup care s-a realizat sortarea.

    Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este identificat i verificat s nu conin valori lips.

    Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu valoarea corespunztoare din registru.

  • Registru de lucruFisier sortat dupa mediul de provenienta si nivel de instruire

    Nr. MediulNVINSTF_ANGVenit11112,521232,6312-3,8413145131-613-471324,5814189141810142-1114212122112,5132121,8142222,81522--162212,8172333182313,1192332202441,6

    MediulNVINSTF_ANGVenit1112,51232,6131414182112,52222,823332441,6

  • Se recomanda n cazul n care exista mai multe valori lipsa ca registrul de lucru sa conina mai mult de o singur nregistrare corespunztoare unei caracteristici dup care s-a sortat fiierul. Aceste nregistrri vor fi supuse unei rotaii n timpul procesului de imputare.Avantaje:

    reduce gradul de subestimare a dispersiei estimatorului i deplasarea estimatorilor

    Nr. MediulNVINSTF_ANGVenit11112,521232,631233,841314513146131471324,581418914181014281114212122112,5132121,8142222,8152222,8162222,8172333182313,1192332202441,6

  • Imputaia aleatoare.

    Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem:

    Este o variant a imputaiei hot-deck

    Imputaia obiectiv.

    La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse procesului de imputare. Ecuaia poate avea urmtoarea form:

    unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor xi, i=1,,k corelate cu variabila y.

    Avantaje:Imputaia se armonizeaz cu restul nregistrrilor individului respectiv. reduce gradul de subestimare a dispersiei estimatorului i deplasarea estimatorilor

  • Metoda imputaiilor multipleMetoda const n umplerea fiecrei celule corespunztoare unei valori lips cu una, dou sau mai multe imputaii i analizarea fiecrui set de date.

    Combinnd rezultatul acestei analize cu rezultatul inferenei statistice vom lua n consideraie i nivelul de incertitudine introdus de valorile lips.Etapa 2.Se parcurge fiierului ce conine tabelul indivizi-variabile nregistrare cu nregistrare i identificarea i numrarea valorilor lips (MV1..MVk). Fiecare valoare lips se trateaz individual. Etapa 1.Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila pentru care trebuie sa tratm non-rspunsurile i se sorteaz fiierul dup aceste variabile. Etapa 3.Se identific valorile variabilelor auxiliare corespunztoare nregistrrii ce conine o valoare lips.

  • Etapa 4.Valoarea lipsa i ar putea fi substituit de oricare din valorile corespunztoare altor nregistrri ce au aceleai valori n cmpul variabilelor auxiliare considerate. Notm cu Ci numrul de variante posibile corespuztoate unei valori lips (MVi). Se procedeaz n mod similar pentru toate valorile lips determinnd pentru fiecare valorile cu care acestea pot fi nlocuite. Numrul de combinaii posibile este C1xC2x.Ck. Etapa 5. Pentru fiecare combinaie se va obine un set de date i se va calcula media i eroarea de reprezentativitate. Etapa 6 Estimatorul mediei populaiei se calculeaz ca medie a mediilor seturilor de date.

    este media combinaiei k.

  • Etrapa 7Pentru construirea unui interval de ncredere pentru media populaiei care s ia n considerare incertitudinea introdus prin folosirea imputaiei este necesar calcularea unei variaii totale a estimatorului (mediei). Aceasta este format din dou componente: variaia interioar (S2int) ce reprezint media variaiilor fa de mediile estimate, condiionate de valoarea imputaiei i variaia dintre mediile estimate pe baza diferitelor valori ale imputaiilor (S2ext).

  • A. Metode de tratare a nonrspunsurilor totale

    B.1 Reselecia pentru non-respondeni

    Este o metod utilizat pentru tratarea non-rspunsurilor totale. Dac timpul i bugetul alocate sondajului permit, se poate face o reselecie pentru non-respondeni. mprim n mod formal populaia de volum N n dou straturi: cel al respondenilor de volum N1 i cel al non-respondenilor de volum N2.

    Figura 3.3.4 Organizarea reseleciei pentru nunrespondeni

  • B.2. Metoda post-stratificrii i a calibrrii generalizateUtilizarea acestor metode necesit utilizarea unor informaii deteliate privind repartiiile ncrucisate dup mai multe variabile auxiliare, o dotare tehnic superioar i un soft specializat.

  • Verificarea reprezentativitatii esantiounului

    H0:

    =

    i H1:

    EMBED Equation.3 .

    _1168774936.unknown

    _1168778577.unknown

    _1230048846.unknown

    _1168774937.unknown

    _1168774935.unknown

    H0: w= p i H1:

    _1168777420.unknown

    _1169642419.unknown

    *

  • Testul 2 H0: ft= fe i H1: ftfe ft reprezint frecvenele teoretice fe frecvenele empirice

    frecvena corespunztoare a grupei i din populaie

    Dacadf=k-1 Esantionul nu este reprezentativVerificarea concordantei repartitiilor

  • Testul Kolmogorov Smirnov Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru verificarea concordantei dintre o repatritie empirica si una teoretica

    Stabilirea frecvenelor absolute in populatie si in esantionCalcularea frecventelor cumulate crescatorCalcularea funciilor de repartiie empirice F(xP) i F(xE) prin raportarea frecventelor cumulate la totalSe calculeaza diferentele pe clase. Pe baza diferentei maxime se calculeaza statistica testului:

    *