razvoj i dokumentovanje baze · pdf filerazvoj i dokumentovanje baze podataka baza podataka,...
TRANSCRIPT
RAZVOJ I DOKUMENTOVANJE BAZE PODATAKA
Baza podataka, bez obzira da li je u papirnoj ili elektronskoj formi, konfigurisana je kao matrični
zapis, gde se svaki red odnosi na jedinicu opservacije a svaka kolona na varijablu. Na taj način
dimenzije takve matrice definisane su brojem jedinica opservacija (a to je najčešće broj ispitanika
/pacijenata) što odgovara broju redova u bazi podataka, i brojem karakteristika koje su predmet
ispitivanja što odgovara broju kolona.
Istraživačka baza podataka praćena je kodeksom (šifrarnikom) koji sadrži informacije o nazivu i
poretku varijabli, opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni,
numerički). Osim toga u kodeks su, za kategorijalne varijable, uključene informacija o broju
kategorija i kodovima tih kategorija.
Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna datoteka,
zatim se definišu varijable prema šifrarniku i na kraju se u datoteku unesu podaci dobijeni u
istraživanju.
FORMIRANJE BAZE PODATAKA U TABELARNIM KALKULATORIMA
Postoji nekoliko načina da se uz pomoć odgovarajućeg softvera formira baza podataka i učita u
program R. Ovde će biti prikazano formiranje baze u tabelarnim kalkulatorima (″spreadsheet″) kao
što je MS Office Excel, OpenOffice Calc i LibreOffice Calc. Da bi program R mogao da učitava fajlove
iz MS Office Excela neophodno je instalirati paket ″xlsx″ koji se može skinuti sa sledećeg linka:
http://cran.at.r-project.org/bin/windows/contrib/r-release/xlsx_0.5.1.zip i instalirati po proceduri
objašnjenoj u tekstu iznad (Instalacija paketa za R program).
Program R nema nativnu podršku za naša slova (č, ć, š, ž, đ) pa ih ne treba koristiti za nazive
varijabli i unos podataka. Obratiti pažnju da program R pravi razliku između malih i velikih slova što
treba uzeti u obzir prilikom upotrebe naziva fajlova i varijabli u komandama.
1. U tabelarnim kalkulatorima nazivi varijabli unose se u prvi red i preporuka je da budu u formi
jedne reči. Ukoliko je potrebno da naziv varijable ima više reči nazive varijabli treba pisati ili
spojenim rečima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr. navika_pusenja) ili
tačkom. U slučaju da se reči ukucaju odvojeno, prilikom učitavanja program R automatski svaki
razmak zamenjuje tačkom.
2. U prvu kolonu unose se oznake identifikacije jedinica posmatranja, što će najčešće biti redni
broj u bazi počev od 1.
3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojčane vrednosti bez naziva
jedinica. Npr. podatak o telesnoj masi uneti kao broj bez oznake kg.
4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao numerički
kodovi. Preporuka je da se nominalni podaci unose kao tekstualni nazivi kategorija (npr. za pol:
muški, ženski). Preporuka je da se ordinalni podaci unose kao numerički kodovi koji odražavaju
poredak kategorija. Npr. za podatke o zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan,
nezadovoljan, neutralan, zadovoljan i vrlo zadovoljan) upotrebiti kodove za taj uređeni niz
počev od najmanjeg do najvećeg nivoa što mora biti zabeleženo u šifrarniku zbog jednostavnije
interpretacije podataka i rezultata statističke analize.
Uređeni niz kategorija Kod (šifra)
vrlo nezadovoljan nezadovoljan neutralan zadovoljan vrlo zadovoljan
1 2 3 4 5
5. Nakon formiranja baze i unošenja podataka klikom na File→Save As… fajl sačuvati u folderu
koji je podešen da iz njega program R učitava podatke.
MS Office Excel 2007-2013 svoje fajlove čuva sa ekstenzijom .xlsx. MS Office Excel 2003 svoje
fajlove čuvaju sa ekstenzijom .xls. Obratiti pažnju na ekstenziju fajla prilikom ukucavanja
komande za učitavanje fajla.
Primer formirane baze podataka u MS Office Excel 2007.