vanhojen aineistojen aarreaitta, hannu karhunen
TRANSCRIPT
Vanhojen aineistojen aarreaitta
Hannu Karhunen,
Jyväskylän yliopiston kauppakorkeakoulu
Tilastokeskus, 20.4.2016
Tässä esityksessä
1. Taustaa
2. Tietojen tallennushistoria
3. Esimerkkejä mahdollisista aineistoista ja vanhojen aineistojen
palauttamisesta
4. Lopuksi: Mitä aineistojen kehittämiseksi voitaisiin tehdä?
19.4.2016 Hannu Karhunen ([email protected])2
1. Taustaa
Jyväskylän yliopiston kauppakorkeakoulu (JSBE) aloitti tutkimusaineistojen
kehittämisen vuoden 2015 alussa
Epätietoisuutta siitä, että mitä yksilötason aineistoja on säilytetty
Pelkona, että jos nyt ei toimita, niin vanhoja tietoja ei voida myöhemmin palauttaa
Tarkoitus kartoittaa ja mahdollisesti palauttaa vanhoja sähköisessä muodossa
olevia aineistoja tutkimuskäyttöön (käytettävissä myös tilastoissa)
Aineistojen kokoaminen ”moduulimuotoon”
Tiedon jakaminen tilastoihin ja ulos tutkijoille tärkeää. Aineistot tulevat lopulta
kaikkien tutkijoiden käyttöön
Käytännössä JSBE alkoi rahoittamaan määräaikaista virkasuhdetta, sillä
tietojen arkaluontoisuuden takia henkilön tulee olla Tilastokeskuksen työntekijä
Datoissa henkilötunnuksia, henkilöiden nimiä, yritystunnuksia jne.
19.4.2016 Hannu Karhunen ([email protected])3
Myös vanhat aineistot ovat tärkeitä, sillä monilla reformeilla voi olla
kauaskantoisia vaikutuksia.
Esimerkki 1: Yliopistokoulutuksen alueellisen laajentumisen vaikutus koulutuksen periytyvyyteen.
Kirjoilla missä pääaineessa?
Isovanhempien, vanhempien ja
lasten koulutus.
Millä alueilla henkilöt asuivat
ennen reformia?
Minkä kunnan lukioista henkilöt
valmistuivat reformin aikoihin?
19.4.2016 Hannu Karhunen ([email protected])4
Lähde: Karhunen ja Suhonen (2016).
19.4.20165
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Os
uu
s h
en
kil
öis
tä jo
ilta
pu
utt
uu
äid
in id
SYNTYMÄVUOSI
Lapsi-äiti linkityksen epäonnistuminen syntymäkohorteittain (Varhaisin linkitys on tehty VL70 perhetiedon perusteella)
Esimerkki 2: Aineistoissa on vielä monia ratkaisemattomia ongelmia
19.4.20166
2. Tietojen tallennushistoria
Tilastokeskuksen vanhat tiedostot on tallennettu ajan kuluessa uuteen
muotoon tallennusmenetelmien muuttuessa Esimerkiksi 1970-luvulla tallennettiin reikäkortteja urakalla magneettinauhalle
ks. ”Reikäkorttimaailmasta verkkoaikaan eli TI 1970-2000” (Juha Merimaa, 2000)
Koontitiedostot (alkaen noin vuodesta 1995) Palautus verkkoasemalle kuvaukset saadaan valmiilla SAS-makrolla
Suhteellisen yksinkertaista ja nopeaa
Ennen koontitiedostoja tehdyt historiatiedostot on myös tallennettu
sähköiseen muotoon Puhekielessä monta nimeä, mm. ”historiakasetit”, ”kelatiedostot”, ”nauhat”. Itse
käytän nimeä historiatiedostot.
Tiedostoja vaihtelevasti 1960-luvun lopulta alkaen
Hannu Karhunen ([email protected])
Historiatiedostojen palautus SAS-tiedostoksi mahdollista mikäli aineistosta
löytyy kuvaus
Tarvitaan tiedoston jaksonpituus ja muuttujapositiot
Tilastokeskuksen vanhojen aineistojen kuvaukset on tallennettu
kuvatiedostoina ns. HIMA-kansioon; osa käsinkirjoitettua tekstiä
Tietoa on hävinnyt henkilöiden mukana, mutta pääosin aineistoista
näyttäisi löytyvän kuvaukset (täydentäviä kuvauksia on löytynyt myös
arkistohuoneista)
Aineistoista ei ole valitettavasti olemassa valmista luetteloa
Käytännössä tiedostoja pitää palauttaa olemassa olevien kuvauksien
perusteella ja tarkistaa kuvauksen vastaavuudet aineistoon muuttuja
kerrallaan
Aikaa ja luovuutta vaativaa puuhaa: kuvauksien muuttujapositiot eivät aina
täsmää aineistossa oleviin eli automaattisista SAS-makroista ei ole aina
apua
19.4.20167 Hannu Karhunen ([email protected])
3. Esimerkkejä mahdollisista aineistoista ja vanhojen
aineistojen palauttamisesta käytännössä
Kuvaan seuraavaksi muutamia aineistoja, joiden kanssa olen työskennellyt
tai jotka olen jo palauttanut SAS-muotoon
Esittelyn ei ole tarkoitus antaa kattavaa kuvaa kaikista mahdollisista
aineistoista
Keskityn nyt lähinnä henkilötason koulutusaineistojen esittelyyn
19.4.20168 Hannu Karhunen ([email protected])
Toisen asteen
yhteisvalinta-
tiedostot 1985-
Tietoja yliopistojen
hakijarekisteristä
1992-
(Osittainen Harek)
Ylioppilaskirjoitukset
1967-
(ks. esim. 2)
Kansakoulun/oppikoulun
/peruskoulun
vuositiedostot
alkaen 1968
Ammatillisten
oppilaitosten linjatiedot
alkaen 1971
Oppilaitostason tietojaHenkilötason tietoja
Korkeakoulujen
opiskelijarekisteri
1968- (ks. esim. 1)
Lukioiden vuositilastot
alkaen 1969
Siniset moduulit ovat valmiita tai lähes valmiita
Hannu Karhunen ([email protected])
Tavoitteena oli moduulimuoto ja tietojen linkitettävyys yli ajan
Opintojentuki 2002-
Opettajien
työsuhdejaksotiedot
2010-luvulta
Oppilaitosrekisteri
1971-
Esimerkki 1: Korkeakoulujen opiskelijarekisteri 1968-
19.4.201610 Hannu Karhunen ([email protected])
Esimerkki 2: Ylioppilastutkintolautakunnan tiedostot 1967-
Tilastokeskuksen historiatiedostoista löytyy vain hajanaisia
vuositiedostoja ylioppilaskirjoituksista
Tilastokeskuksen kuvauksista löytyi kuitenkin yksi yhden sivun
tiedostokuvaus vuoden 1971 ylioppilaista ja ylioppilaskirjoituksien
tuloksista
Yhteydenotto Ylioppilastutkintolautakunnan toimistoon paljasti, että vanhat
vuositiedostot ovat tallessa sähköisessä muodossa vuodesta 1967 alkaen.
Vanhemmista vuositiedostoista ei heillä kuitenkaan ollut olemassa
muuttujakuvauksia.
Tilastokeskuksesta löytyneen kuvauksen avulla oli mahdollista
selvittää vanhojen tiedostojen muuttujapositiot
Yhteistyön tuloksena tutkimuskäyttöön saatiin palautettua yksityiskohtainen
aineisto ylioppilaskirjoituksiin osallistuneista henkilöistä 1967-1989
Tavoitteena saada tutkijakäyttöön päivittyvä YTL-moduuli (tähän liittyvät
neuvottelut YTL:n kanssa vielä kesken)
19.4.201611 Hannu Karhunen ([email protected])
Säilynyt muuttujakuvaus YTL:n tiedostoista
19.4.2016 Etunimi Sukunimi12
Esimerkki 3: Väestölaskenta 1960 (VL60)
Tornihuhun mukaan VL60 tuhoutui vesivahingossa
On kuitenkin todennäköisempää, että VL60:n lomakkeet löytyvät
Hämeenlinnan maakunta-arkistosta. VL50 on myös siellä.
Ennen kuin reikäkorttikoneet poistuivat käytöstä, niin VL60:n
reikäkortit ajettiin sähköiseen muotoon. Tietääkseni tätä aineistoa ei
ole aikaisemmin käytetty tutkimuksessa (harva edes tietää
sähköisestä versiosta)
Rajoite: Aineistossa ei ole henkilöille nimiä ja tähän aikaan ei ollut
vielä henkilötunnusta Datan yhdistäminen myöhempiin VL-
tiedostoihin likipitäen mahdotonta
19.4.201613 Hannu Karhunen ([email protected])
19.4.201614
Väestölaskenta 1960
4. Lopuksi: Mitä vanhojen aineistojen kehittämiseksi
voitaisiin tehdä?
Tilastokeskuksen resurssit ovat rajalliset
Läpikäytävää materiaalia on varsin paljon ja on vaikeaa arvioida mitkä
aineistot ovat tutkimuksellisesti tärkeitä
Vanhojen aineistojen kuvaukset pitäisi saada näkyviin Tilastokeskuksen
ulkopuolelle
Palautukset ja aineistojen käsittely ulkopuolisen rahoituksen voimin
Ehdotuksia?
19.4.2016 Hannu Karhunen ([email protected])15
KIITOS!
19.4.2016 Hannu Karhunen ([email protected])16