avoimen datan mahdollisuudet terveystieteissä thl 3.12.2013

33
Avoin dataanalytiikka & terveystieteet

Upload: leo-lahti

Post on 26-Jun-2015

201 views

Category:

Education


1 download

DESCRIPTION

Avoimen datan uudet mahdollisuudet terveys- ja yhteiskuntatieteissä. Esitelmä THL:llä 3.12.2013

TRANSCRIPT

Page 1: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Avoin data­analytiikka & terveystieteetLeo Lahti, Helsinki & Wageningen (Alankomaat)THL 3.1 2.201 3

Page 2: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Leo Lahti

Helsingin yliopisto (eltdk)Wageningenin yliopisto (Lab. Microbiol.) , AlankomaatTutkijatohtori (SA)Ihmiskehon mikrobiekologia

TkT (Aalto, 201 0)Bioinformatiikka & koneoppiminen

DI (TKK 2003)Teknillinen fysiikka & matematiikka

VTK (HY 2009)Käytännöllinen filosofia & kansantaloustiede

Open Knowledge Foundation Finland; Open Science work group

Avoimen datan ohjelmakirjastot (rOpenSci; sorvi; Louhos-blogi)

Avoimen lähdekoodin analyysivälineitä avoimelle datalle;

biolääketiede keskeisimpänä sovellusalueena

Page 3: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Laskennallinen tiede & bioinformatiikkaAvoin ja suljettu yhteiskunnallinen dataUusia tutkimustapoja ja ­välineitä?Keskustelua

Page 4: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Bioinformatiikka on monitieteinen tutkimusala, joka kehittää ja

käyttää matematiikan, tietojenkäsittelytieteen sekä

tilastotieteen menetelmiä biologisten ongelmien ratkaisuun.

- Organisoi tietoaineistoja tutkijoiden saataville

- Kehittää laskennallisia menetelmiä ja tietoresursseja

- Soveltaa näitä (molekyyli)biologian tutkimuksessa

Perimän rakenteen ja toiminnan kartoitus, geenisekvenssit,

proteiinien ja geenien rakenne ja toiminta, evoluutiotutkimus,

mikrobiekologia, tautigeenien kartoitus, eliöiden

sukulaisuussuhteiden selvittäminen, prognostiikka,

diagnostiikka

Page 5: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Ihmisen perimä

­ 3,000,000,000 emäsparia­ 22,000 geeniä­ mRNA; ncRNA; miRNA; lincRNA­ 100,000 proteiinia- proteiinikompleksit

- muu aineenvaihdunta, soluviestintä

- biokemialliset vaikutusverkot

- satoja kudostyyppejä

- tuhansia sairauksia

- ympäristötekijät

Page 6: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Aineistojen laskennallinen yhdistely

keskeisellä sijalla perimän toimintaa

tutkittaessa

Page 7: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Page 8: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Ihmisen mikrobiomi

- tuhansia bakteerilajeja, valtaosin

tuntemattomia

- 1 01 4 bakteerisolua

(1 0 x ihmisen solujen määrä!)

­ metagenomi: >3,000,000 uniikkiageeniä (1 50 x ihmisen perimä!)

- hyvät, pahat & vapaamatkustajat

HITChip suolistobakteeriatlas:1000 bakteeria x 5000 näytettä

Page 9: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Datasta tietoon

Havainnot, data

Informaatio, faktat

Tieto, ymmärrys

Viisaus, toiminta

Tietojen yhdistelymahdollistaa uudetsovellukset jakasvattaa datan arvoa

Page 10: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

- Laaja käyttäjä- ja kehittäjäyhteisö

- Avoin lähdekoodi

- Tuhansia analyysimenetelmiä (tilastollinen testaus,

tiedonlouhinta, visualisointi)

- Uusia työkaluja ja vaihtoehtoja SAS/SPSS/Matlab/Excel-säädölle

R ­ Avoin tieteellinen laskentakielijokapäiväiseen tiedonlouhintaanwww.r-project.org

Page 11: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

r4stats.com

Number of analysis tools for Rnow growing exponentiallyrOpenGov

CRAN

Page 12: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Page 13: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Avoimuuden etuja (data & koodi)- saavutettavuus & käytettävyys

- läpinäkyvyys & luotettavuus

- toistettavuus & jatkokäyttö

- yhteistyön skaalautuvuus

- lisätukea suljetun datan analyyseille

Page 14: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Page 15: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Kuntajako:YLE

Kuntakartta:Maanmittauslaitos

Väestötiedot:Tilastokeskus

Esimerkki: uusi kuntajako ja väestötilastot

Page 16: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Open Street Map,Helsinki

Page 17: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Pullonkauloja avoimen datan hyödyntämisessä- tiedon hajanaisuus

- heikko saavutettavuus

- sotkuinen data

- katoava data

- vertailukelvoton data

- välineiden puute

- yksityisyydensuoja

Page 18: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

louhos.github.com

Louhos kerää ja kehittää algoritmejaavoimelle Suomi­datalle

Page 19: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

R/sorvi­kirjasto kattaa jo noin20 kotimaista tietolähdettä

KunnallisvaalitDatavaalit

Eduskunnan äänestyksetVaalikoneet

YLE/MOT YritystuetMaanmittauslaitos (MML)

Suomen ympäristökeskus (SYKE/OIVA)Google Maps

OpenStreetMapKuntatason informaatio

Maakuntatason informaatioHelsingin seudun ympäristöpalvelut (HSY)Helsingin kaupungin kiinteistövirasto (HKK)

Helsinki Region Infoshare (HRI)Asuntojen hinnat

KoulutusKulttuuri

PostinumerotTilastokeskus

VäestörekisteritNimitilastot

Maailmanpankki

Page 20: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Presidenttiehdokkaiden

kannatus ja suomalaisten

hyvinvointi (Data:

Tilastokeskus & HRI)

Page 21: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Page 22: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Sotkanetin R-esimerkit Opasnet-sivustolla

Page 23: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Apps4Finland­finaaliin yhteistyössä Demos Helsingin kanssa

Page 24: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Käyttöesimerkkejä

Datawikigithub.com/louhos/sorvi/wiki/

Louhos­blogilouhos.wordpress.com

Page 25: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Sotkanet-esimerkit lähdekoodeineen Datawikissä

Page 26: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

"Lex Karpela" tekijänoikeuslain kannattajat eduskunnassa

Page 27: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Louhos­blogi (louhos.wordpress.com)

Page 28: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Merkkipaaluja

201 0 sorvi-paketti & Louhos-blogi alulle

201 1 Datajournalismin työpaja, Vanha ylioppilastaloApps4Finland Datan Avaus-sarjan voitto (sorvi)

201 2 SHARE-konferenssi (Belgrad)Kaupunkitutkimuksen päivät (Helsinki)HSOpen Hackathon - yhteistyö (Vaalidatapaketti)Sitralta 1 4,000e rahoitus Datavaalit-hankkeelleOpen Legislative Data-konferenssi (Pariisi)Open Knowledge Festival (Helsinki)Apps4Finland Datan Avaus-sarjan voitto (Datavaalit)Apps4Finland Dataopas-sarjan yleisöäänet (Datawiki)Louhos-blogiin 20,000 vierailua

201 3 Open Knowledge Foundation; Open Science työryhmäMukaan CRAN-verkostoonOpen Knowledge RoadshowSotkanet-sovellus Apps4Finland-finaalissa (+Demos Helsinki)Globaali rOpenGov-verkosto käynnistyyNIPS Machine Learning Open Source Software workshop (Lake Tahoe, US)

Page 29: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Datan saatavuus: tietolähteiden kartoitus; joustavat haku- ja

putsausrutiinit

Läpinäkyvyys & toistettavuus: kaikki vaiheet yhdessä koodissa

Vuorovaikutteisuus: nopea datan seulonta ja visualisointi

Monipuolisuus: koodipohjaa voidaan jakaa ja uudelleenkäyttää

Lokalisoitu: kotimaisiin tarpeisiin

Uusia tutkimusvälineitä: R/Python-koodikirjastot!

(SAS/SPSS/Matlab/Excel: ei vastaavia välineitä

Uutta dataa & välineitä yhteiskuntatutkimukseen

Page 30: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

rOpenGov: globaali kehittäjäverkosto (ropengov.github.io)

rOpenSci

Page 31: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Page 32: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Kiitos!

louhos.github.com/sorviJuuso ParkkinenAalto-yliopisto

Joona LehtomäkiHelsingin yliopisto

Markus KainuAleksanteri-instituutti

Page 33: Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013

Tervetuloa mukaan!

louhos.github.io/sorvi

!louhos@IRCnet