avoimen datan mahdollisuudet terveystieteissä thl 3.12.2013

Post on 26-Jun-2015

201 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Avoimen datan uudet mahdollisuudet terveys- ja yhteiskuntatieteissä. Esitelmä THL:llä 3.12.2013

TRANSCRIPT

Avoin data­analytiikka & terveystieteetLeo Lahti, Helsinki & Wageningen (Alankomaat)THL 3.1 2.201 3

Leo Lahti

Helsingin yliopisto (eltdk)Wageningenin yliopisto (Lab. Microbiol.) , AlankomaatTutkijatohtori (SA)Ihmiskehon mikrobiekologia

TkT (Aalto, 201 0)Bioinformatiikka & koneoppiminen

DI (TKK 2003)Teknillinen fysiikka & matematiikka

VTK (HY 2009)Käytännöllinen filosofia & kansantaloustiede

Open Knowledge Foundation Finland; Open Science work group

Avoimen datan ohjelmakirjastot (rOpenSci; sorvi; Louhos-blogi)

Avoimen lähdekoodin analyysivälineitä avoimelle datalle;

biolääketiede keskeisimpänä sovellusalueena

Laskennallinen tiede & bioinformatiikkaAvoin ja suljettu yhteiskunnallinen dataUusia tutkimustapoja ja ­välineitä?Keskustelua

Bioinformatiikka on monitieteinen tutkimusala, joka kehittää ja

käyttää matematiikan, tietojenkäsittelytieteen sekä

tilastotieteen menetelmiä biologisten ongelmien ratkaisuun.

- Organisoi tietoaineistoja tutkijoiden saataville

- Kehittää laskennallisia menetelmiä ja tietoresursseja

- Soveltaa näitä (molekyyli)biologian tutkimuksessa

Perimän rakenteen ja toiminnan kartoitus, geenisekvenssit,

proteiinien ja geenien rakenne ja toiminta, evoluutiotutkimus,

mikrobiekologia, tautigeenien kartoitus, eliöiden

sukulaisuussuhteiden selvittäminen, prognostiikka,

diagnostiikka

Ihmisen perimä

­ 3,000,000,000 emäsparia­ 22,000 geeniä­ mRNA; ncRNA; miRNA; lincRNA­ 100,000 proteiinia- proteiinikompleksit

- muu aineenvaihdunta, soluviestintä

- biokemialliset vaikutusverkot

- satoja kudostyyppejä

- tuhansia sairauksia

- ympäristötekijät

Aineistojen laskennallinen yhdistely

keskeisellä sijalla perimän toimintaa

tutkittaessa

Ihmisen mikrobiomi

- tuhansia bakteerilajeja, valtaosin

tuntemattomia

- 1 01 4 bakteerisolua

(1 0 x ihmisen solujen määrä!)

­ metagenomi: >3,000,000 uniikkiageeniä (1 50 x ihmisen perimä!)

- hyvät, pahat & vapaamatkustajat

HITChip suolistobakteeriatlas:1000 bakteeria x 5000 näytettä

Datasta tietoon

Havainnot, data

Informaatio, faktat

Tieto, ymmärrys

Viisaus, toiminta

Tietojen yhdistelymahdollistaa uudetsovellukset jakasvattaa datan arvoa

- Laaja käyttäjä- ja kehittäjäyhteisö

- Avoin lähdekoodi

- Tuhansia analyysimenetelmiä (tilastollinen testaus,

tiedonlouhinta, visualisointi)

- Uusia työkaluja ja vaihtoehtoja SAS/SPSS/Matlab/Excel-säädölle

R ­ Avoin tieteellinen laskentakielijokapäiväiseen tiedonlouhintaanwww.r-project.org

r4stats.com

Number of analysis tools for Rnow growing exponentiallyrOpenGov

CRAN

Avoimuuden etuja (data & koodi)- saavutettavuus & käytettävyys

- läpinäkyvyys & luotettavuus

- toistettavuus & jatkokäyttö

- yhteistyön skaalautuvuus

- lisätukea suljetun datan analyyseille

Kuntajako:YLE

Kuntakartta:Maanmittauslaitos

Väestötiedot:Tilastokeskus

Esimerkki: uusi kuntajako ja väestötilastot

Open Street Map,Helsinki

Pullonkauloja avoimen datan hyödyntämisessä- tiedon hajanaisuus

- heikko saavutettavuus

- sotkuinen data

- katoava data

- vertailukelvoton data

- välineiden puute

- yksityisyydensuoja

louhos.github.com

Louhos kerää ja kehittää algoritmejaavoimelle Suomi­datalle

R/sorvi­kirjasto kattaa jo noin20 kotimaista tietolähdettä

KunnallisvaalitDatavaalit

Eduskunnan äänestyksetVaalikoneet

YLE/MOT YritystuetMaanmittauslaitos (MML)

Suomen ympäristökeskus (SYKE/OIVA)Google Maps

OpenStreetMapKuntatason informaatio

Maakuntatason informaatioHelsingin seudun ympäristöpalvelut (HSY)Helsingin kaupungin kiinteistövirasto (HKK)

Helsinki Region Infoshare (HRI)Asuntojen hinnat

KoulutusKulttuuri

PostinumerotTilastokeskus

VäestörekisteritNimitilastot

Maailmanpankki

Presidenttiehdokkaiden

kannatus ja suomalaisten

hyvinvointi (Data:

Tilastokeskus & HRI)

Sotkanetin R-esimerkit Opasnet-sivustolla

Apps4Finland­finaaliin yhteistyössä Demos Helsingin kanssa

Käyttöesimerkkejä

Datawikigithub.com/louhos/sorvi/wiki/

Louhos­blogilouhos.wordpress.com

Sotkanet-esimerkit lähdekoodeineen Datawikissä

"Lex Karpela" tekijänoikeuslain kannattajat eduskunnassa

Louhos­blogi (louhos.wordpress.com)

Merkkipaaluja

201 0 sorvi-paketti & Louhos-blogi alulle

201 1 Datajournalismin työpaja, Vanha ylioppilastaloApps4Finland Datan Avaus-sarjan voitto (sorvi)

201 2 SHARE-konferenssi (Belgrad)Kaupunkitutkimuksen päivät (Helsinki)HSOpen Hackathon - yhteistyö (Vaalidatapaketti)Sitralta 1 4,000e rahoitus Datavaalit-hankkeelleOpen Legislative Data-konferenssi (Pariisi)Open Knowledge Festival (Helsinki)Apps4Finland Datan Avaus-sarjan voitto (Datavaalit)Apps4Finland Dataopas-sarjan yleisöäänet (Datawiki)Louhos-blogiin 20,000 vierailua

201 3 Open Knowledge Foundation; Open Science työryhmäMukaan CRAN-verkostoonOpen Knowledge RoadshowSotkanet-sovellus Apps4Finland-finaalissa (+Demos Helsinki)Globaali rOpenGov-verkosto käynnistyyNIPS Machine Learning Open Source Software workshop (Lake Tahoe, US)

Datan saatavuus: tietolähteiden kartoitus; joustavat haku- ja

putsausrutiinit

Läpinäkyvyys & toistettavuus: kaikki vaiheet yhdessä koodissa

Vuorovaikutteisuus: nopea datan seulonta ja visualisointi

Monipuolisuus: koodipohjaa voidaan jakaa ja uudelleenkäyttää

Lokalisoitu: kotimaisiin tarpeisiin

Uusia tutkimusvälineitä: R/Python-koodikirjastot!

(SAS/SPSS/Matlab/Excel: ei vastaavia välineitä

Uutta dataa & välineitä yhteiskuntatutkimukseen

rOpenGov: globaali kehittäjäverkosto (ropengov.github.io)

rOpenSci

Kiitos!

louhos.github.com/sorviJuuso ParkkinenAalto-yliopisto

Joona LehtomäkiHelsingin yliopisto

Markus KainuAleksanteri-instituutti

Tervetuloa mukaan!

louhos.github.io/sorvi

!louhos@IRCnet

top related