kokoaineisto programinkorpustyöusers.jyu.fi/~tojantun/opetus/svks112_kl15/1-korpustyo.pdf1"...

5
1 ProGramin korpustyö Tommi Jantunen, SVKS112, 16.3.2015 Koko aineisto Korpustyö vii@omakielenkeskuksessa Vuonna 2013 kerä@y monikuvakulmainen videomateriaali Tehtävät 5 (sarjakuvat) ja 6 (teemakeskustelu) Kokonaiskesto vajaa 2 tunHa (1:49:32) 12 äidinkielistä vii@ojaa (2060 vuo@a) Annotoituna: Raakaglossit (n=12350) Virkekäännökset (n=2568) KommenHt 6 vii@ojaa on kuva@u myös Kinectsensorilla. KuvausHlanne Puupponen, A.; Jantunen, T.; Takkinen, R.; Wainio, T. & Pippuri, O. (2014). Taking nonmanuality into account in collecHng and analyzing Finnish Sign Language video data. In O. Crasborn, E. E^himiou, E. FoHnea, T. Hanke, J. Hochgesang, J. Kristoffersen & J. Mesch (Eds.), Proceedings of the 6th Workshop on the Representa6on and Processing of Sign Languages: Beyond the Manual Channel [organized as a part of LREC'14 at Reykjavik, Iceland, May 31, 2014], pp. 143148. Paris: European Language Resources AssociaHon (ELRA). Fokuksessa sarjakuvanarraHivit (1) Lumiukko ja sammakkotarina (tehtävä 5) Kokonaiskesto noin 45 minuufa (0:45:12) SystemaHsoitu annotaaHo: Merkityslähtöisyys (asiat eroteltu teoista) Vii@omia edustavat Sglossit (n=4309), jotka jakautuvat merkitysglosseihin (n=3356) ja kuvailuglosseihin (n=953). Leksikko, jossa merkitysglosseja edustaa 539 lekseemiä. AnnotaaHo mahdollistaa strukturoidut haut.

Upload: others

Post on 18-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1" ProGramin"korpustyö" Tommi"Jantunen,"SVKS112," 16.3.2015 Koko"aineisto" • Korpustyö"vii@omakielenkeskuksessa

1  

ProGramin  korpustyö  

Tommi  Jantunen,  SVKS112,  16.3.2015  

Koko  aineisto  •  Korpustyö  vii@omakielenkeskuksessa  •  Vuonna  2013  kerä@y  monikuvakulmainen  videomateriaali  •  Tehtävät  5  (sarjakuvat)  ja  6  (teemakeskustelu)  

–  Kokonaiskesto  vajaa  2  tunHa  (1:49:32)  –  12  äidinkielistä  vii@ojaa  (20-­‐60  vuo@a)  –  Annotoituna:  

•  Raakaglossit  (n=12350)  •  Virkekäännökset  (n=2568)  •  KommenHt  

•  6  vii@ojaa  on  kuva@u  myös  Kinect-­‐sensorilla.  

KuvausHlanne  

Puupponen,  A.;  Jantunen,  T.;  Takkinen,  R.;  Wainio,  T.  &  Pippuri,  O.  (2014).  Taking  non-­‐manuality  into  account  in  collecHng  and  analyzing  Finnish  Sign  Language  video  data.  In  O.  Crasborn,  E.  E^himiou,  E.  FoHnea,  T.  Hanke,  J.  Hochgesang,  J.  Kristoffersen  &  J.  Mesch  (Eds.),  Proceedings  of  the  6th  Workshop  on  the  Representa6on  and  Processing  of  Sign  Languages:  Beyond  the  Manual  Channel  [organized  as  a  part    of  LREC'14  at  Reykjavik,  Iceland,  May  31,  2014],  pp.  143-­‐148.  Paris:  European  Language  Resources  AssociaHon  (ELRA).    

Fokuksessa  sarjakuvanarraHivit  (1)  

•  Lumiukko-­‐  ja  sammakkotarina  (tehtävä  5)  •  Kokonaiskesto  noin  45  minuufa  (0:45:12)  •  SystemaHsoitu  annotaaHo:  

–  Merkityslähtöisyys  (asiat  eroteltu  teoista)  –  Vii@omia  edustavat  S-­‐glossit  (n=4309),  jotka  jakautuvat  

•  merkitysglosseihin  (n=3356)  ja  •  kuvailuglosseihin  (n=953).  

–  Leksikko,  jossa  merkitysglosseja  edustaa  539  lekseemiä.  •  AnnotaaHo  mahdollistaa  strukturoidut  haut.  

Page 2: Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1" ProGramin"korpustyö" Tommi"Jantunen,"SVKS112," 16.3.2015 Koko"aineisto" • Korpustyö"vii@omakielenkeskuksessa

2  

Fokuksessa  sarjakuvanarraHivit  (2)  

•  Tutkimusta  tukeva  perusannotaaHo:  –  Lause-­‐alkiot  (n=1873)  –  Pään  liiketyypit  –  Kehon  liiketyypit  

•  NarraHiviaineistoon  lii@yvä  SLMoHon  data:  –  Pään  liikkumisen  kuvaus  (yaw,  pitch,  roll;  centroid  x,  y)  –  Suun  horisontaalisen  ja  verHkaalisen  liikkumisen  luoki@elu  –  Silmien  avonaisuusasteen  luoki@elu  –  Kulmakarvojen  asentojen  luoki@elu  

Raakaglossit  •  Raakaglossauksen  tavoi@eena:  

–  idenHfioida  vii@omajaksot  ja  niiden  kontekstuaaliset  merkitykset  –  tuo@aa  nopeasH  aineistoa  tutkimuksen  hyödynne@äväksi.  

•  Kirjoite@u  yhdelle  riville  per  vii@oja.  •  Ajoite@u  dominoivan  käden  toiminnan  mukaan.  •  Perustuvat  suhteellisen  vapaisiin  annotoinHkonvenHoihin.  •  Korostavat  merkitystä  ennen  muotoa,  eli  esimerkiksi  ‘työ’  ja  

‘työskentely’  on  glossa@u  eri  tavalla.  •  Jakautuvat  isoilla  kirjaimilla  kirjoite@uihin  merkitysglosseihin  ja  pienillä  

kirjaimilla  kirjoite@uihin  kuvailuglosseihin,  jotka  edustavat  –  vastaavassa  järjestyksessä  –  merkitykseltään  suhteellisen  vakioisia  vii@omia  ja  merkitykseltään  vaikeammin  kuva@avia  vii@omia.  

Esimerkkejä  raakaglossausvaiheen  merkitysglosseista  

Vähemmän  kielioppi-etoa  

Enemmän  kielioppi-etoa  

Vähemmän  merkitystä  

PI   OSOITUS   POIKA+B-­‐OSOITUS  

LÄHTEÄ:viuh   PÄÄ+TYHJÄ:unohtaa   OSOITUS:tuo  

Enemmän  merkitystä  

 

EI-­‐HALUA    

LASI+KULHO     SYÖDÄ+JO  

Raakaglossausnäkymä  ELANissa  

Page 3: Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1" ProGramin"korpustyö" Tommi"Jantunen,"SVKS112," 16.3.2015 Koko"aineisto" • Korpustyö"vii@omakielenkeskuksessa

3  

S-­‐glossit  (1)  •  Raakaglossauksen  pohjalta  merkityslähtöisesH  systemaHsoitu  glossi.  •  Kirjoite@u  yhdelle  riville  dominoivan  käden  toiminnan  perusteella.  •  IdenHfioi  yksiseli@eisesH  yhden  vii@oman  eli  distribuuHoltaan  vapaan  

merkitys–muoto-­‐parin.  •  Sisäinen  jako  merkitysglosseihin  ja  kuvailuglosseihin,  joista  jälkimmäiset  

erikseen  indeksoitu  glossin  eHsellä,  alaviivalla  glossiin  kytketyllä  symbolilla  (prefiksillä)  k  ‘kuvailu’.  

•  S-­‐glosseihin  on  lisäksi  prefiksoitu  Hetoa  vii@oman  –  pääsanaluokasta  (n  ‘nominaali’,  v  ‘verbaali’,  x  ‘määri@elemätön’)  ja  –  statuksesta  yhdisteenä  (y  ‘yhdiste’).  

S-­‐glossit  (2)  •  S-­‐glossien  erikoistapauksia,  jotka  eivät  sisällä  prefiksejä,  ovat  osoitukset  

(OS)  ja  Hetyt  konvenHonaalistuneet  eleet  (esim.  PALM-­‐UP).    •  “NegaHivit”  on  osoite@u  glossiosaan  liitetyllä  alukkeella  EI-­‐  (esim.  EI-­‐

HALUA).  •  Kaikkien  S-­‐glossien  lopussa  voi  olla  Hetoa  vii@oman  rakenteesta  

(sulkujen  sisään  merki@y  Heto  vii@oman  käsimuodosta,  paikasta  tai  liikkeestä),  tai  pienillä  kirjaimilla  kirjoite@u  merkityksen  tarkennin  (tämä  on  erote@u  muusta  glossista  kaksoispisteellä).  

•  S-­‐glosseihin  tullaan  myöhemmin  lii@ämään  lisäHetoa  mm.  siitä,  onko  vii@oma  numeraali,  sormiaakkonen  tai  sormitus,  vii@omanimi  tai  ele.  

S-­‐glossien  syntaksi  ja  esimerkkejä  

•  Merkitysglossit  [n,v,x]_y_EI-­‐MERKITYS(rakenneHeto):merkityksen_tarkennin    

n_AAMU,  n_y_AMPIAISPESÄ,  n_METSÄ(GG)  v_ANTAA:minulle,  v_y_MENNÄ-­‐ULOS,  v_EI-­‐TYKÄTÄ,  v_JUOSTA(S)  x_TAI,  x_PIENI(B)  OS:minä,  OS(V):me_kaksi  

 

•  Kuvailuglossit  [n,v,x]_k_”merkityksen_kuvaus”    

v_k_”lumiukko_kavahtaa_taaksepäin”  n_k_”mehiläisparven_muoto”  x_k_”hytky@ää_päätä”  

Merkityksen  ja  muodon  erikoisyhdistelmät  

Vain  suhteessa  harvinainen  synonymia  vaaHi  erikoismerkinnän,  joka  toteutetaan  glossiin  lisä@ävällä  rakenneHedolla:  

•  Perustapaus  1  merkitys–1  muoto        EI-­‐HALUA,  KENKÄ  

•  Synonymia  1  merkitys–2  muotoa        JUOSTA(BB),  JUOSTA(GG)  •  Polysemia  2  (sukulais)merkitystä–1  muoto  SUKLAA,  RUSKEA  •  Homonymia  2  merkitystä–1  muoto        ARKI,  MAASEUTU  

Page 4: Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1" ProGramin"korpustyö" Tommi"Jantunen,"SVKS112," 16.3.2015 Koko"aineisto" • Korpustyö"vii@omakielenkeskuksessa

4  

S-­‐glossinäkymä  ELANissa   Leksikkonäkymä  Excelissä  

Virkekäännökset  

•  “Raakakäännöksiä”  •  Tavoi@eena  rakenteellinen  vastaavuus  lähtöteksHn  kanssa.  •  Virkerajoista  on  olemassa  vaihtoehtoinen  näkemys.  •  Virkejaksoista  on  tehty  lauseraja-­‐analyysi.  •  Aineistoon  tullaan  myöhemmin  lisäämään  idiomaafset  

käännökset.  

LauseannotaaHot  •  Tavoi@eena  idenHfioida  aineiston  yksinkertaisia  lauseita  ja  

etenkin  niiden  vii@omatason  sisältöjä.  •  Toteute@u  puoliautomaafsesH  lauseraja-­‐analyysin  pohjalta.  •  AnnotaaHosolujen  alut  ja  loput  eivät  (väl@ämä@ä)  ole  lauseiden  

tarkkoja  alku-­‐  ja  loppukohHa.  •  Lause  määritelty  jaksoksi,  joka  sisältää  predikaaHn.  •  Lauseeseen  väli@ömäsH  lii@yvät,  mu@a  rakenteellisesH  sen  

yHmen  ulkopuolelle  sijoi@uvat  elemenHt,  kuten  topiikki,  on  lähtökohtaisesH  lue@u  osaksi  lause@a.  

•  LausekonsHtuenfen  funkHoanalyysi  toteutetaan  myöhemmin.  

Page 5: Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1" ProGramin"korpustyö" Tommi"Jantunen,"SVKS112," 16.3.2015 Koko"aineisto" • Korpustyö"vii@omakielenkeskuksessa

5  

Pään  ja  kehon  liiketyyppiannotaaHo  

Pää  •  Nyökkäys  (nod)  •  Nyöky@ely  (nodding)  •  Työntö  (thrust)  •  Veto  (pull)  •  Leuka  ylös  (chin-­‐up)  •  Leuka  alas  (chin-­‐down)  •  Kallistus  (Hlt)  •  Kallistelu  (HlHng)  •  Kääntö  (turn)  •  Pudistus  (headshake)  

Keho  •  Nojaus  eteen  (lean  forward)  •  Nojaus  taakse  (lean  backwards)  •  Nojaus  oikealle  (lean  right)  •  Nojaus  vasemmalle  (lean  le^)  •  Kääntö  oikealle  (turn  right)  •  Kääntö  vasemmalle  (turn  le^)  •  Kallistelu  (HlHng)  •  Olkapäät  ylös  (shoulders  up)  •  HarHoiden  kohautus  (shrug)  

SLMoHon-­‐data  ELANissa