Turkulainen suomen kielen puupankki

In English/Englanniksi

Turkulainen suomen kielen puupankki on kattava riippuvuusannotoitu korpus yleissuomelle. Korpus on annotoitu suomen kielen tarpeita varten hiukan muokatulla Stanford Dependency -skeemalla (de Marneffe ym. [1, 2]). Korpuksen pääasiallinen tarkoitus on tukea suomalaista kieliteknologiaa.

Uutiset

27. syyskuuta 2013
Annotaatiomanuaalin päivitetty, puupankin viimeisimmän version mukainen versio on nyt saatavilla.
29. heinäkuuta 2013
Puupankin uusin versio on nyt ladattavissa. Sitä kuvaava artikkeli Language Resources and Evaluation -lehdessä on nyt myös saatavilla.

Aikataulu

Tämänhetkinen versio (heinäkuussa 2013) sisältää 678 julkisesti saatavilla olevaa dokumenttia sekä 76 dokumenttia, jotka kuuluvat salaisena pidettyyn testiosaan. Tämän version myötä työn syntaksivaihe on valmis, ja parhaillaan ryhmässä on meneillään Turkulaisen suomen kielen puupankin PropBank-tyylinen annotointi.

Korpuksen teksti ja lisenssi

Puupankki koostuu useista osista. Tekstien tekijänoikeudet ovat edelleen niiden kirjoittajilla (ks. tekstilähteiden luettelo). Kaikki puupankin osat, samoin kuin niiden annotointi, on julkaistu Creative Commons Attribution-Share Alike -lisenssillä. Huomaathan, että tämä lisenssi vaatii viittaamista alkuperäiseen puupankkiin. Parhaiten tämä onnistuu sisällyttämällä verkossa esitettävien ja puupankkia käyttävien töiden verkkosivuille linkki tälle sivulle ja viittaamalla Haverisen ym. (2013) artikkeliin (ks. alla).

Lataa

Puupankki on ladattavissa täällä sekä XML-muodossa että CoNLL-X-muodossa.

Selaa korpusta ja tee hakuja verkossa

Puupankkiin voi tehdä hakuja tehokkailla hakuilmauksilla täällä. Korpuksesta on olemassa myös staattinen, selattava versio.

Yhteystiedot

Kaikki korpukseen liittyvät kysymykset voi esittää Katri Haveriselle (kahave@utu.fi) ja Filip Ginterille (ginter@cs.utu.fi).

Julkaisut

  • Pääasiallinen viite: Haverinen, K.; Nyblom, J.; Viljanen, T.; Laippala, V.; Kohonen, S.; Missilä, A.; Ojala, S.; Salakoski, T.; Ginter, F.: Building the essential resources for Finnish: the Turku Dependency Treebank. Language Resources and Evaluation. 2013. DOI: 10.1007/s10579-013-9244-1
  • Haverinen, K.; Ginter, F.; Laippala, V.; Kohonen, S.; Viljanen, T.; Nyblom, J. & Salakoski, T.: A Dependency-based Analysis of Treebank Annotation Errors. Proceedings of International Conference on Dependency Linguistics (Depling'11), Barcelona, Spain , pp. 115-124. 2011. [PDF]
  • Haverinen, K.; Viljanen, T.; Laippala, V.; Kohonen, S.; Ginter, F. & Salakoski, T.: Treebanking Finnish. Proceedings of The Ninth International Workshop on Treebanks and Linguistic Theories (TLT9). 2010. [PDF]
  • Haverinen, K.; Ginter, F.; Laippala, V.; Viljanen, T. & Salakoski, T.: Dependency Annotation of Wikipedia: First Steps towards a Finnish Treebank. Proceedings of The Eighth International Workshop on Treebanks and Linguistic Theories (TLT8). 2009. [PDF]

Dokumentaatio

Puupankin annotaatioskeemaa kuvaa yksityiskohtaisesti seuraava tekninen raportti:

Haverinen, K.: Syntax Annotation Guidelines for the Turku Dependency Treebank - 2nd edition, revised for the treebank release of July 2013. Technical report 1034, Turku Centre for Computer Science. January 2012. [PDF]

Kiitokset

Olemme kiitollisia rahoituksesta, jota olemme tähän mennessä saaneet seuraavilta tahoilta:

Kiitämme kaikkia kirjoittajia, jotka ovat ystävällisesti antaneet luvan käyttää tekstejään puupankissamme, joko erillisellä luvalla tai julkaisemalla tekstinsä alun perin vapaalla lisenssillä. Täydellinen lista kirjoittajista on luettavissa täällä. Kiitos!