Korpused

Korpused jagunevad järgmiselt:

Tänapäevane korpus

Tänapäevane korpus koosneb kahest suuremast allkorpusest: EtTenTen ja Koondkorpus. Mõlemad allkorpused on lausestatud, määratud on osalausete piirid, samuti on kõik morfoloogiliselt analüüsitud ja ühestatud. Kuna ühestamine on toimunud automaatselt, siis võib esineda ühestamata analüüse ja valesti ühestatud analüüse. Kui pole öeldud teisiti, on sõnede hulka arvatud ka kirjavahemärgid.

Morfoloogilise ühestamise täpsus on ligikaudu 93-98%, täpsemalt Veskise ja Liba 2008. aasta ettekandes [VL2008].

Peale morfoloogilist ühestamist on tehtud ka osalausestamine, selle saagis on 95% ja täpsus 96% (lähemalt vt. Kaalepi ja Muischneki artiklist [KM2012]).

Võimalikud ebatäpsused ja puudused on kirjeldatud alapeatükis Teadaolevad puudused.

EtTenTen

Korpus „etTenTen“ (ehk „Veebikorpus13“) on internetist alla laetud eestikeelsete veebilehtede korpus.

Korpuses on ligikaudu 315 miljonit sõnet ligikaudu 22 miljonis lauses. Sellel korpusel puudub täpsem ajateave, kuid ükski tekst pole hilisem kui jaanuar 2013.

Korpuse lähem kirjeldus on leitav keeleressursside registrist aadressil http://doi.org/10.15155/1-00-0000-0000-0000-0012EL

Korpus on jagatud kümneks alaosaks suurusega 20-50 miljonit sõnet. Osadeks jagamine on olnud üsna meelevaldne, selles pole järgitud ei ajalist ega žanrilist jaotust, isegi ühelt ja samalt domeenilt pärit erinevad tekstid võivad olla erinevates alaosades.

Eesti kirjakeele koondkorpus

Koondkorpuses (täpsema nimetusega „Eesti kirjakeele koondkorpus“) on järgmised allkorpused:

  • Ilukirjandus (kaks alaosa, sõnesid kokku ca 7 miljonit, lauseid ca pool miljonit)
  • Teaduskirjandus (viis alaosa, sõnesid kokku ca 6 miljonit, lauseid kokku ca 370 tuhat)
  • Ajakirjandus (kokku 56 alaosa, mis jaguneb 8 väljaande vahel. Iga aastakäik on omakorda alakorpuses. Ajakirjanduses kokku 152 miljonit sõnet 1, 142 miljonis lauses)
  • Euroopa seadused (15 alaosa, milles kokku 9,5 miljonit sõnet, ca 0,8 miljonit lauset)
  • Riigikogu protokollid (14,8 miljonit sõnet, 1,1 miljonit lauset)
  • Eesti seadused (sõnesid ca 2 miljonit, lauseid ca 150 tuhat)

Koondkorpuses on märgendatud ka ajaväljendid, kuigi neid praegu otseselt kasutajaliidese kaudu leida ei saa, on see siiski võimalik

Teadaolevad puudused

  • Ühestamata sõnaliike : 18 304 360 (3,6%).

Ühestatud korpus

Ühestatud korpus on morfoloogiliselt märgendatud ja ühestatud.

Statistika

Korpus, sõnesid, neist kirjavahemärke

Viited

[KM2012]Heiki-Jaan Kaalep ja Kadri Muischnek (2012). Osalausete tuvastamine eestikeelses tekstis kui iseseisev ülesanne. Teoses Helle Metslang, Margit Langemets ja Maria-Maren Sepper (toim.) Eesti Rakenduslingvistika Ühingu aastaraamat (Eesti Rakenduslingvistika Ühing, Tallinn 2012) Lk. 55-68, http://dx.doi.org/10.5128/ERYa8.04
[VL2008]Kaarel Veskis, Erkki Liba (2008). Automatic Tagger Evaluation. NLP course assignment report. https://entu.keeleressursid.ee/public-document/entity-7052