425 Works

Mitmikute sagedusloendid

Kadri Muischnek
Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal

Eesti keele A1-C1 õpikute korpus 2018

Jelena Kallas & Kristina Koppel
Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Kõik korpuse laused on keeletaseme piirides unikaalsed. Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti...

Mallipõhine faktituletaja

Sven Laur
Tarkvarakomponent suudab vabatekstidest õppida erinevaid seoseid ning nende abil eraldada struktureeritud infot. Seosed võivad olla lihtsad nagu isikunimed ja organisatsioonid või keerulisemad nagu firmade peakontorite asukohad. Meetod vajab sisendiks korpust, milles on meid huvitav seos märgendatud. Seejärel leitakse automaatselt sobivad mallid ja koostatakse mudel, mis antud seost võimalikult hästi tuvastaksid. Tulemusena saame märgendamata vabatekstidest leida uusi seosele vastavaid näiteid.

Estonian Wordnet (kb72-LAST)

Heili Orav & Kadri Vare
Eesti Wordnetis (versioon 72) on praeguse seisuga (oktoober 2015) 74 720 mõistet, milles sõnu 101 761, semantilisi suhteid 239 719 ja seoseid Princetoni Wordnetiga (1.5) 108 202. Kõik mõisted on varustatud vähemalt ühe keelesisese suhtega ja vähemalt ühe ILI-suhtega.

Maailma maade nimed

Tiina Laansalu
Loendi aluseks on Emakeele Seltsi keeletoimkonna poolt 1996. aastal läbi arutatud väliskohanimede (sh riiginimede) kirjapilt keelekorraldussõnaraamatu kohanimelisas. Loendit on hiljem pidevalt täpsustatud ja ajakohastatud. Loend on ühtlustatud standardis ISO 3166-1 antud valikuga.

Eesti-vene sõnaraamat

Jelena Kallas
Eesti-vene sõnaraamat sisaldab tänapäeva eesti kirjakeele põhisõnavara, hulgaliselt erialatermineid, aga ka keeles kinnistunud uut ja moodsat ainest. Sõnavaliku aluseks on õigekeelsussõnaraamatu märksõnastik ja Eesti Keele Instituudis koostatud kirjakeele seletussõnaraamat. Eesti näitestik põhineb paljuski kirjakeele seletussõnaraamatul.

Eesti keele A1-C1 õpikute korpus 2018

Jelena Kallas & Kristina Koppel
Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Kõik korpuse laused on keeletaseme piirides unikaalsed. Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti...

Corpus of Estonian newspaper texts D

Kadri Muischnek
Corpus of Estonian newspaper texts, 182 million words Markup: TEI P5 XML Encoding: UTF8

Tilde masintõlge

Margit Krum
Lõppkasutajatele on lihtsalt ja tasuta kättesaadavad (veebilehitseja kaudu http://www.masintõlge.ee ja http://www.masintolge.ee) parima kvaliteediga masintõlkeprogrammid eesti keelest kultuuriliselt, majanduslikult olulistesse keeltesse (inglise, vene, soome, saksa, prantsuse) ja tagasi eesti keelde.

Estonian Wordnet (kb71-STABLE)

Heili Orav
Eesti Wordnetis (versioon 71) on praeguse seisuga (veebruar 2015) u 73 000 mõistet, milles sõnu u 98 700, semantilisi suhteid üle 230 000 ja ingliskeelseid suhteid üle 105 000. Kõik mõisted on varustatud vähemalt ühe keelesisese suhtega ja vähemalt ühe ILI-suhtega.

Põhjatuule ja päikese korpus v.1.0.2

Pärtel Lippus
Recordings of the tale “Põhjatuul ja päike” (North Wind and the Sun) read by the same speakers who participated in the Phonetic Corpus of Estonian Spontaneous Speech. Most of the speakers read the text two times. The text is annotated using Praat TextGrids: words in standard orthography and phonemes in SAMPA.

Eesti keele puudepank

Kadri Muischnek
Morfoloogiliselt ja sõltuvussüntaktiliselt analüüsitud eestikeelsed tekstid, kokku umbes 400 000 sõna 30 000 lauses. Tekstid on pärit eesti keele Tasakaalus korpusest http://www.cl.ut.ee/korpused/grammatikakorpus/ ja Koondkorpusest http://www.cl.ut.ee/korpused/segakorpus/ ning jagunevad ilukirjanduse, ajakirjanduse, teaduse ja populaarteaduse tekstiklasside vahel. Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi. Publikatsioon: Muischnek, Kadri; Müürisep, Kaili; Puolakainen Tiina (2014). Dependency Parsing of Estonian : Statistical and Rule - based Approaches Human Language Technologies - The Baltic...

Corpus of Radio News

Einar Meister
Radio News of Estonian Public Broadcasting

Estonian Wordnet (kb71-LAST)

Heili Orav
The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. All words in a synset belong into the same part of speech. THIS IS THE NEWEST VERSION

Eesti puudepanga korpus

Kaili Müürisep
Estonian Treebank is available both in the VISL and TigerXML format. Esttre consists of ca 1400 manually annotated sentences (10600 tokens), the text classes represented in the Corpus are fiction, both translated and original, newspaper texts and 20 sentences of transcribed spoken language.

Vana kirjakeele korpus

Külli Prillop
The Corpus is geared towards researchers of the history and development of written Estonian. The texts included are from 16.-18. century. From 16th century all known printed and hand-written texts have been included, except for lists of place and person names. For 17. and 18. century a choice of more important authors and text types has been included. Both northern and southern Estonian dialects, secular as well as religious texts are represented. Excluded from the...

Estonian Wordnet (kb71-LAST)

Heili Orav
The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. All words in a synset belong into the same part of speech. THIS IS THE NEWEST VERSION

Keelehoiakud Eesti keelekeskkondades 2015

Andres Karjus & Martin Ehala
Tartu Ülikooli uurimisprojekti Eesti keele kestlikkus avatud maailmas (EKKAM) tellimusel 2015. aasta kevadel Eestis läbi viidud keelehoiakuid puudutava küsimustiku vastused. Demograafiliselt tasakaalustatud valimis on 1006 vastajat vanuses 15-74. Küsimused hõlmavad vastajate demograafilist infot, keeleoskust, igapäevaseid keelevalikuid, keelehoiakuid, keelepoliitilisi vaateid. Küsimustikule oli võimalik vastata nii eesti kui vene keeles, vastavalt küsitletava valikule (ankeedi valik on andmestikus salvestatud). Andmestikus on 200 tunnust, millest suurema osa moodustavad küsimuste vastused, lisaks mõned küsimuste vastustest tuletatud tunnused. Andmestikuga kaasas on...

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Eesti keele seletav sõnaraamat EKSS 2009

Margit Langemets
Suurim eesti keele sõnaraamat, mis hõlmab kogu eesti kirjakeelt, k.a kõnekeelt ja oskuskeelt. Oma tüübilt on sõnaraamat kirjeldav (deskriptiivne), mitte normiv (preskriptiivne). Langemets, Margit; Tiits, Mai; Valdre, Tiia; Veskis, Leidi; Viks, Ülle; Voll, Piret (2009). Eesti keele seletav sõnaraamat. Eesti Keele Sihtasutus.

Eesti-prantsuse paralleelkorpus

Madis Jürviste
Aligned parallel translation corpus containing 65 million words (including both languages).

Synaq.org

Sulev Iva
Võru-eesti sõnaraamatu baasilt on üles ehitatud uus Võru-eesti-võru veebisõnaraamat (synaq.org). Sellega on integreeritud kõik Võru ja seto keelekorpuse projektiga loodud korpused (Uma Lehe ja ajalehe Setomaa korpus, ilukirjanduskorpus ja eesti-võru paralleelkorpus, mida kõiki on täiendatud uute tekstidega). Sõnaraamatust on kujundatud keeleportaal, mis sobitub hästi ka nutiseadmetes kasutamiseks.

Wõru Instituudi TõlkeMasin

Sulev Iva
Reeglipõhine masintõlge eesti ja võru keele vahel.

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    99

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    425