427 Works

Maailma maade nimed

Tiina Laansalu
Loendi aluseks on Emakeele Seltsi keeletoimkonna poolt 1996. aastal läbi arutatud väliskohanimede (sh riiginimede) kirjapilt keelekorraldussõnaraamatu kohanimelisas. Loendit on hiljem pidevalt täpsustatud ja ajakohastatud. Loend on ühtlustatud standardis ISO 3166-1 antud valikuga.

Osalausestaja

Siim Orasmaa
Osalausepiiride tuvastaja

Ersa prosoodia korpus

Pärtel Lippus
Ersa sõnaprosoodia uurimiseks kogutud andmestik. Sisaldab raamlauses loetud testsõnu 8 keelejuhilt. Iga keelejuht luges 100 lauset, iga lause sisaldas testsõna kord lause keskel, kord lause lõpus. Vt lähemalt: Lehiste, I., Aasmäe, N., Meister, E., Pajusalu, K., Teras, P., & Viitso, T.-R. (2003). Erzya prosody. Helsinki: Finno-Ugrian Society.

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Eesti keele Kitsenduste Grammatika reeglid 1.0

Kadri Muischnek
Süntaktilise analüüsi jaoks on vajalik eesti keele morfoloogiline analüsaator, nt Vabamorf: https://github.com/Filosoft/vabamorf/blob/master/doc/readme.html Et Vabamorfi automaatselt kasutada, on vaja failis test.sh paika panna installeeritud Vabamorfi programmi ja sõnastiku teed. VISL CG3 Kitsenduste Grammatika analüsaator: http://beta.visl.sdu.dk/constraint_grammar.html. Grammatikad ühilduvad VISL CG3 versiooniga 0.9.9.10379. Reeglite failid ja skriptid moodulite ühendamiseks.

Eesti Keele Instituudi isikunimeandmebaas

Maire Raadik
Eesti perekonnanimede andmebaasist saab vaadata, kuidas käänduvad eesti perekonnanimed. Iga nime puhul on peale nimetava käände näidatud omastava, osastava ja alaleütleva käände vorm. Kui nime saab käänata mitut moodi, on antud kõik võimalused. Lisatud on ka sada eesnime, mille käänamist on EKI keelenõust kõige rohkem küsitud.

Jutusaadete korpus

Einar Meister
Jutusaated televiisorist ja raadiost.

Esterm v20180302

Tiina Soon
Esterm on Eesti Keele Instituudi mitmekeelne terminibaas, mis sisaldab peamiselt Euroopa Liidu ja Eesti Vabariigi õigusaktide termineid. Terminibaas koondab üle 50 valdkonna terminoloogiat.

Tekstide helindaja

Indrek Hein
Heliraamatute genereerija Vox Populi, mis kasutab EKI kõnesünteesi ja hääldusbaasi, et pikemaid tekste helindada.

Emotional

Hille Pajupuu
Project Statistical Models of the Emotionality of Speech and Written Text (2011-2014) was supported by the National Programme for Estonian Language Technology (2011-2017) of the Estonian Ministry of Education and Research.

Norra-eesti sõnaraamat

Ülle Viks
Sisaldab u 19 000 eesti ja 21 000 norra märksõna, millele on lisatud grammatilised andmed ja hulgaliselt näiteid sõnade kasutamise kohta. Raamatus on ka lühiülevaated eesti ja norra keelest. Turid Farbregd, Sigrid Kangur, Ülle Viks. Norra-eesti : eesti-norra sõnaraamat. Eesti Keele Sihtasutus. Tallinn 1998, 2. trükk 2005 (3. trükk ilmub 2013).

Taxonomy Extracted from Estonian Wikipedia Text 1.0

Eduard Barbu
The taxonomy is in an xml file and it has a structure compose of elements called “doc"

Läti-eesti sõnaraamat

Indrek Hein & Margit Langemets
Kahesuunaline läti-eesti sõnaraamat, mis sisaldab ligi 47 000 märksõnaartiklit.

Eesti Wordnet (2.1)

Heili Orav & Kadri Vare
XML versioon Eesti Wordnetist.

Vana kirjakeele korpus

Külli Prillop
The Corpus is geared towards researchers of the history and development of written Estonian. The texts included are from 16.-18. century. From 16th century all known printed and hand-written texts have been included, except for lists of place and person names. For 17. and 18. century a choice of more important authors and text types has been included. Both northern and southern Estonian dialects, secular as well as religious texts are represented. Excluded from the...

Kollokatsioonid

Kadri Muischnek
Kollokatsioonide leidja abil saab leida vastavalt päringule üksikuid kollokatsioone, kuid selleks, et teada saada kollokatsioonide pingerida, ongi abiks siin esitatud sagedusloendid kollokatsioonide leidja alusmaterjalist. Tänu pingeridadele on võimalik vaadelda valitud statistiku või lihtsalt kollokatsioonipaari sageduse alusel järjestatud 5000 sagedasemat/olulisemat Tasakaalus korpuses leiduvat kollokatsioonipaari, mis esinesid korpuses kümme või enam korda. Esitatud on sarnaselt kollokatsioonide leidja pakutud võimalustega teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid teise lemmaga, teatud sõnaliiki kuuluva sõnavormi sagedasemad kollokatsioonid teise sõnavormiga ja teatud...

Pikad sõnad

Pärtel Lippus
140 eri silbistruktuuriga 4-6 silbilist sõna. Salvestatud sõnaloendina 2 keelejuhilt ning raamlauses 6 Võru ja 7 Saaremaa keelejuhilt. 40 lühikeste lahtiste silpidega 5-6 silbilist sõna. Salvestatud raamlauses 6 ühiskeelselt keelejuhilt. Materjali on kasutatud siin: Pajusalu, K., Help, T., Lippus, P., Niit, E., Teras, P., & Viitso, T.-R. (2005). On the temporal structure of Estonian secondary-stressed feet. Linguistica Uralica, 41(2), 98–106. Lippus, P., Pajusalu, K., & Teras, P. (2006). The Temporal Structure of Penta- and Hexasyllabic...

Eesti Keele Instituudi fonoteek

Liis Ermus
Eesti Keele Instituudi fonoteegi leheküljel saab kuulata eesti murrete, soome-ugri keelte ja väliseesti keele helinäiteid.

Faktituletaja visualiseerimisliides

Sven Laur
Faktituletaja visualiseerimisiidese kasutamiseks käivatada fail "startserver.sh" ning avada brauseriga "index.html" fail. Lisaks tuleb seadistada pakendi tee "settings.py" failis, mis on kataloog, kuhu liides lahti pakkida. Pakendis on kaasas ka mõned demomudelid, mida saab visualiseerijaga uurida.

Eesti-prantsuse paralleelkorpus

Madis Jürviste
Aligned parallel translation corpus containing 65 million words (including both languages).

Meditsiini õppematerjalide korpus

Eola Valdre
Korpuses on 65 719 sõnet 2455 loenguslaidilt; kasutatud on TÜ arstiteaduskonna III kursuse radioloogialoenguid ja VI kursuse kliinilise radioloogia loenguid (õppeained ARHO.01.033 ja ARHO.002.009), luba selleks on saadud radioloogiakliiniku juhatajalt dr P. Ilveselt.

Eestikeelne kõnesüntees

Meelis Mihkla
Kõnesünteesikeskkond koondab endas eesti keele tekst-kõne sünteesi erinevaid variante, rakendusi, liideseid ja muid materjale, mis sünteesimiseks on loodud. Kuulata saab erinevaid eestikeelseid sünteeshääli ning neid ka alla laadida. Samuti saab alla laadida sünteesi kasutavaid rakendusi nii nutitelefonidele kui ka arvutitele.

Corpus of Radio News

Einar Meister
Radio News of Estonian Public Broadcasting

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    101