435 Works

Eesti keele spontaanse kõne foneetiline korpus v.1.0.0

Pärtel Lippus
The aim of the corpus is to compile a large amount of quality recordings of spontaneous Estonian and segment it phonetically on different levels. The project started in autumn 2006. The total size of the corpus is approximately 60 hours of speech from 100 speakers with different dialectological and social background. Speakers are from different age groups. They are asked to participate with face-to-face invitation and they are aware of the purpose of the recordings....

Loengute korpus

Einar Meister
Korpus sisaldab akadeemiliste loengute ja suuliste konverentsiettekannete salvestisi.

Eesti ilukirjanduse korpus

Kadri Muischnek
Eesti ilukirjanduse korpus alates 1990. Kokku 5,6 miljonit sõna.

Morfoloogiliselt ühestatud korpus

Kadri Muischnek
Käsitis morfoloogiliselt ühestatud korpus

Suur eesti-prantsuse sõnaraamat

Madis Jürviste
A comprehensive bilingual general language translation dictionary (work in progress).

Corpus of Estonian fiction D

Kadri Muischnek
A text corpus containing Estonian fiction texts from 1990. onwards, 5,6 million words.

Eesti Keele Instituudi reeglipõhise morfoloogia tööriistad

Indrek Hein
Eesti Keele Instituudi reeglipõhine morfoloogiatööriistade komplekt sisaldab endas eraldi kasutatavaid mooduleid silbitamise, tüübituvastuse, morfoloogilise analüüsi ja sünteesi kohta.

EstNLTK tokenizer

Sven Laur
Word tokenizer from the Estonian NLTK toolkit

Valence

Hille Pajupuu
This is a program classifying an Estonian text as positive, neutral or negative. It is running on server http://peeter.eki.ee:5000/valence This code is optimized for server environment but can be run also as a standalone program: python valencecolor.py textfile.txt This will produce a file textfile.txt.html where all emotionally relevant word are marked with CSS style. The limitation is that it does not print out the summary information. As a prerequisite the NLTK must be installed on...

Audiovisuaalse kõnesünteesi veebirakendus

Einar Meister
Pea mudel töötab Internet Explorer veebisirvijaga ning lisaks tuleb veebisirvijale paigaldada Cortona 3D tarkvara. Seda on võimalik saada siit.

Keelehoiakud Eesti keelekeskkondades 2015

Andres Karjus & Martin Ehala
Tartu Ülikooli uurimisprojekti Eesti keele kestlikkus avatud maailmas (EKKAM) tellimusel 2015. aasta kevadel Eestis läbi viidud keelehoiakuid puudutava küsimustiku vastused. Demograafiliselt tasakaalustatud valimis on 1006 vastajat vanuses 15-74. Küsimused hõlmavad vastajate demograafilist infot, keeleoskust, igapäevaseid keelevalikuid, keelehoiakuid, keelepoliitilisi vaateid. Küsimustikule oli võimalik vastata nii eesti kui vene keeles, vastavalt küsitletava valikule (ankeedi valik on andmestikus salvestatud). Andmestikus on 200 tunnust, millest suurema osa moodustavad küsimuste vastused, lisaks mõned küsimuste vastustest tuletatud tunnused. Andmestikuga kaasas on...

Vox populi - tekstide helindaja

Indrek Hein
Vox populi e rahva hääl koosneb kahest komponendist: tekstide helindajast (siinne leht) ja hääldussõnastikust koos keelereegleid realiseerivate programmikestega. Nende kahe koostöös ja Eesti Keele Instituudi kõnesünteesi kaasates saab teie saadetud tekstifailist lõpptulemusena sünteeshäälega audiofail. Litsents: http://www.eki.ee/eki/litsents.html.

Estonian Wordnet (kb71-LAST)

Heili Orav
The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. All words in a synset belong into the same part of speech. THIS IS THE NEWEST VERSION

Eesti keele õpikute korpus A1–C1

Jelena Kallas & Kristina Koppel
Sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute materjali. Korpuses on u 500 000 sõnet ning korpuses on märgendatud tekstiüksused (enamasti eristatakse harjutust, sõnavaraplokki ja suuremat seotud teksti), tekstilõigud (ühel real asuv tekst), laused ja osalaused . Korpus on morfoloogiliselt märgendatud. Korpuses on kaheksa õpikut: 1. Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus. 2. Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti...

Keelehoiakud Eesti keelekeskkondades 2015 andmestik

Andres Karjus & Martin Ehala
Tartu Ülikooli uurimisprojekti Eesti keele kestlikkus avatud maailmas (EKKAM) tellimusel 2015. aasta kevadel Eestis läbi viidud keelehoiakuid puudutava küsimustiku vastused. Demograafiliselt tasakaalustatud valimis on 1006 vastajat vanuses 15-74. Küsimused hõlmavad vastajate demograafilist infot, keeleoskust, igapäevaseid keelevalikuid, keelehoiakuid, keelepoliitilisi vaateid. Küsimustikule oli võimalik vastata nii eesti kui vene keeles, vastavalt küsitletava valikule (ankeedi valik on andmestikus salvestatud). Andmestikus on 200 tunnust, millest suurema osa moodustavad küsimuste vastused, lisaks mõned küsimuste vastustest tuletatud tunnused. Andmestikuga kaasas on...

Niidumari prosoodia korpus

Pärtel Lippus
Mari sõnaprosoodia uurimiseks kogutud andmestik. Sisaldab raamlauses loetud testsõnu 8 keelejuhilt. Iga keelejuht luges 100 lauset, iga lause sisaldas testsõna kord lause keskel, kord lause lõpus. Materjali kasutati siin: Lehiste, I., Teras, P., Help, T., Lippus, P., Meister, E., Pajusalu, K., & Viitso, T.-R. (2005). Meadow Mari prosody. Tallinn: Teaduste Akadeemia Kirjastus. Retrieved from http://kirj.ee/public/va_lu/Meadow%20Mari%20Prosody.pdf

Niederdeutsche Lehnwörter im Estnischen

Jüri Viikberg
Bei diesem Wörterbuch handelt es sich um den ersten Versuch, alle Entlehnungen aus dem Niederdeutschen zu erfassen, die in die estnische Sprache aufgenommen wurden und in ihr bestehen blieben. Dabei handelt es sich um eine der größten Gruppen der Entlehnungen. Die Wörter gehören meist zu jenem Wortschatz, der durch kulturelle Kontakte zwischen dem 13. und dem 17. Jahrhundert entstanden ist. Die niederdeutschen Entlehnungen in der estnischen Schriftsprache umfassen nach bisherigen Untersuchungen rund 800 Wörter. In...

Igauņu-latviešu vārdnīca

Indrek Hein & Margit Langemets
Kahesuunaline eesti-läti sõnaraamat, mis sisaldab ligi 47 000 märksõnaartiklit.

Läti-eesti sõnaraamat

Indrek Hein & Margit Langemets
Kahesuunaline läti-eesti sõnaraamat, mis sisaldab ligi 47 000 märksõnaartiklit.

Võõrsõnade leksikon

Tiina Paet
Sisaldab 33 000 levinumat võõrsõna, tsitaatsõna, laensõna, lühendit, sententsi ja väljendit. See on esimene eestikeelne võõrsõnakogu, mis esitab morfoloogilise info: käänamise ja pööramise ning muuttüübid. Võrreldes varasemate väljaannetega on lisatud uusi sõnu, uuendatud seletusi ning täpsustatud sõnade etümoloogiat. Vääri, Eduard; Kleis, Richard; Silvet, Johannes; Paet, Tiina; Rehemaa, Tuuli (2012). Võõrsõnade leksikon. Tallinn: Valgus.

Anafooride suhtes märgendatud Eesti sõltuvuspuude pank

Kaili Müürisep
Anafooride suhtes märgendatud korpuses on praegu ca 107000 sõna mahus tekste, milles on u 4200 märgendatud asesõna, millest u 3200 on ühendatud oma viitealusega, ülejäänud tuhandel asesõnal viitealus tekstis puudub. Tekstideks on ajalehetekstid ning üks teadustekst (ajakirja Eesti Arst 2004. aasta aastakäik). Märgendatud on järgmised asesõnad kõigis käändevormides ja nende viitealused: isikulised asesõnad (mina/ma, sina/sa, tema/ta, meie/me, teie/te, nemad/nad). Kokku on korpuses 1734 isikulist asesõna, neist 1320 on ühendatud viitealustega. näitav asesõna see esineb korpuses...

Faktituletaja visualiseerimisliides

Sven Laur
Faktituletaja visualiseerimisiidese kasutamiseks käivatada fail "startserver.sh" ning avada brauseriga "index.html" fail. Lisaks tuleb seadistada pakendi tee "settings.py" failis, mis on kataloog, kuhu liides lahti pakkida. Pakendis on kaasas ka mõned demomudelid, mida saab visualiseerijaga uurida.

Mulgi sõnastik

Tiina Laansalu
Mulgi veebisõnastikust saab sõnu otsida nii märksõna (murdekuju), kirjakeelse vaste (tähenduse) kui ka stiili järgi. Märksõnade juurde on enamasti lisatud ka näitelaused ning viited teistele sama või lähedase tähendusega sõnadele.

Eesti keele A1-C1 õpikute korpus 2017

Jelena Kallas & Kristina Koppel
Sisaldab korpusest „Eesti keele õpikute korpus A1–C1" eraldatud täislauseid. Korpus koosneb u 200 000 sõnest ja 24 000 lausest. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Laused on morfoloogiliselt märgendatud. Kõik korpuse laused on keeletaseme piirides unikaalsed.

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    109