425 Works

EstNLTK morphological analysis

Sven Laur
Estonian NLTK toolkit - morphological analysis for Estonian. Uses Vabamorf tagset. Takes unannotated text as input.

Eesti keele õpikute korpus A1–C1

Jelena Kallas & Kristina Koppel
Sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute materjali. Korpuses on u 500 000 sõnet ning korpuses on märgendatud tekstiüksused (enamasti eristatakse harjutust, sõnavaraplokki ja suuremat seotud teksti), tekstilõigud (ühel real asuv tekst), laused ja osalaused . Korpus on morfoloogiliselt märgendatud. Korpuses on kaheksa õpikut: 1. Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus. 2. Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti...

Eesti mõistatuste andmebaas

Mare Kõiva & Jaak Krikmann
Andmebaas on rajatud Eesti Kirjandusmuuseumi folkloristika osakonnas. Baasi aluseks oli 2800 Word 7.0 formaadis andmetabelit, mille põhjal toodeti akadeemilise väljaande "Eesti mõistatused" (EM) põhiköidete I (2001) ja II (2002) käsikiri. Andmebaas on kasutatav kolmes variandis (vt täpsemalt), siinne versioon on xml-kujule teisendatud "baas-lugemik", mis esitab 95 751 eesti mõistatusteksti kirjed 20 000 kirje kaupa EM I–II tüüpide ja tekstide järjekorras (erinevalt andmebaasi kasutajaliidesest, kus on kirjed esitatud 1000 kaupa). Andmebaasi juurde kuuluvad abimaterjalid (millest kõiki...

Eesti Keele Instituudi isikunimeandmebaas

Maire Raadik
Eesti perekonnanimede andmebaasist saab vaadata, kuidas käänduvad eesti perekonnanimed. Iga nime puhul on peale nimetava käände näidatud omastava, osastava ja alaleütleva käände vorm. Kui nime saab käänata mitut moodi, on antud kõik võimalused.

Terminibaaside süsteem Termeki

Tõnis Nurk
Eesti Keele Instituudi tasuta pakutav tarkvara terminoloogia haldamiseks.

Keelehoiakud Eesti keelekeskkondades 2015 andmestik

Andres Karjus & Martin Ehala
Tartu Ülikooli uurimisprojekti Eesti keele kestlikkus avatud maailmas (EKKAM) tellimusel 2015. aasta kevadel Eestis läbi viidud keelehoiakuid puudutava küsimustiku vastused. Demograafiliselt tasakaalustatud valimis on 1006 vastajat vanuses 15-74. Küsimused hõlmavad vastajate demograafilist infot, keeleoskust, igapäevaseid keelevalikuid, keelehoiakuid, keelepoliitilisi vaateid. Küsimustikule oli võimalik vastata nii eesti kui vene keeles, vastavalt küsitletava valikule (ankeedi valik on andmestikus salvestatud). Andmestikus on 200 tunnust, millest suurema osa moodustavad küsimuste vastused, lisaks mõned küsimuste vastustest tuletatud tunnused. Andmestikuga kaasas on...

Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiiv EMSUKA

Liis Ermus
Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiivi (EMSUKA) on koondatud Eesti Keele Instituudi (sh Keele ja Kirjanduse Instituudi 1947–1993) töötajate ning Emakeele Seltsi korrespondentide kogutud keelematerjalid - sedel- ja vihikkogud ning helisalvestised. Olulisemad kogud on eesti murdearhiiv ning eesti murrete ja soome-ugri keelte heliarhiiv.

Valentsikorpus

Hille Pajupuu
Valentsikorpus koosneb "Postimehe" artiklite ortograafilistest lõikudest, mille emotsionaalsuse (positiivne, negatiivne, vastuoluline, neutraalne) on määranud lugejad. Kasutatud on domineeriva arvamuse meetodit (Pennebaker jt 1997). Valentsikorpus on mõeldud eeskätt statistiliste mudelite treenimiseks, kuid seda saab kasutada ka muudel eesmärkidel. Päringuid on võimalik teha nii rubriike (Arvamus, Eesti, Kultuur, Sport, Välismaa, Krimi) kui ka emotsionaalsust (positiivne, negatiivne, vastuoluline, neutraalne) arvesse võttes.

Seto sõnastik

Indrek Hein
Esimene seto veebisõnastik sisaldab üle 6000 märksõna, mida saab otsida nii murdekeelse kirjapildi kui ka lihtsustatud ja ilma diakriitiliste märkideta variandi järgi.

Esimene eesti slängisõnaraamat

Indrek Hein
The "First Estonian Slang Dictionary" is based on a slang vocabulary collected in Tallinn high schools in the spring of 1989. As the collection procedure was based on 152 thematic questionnaires, the dictionary's first and main half is thematic. The dictionary's second half, or register, presents all slang words in alphabetic order, with cross references by number to the relevant themes.

EstNLTK teek Pythoni jaoks (ver.1.4)

Sven Laur
EstNLTK provides common natural language processing functionality such as paragraph, sentence and word tokenization, morphological analysis, named entity recognition, etc. for the Estonian language.

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Eesti keele seletav sõnaraamat EKSS 2009

Margit Langemets
Suurim eesti keele sõnaraamat, mis hõlmab kogu eesti kirjakeelt, k.a kõnekeelt ja oskuskeelt. Oma tüübilt on sõnaraamat kirjeldav (deskriptiivne), mitte normiv (preskriptiivne).

Läti-eesti sõnaraamat

Indrek Hein & Margit Langemets
Kahesuunaline läti-eesti sõnaraamat, mis sisaldab ligi 47 000 märksõnaartiklit.

Pindsüntaktiliselt analüüsitud korpus

Kaili Müürisep
This corpus is a monolingual corpus with Constraint Grammar-style shallow syntactic annotations.

Eesti keele õppekorpus 2018 (etSkELL) 2018-04

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). GDEXi skoorid on parandatud vastavalt uuele GDEXi konfuguratsioonile. Eesti keele õppekorpuse 2018 (etSkELL) suurus on u...

Morphological analyzer for Estonian ESTMORF

Heiki-Jaan Kaalep
ESTMORF is a computer program for analysing unrestricted Estonian text. ESTMORF is implemented in a most straightforward way: it compares word forms of the running text with combinations of lexemes from its lexicon. ESTMORF determines, for every input word form, the structure of the word (e.g. stem, derivational suffix, inflectional affix), the word class and inflectional categories (e.g. number and case).

Eesti keele õppekorpus 2018 (etSkELL)

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). Eesti keele õppekorpuse 2018 (etSkELL) suurus on u 250 000 sõna ja u 25 miljonit lauset....

Terminibaaside süsteem Termeki

Tõnis Nurk
Eesti Keele Instituudi tasuta pakutav tarkvara terminoloogia haldamiseks.

Militerm v20180801

Tiina Soon
Militerm on sõjanduse, julgeoleku- ja kaitsepoliitika terminite andmebaas, kus saab märksõnu otsida eesti, inglise, prantsuse ja saksa keeles. Eesti- ja ingliskeelsete terminite juures on ka oskussõnade definitsioonid.

Eesti kohanimeraamat

Peeter Päll & Marja Kallasmaa
Dictionary of Estonian Place Names

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    99

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    425