418 Works

Eesti õigekeelsussõnaraamat ÕS 2013

Maire Raadik
Kajastab kehtivat eesti kirjakeele normi. Raadik, Maire; Erelt, Tiiu; Leemets, Tiina; Mäearu, Sirje (2013). Eesti õigekeelsussõnaraamat ÕS 2013. Tallinn: Eesti Keele Sihtasutus.

Tekstide helindaja ja heliraamatute genereerija

Meelis Mihkla
Teisendab txt- ja html-formaadis tekstid helifailideks ja lisab ePub3 formaadis e-raamatule sünteeskõnes kuulatavad audiofailid. Helindaja ja genereerija Vox Populi koosneb kahest komponendist – tekstide helindajast ja hääldussõnastikust. Nende kahe koostöös ja Eest Keele Instituudi kõnesünteesi kaasates saab kasutaja saadetud tekstifailist sünteeshäälega audiofail.

Võro ja seto kirjanduskogu

Sulev Iva
Ilukirjanduse korpuse kogumahuks on ca 350 000 sõna, korpus on viimase aasta jooksul muudetud tekstiarhiivist avalikuks keelekorpuseks koos vajaliku kasutajaliidesega, mis asub aadressil http://synaq.org/ilo.

Esimene eesti slängi sõnaraamat

Indrek Hein
Sõnaraamat põhineb 1989. aasta kevadel Tallinna eesti keskkoolidest kogutud materjalil. Slängisõnaraamat on mõisteline, selles on u poolteistsada teemat, mille piires on seletatud vastavaid slängisõnu.

Meditsiini õppematerjalide korpus

Eola Valdre
Korpuses on 65 719 sõnet 2455 loenguslaidilt; kasutatud on TÜ arstiteaduskonna III kursuse radioloogialoenguid ja VI kursuse kliinilise radioloogia loenguid (õppeained ARHO.01.033 ja ARHO.002.009), luba selleks on saadud radioloogiakliiniku juhatajalt dr P. Ilveselt.

Igauņu-latviešu vārdnīca

Indrek Hein & Margit Langemets
Kahesuunaline eesti-läti sõnaraamat, mis sisaldab ligi 47 000 märksõnaartiklit.

Veebipõhine sõnastikusüsteem EELex

Ülle Viks
Leksikograafi töökeskkond EELex on veebipõhiste töövahendite kompleks, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja keeleressursid, toetab rühmatööd ja pakub eesti keele tuge. EELexi tarkvara on sõnastike haldussüsteem, mis võimaldab sõnastikke koostada, toimetada ja küljendada, teha lihtsaid ja keerulisi struktuuripõhiseid päringuid ning päringutulemusi sortida. Toimetaja töö hõlbustamiseks on loodud mitmeid tööriistu, nt ristviidete kontroll, hulgiparandused kogu sõnastikus, eesti morfoloogia andmete genereerimine, küljendusvaate kujundus, sõnastikuteksti eksport Wordi jms.

Eesti-mari sõnaraamat

Sven-Erik Soosaar
Sõnaraamat sisaldab umbes 9800 märksõna. Sõnaraamatu sihtgrupiks on mari keelest ja kultuurist huvitatud eestlased ning eesti keelt õppivad marid. Sõnastiku näitelaused ja -fraasid on abiks nii keeleõppijatele kui ka tõlkijatele. Kuigi mari keelel on kaks kirjakeelt – niidumari keel ja mäemari keel –, sisaldab sõnaraamat vaid niidumari vasteid, sest enamasti peetakse mari keelest rääkides silmas just niidumari keelt. Sõnaraamat on kättesaadav ainult elektrooniliselt.

Kõnesünteesi kõnekorpus Eva

Liisi Piits
Tulemust on kasutatud eestikeelsete sünteeshäälte loomiseks, korpus on kõnesünteesi akustiliseks baasiks.

Anafooride suhtes märgendatud Eesti sõltuvuspuude pank

Kaili Müürisep
Anafooride suhtes märgendatud korpuses on praegu ca 107000 sõna mahus tekste, milles on u 4200 märgendatud asesõna, millest u 3200 on ühendatud oma viitealusega, ülejäänud tuhandel asesõnal viitealus tekstis puudub. Tekstideks on ajalehetekstid ning üks teadustekst (ajakirja Eesti Arst 2004. aasta aastakäik). Märgendatud on järgmised asesõnad kõigis käändevormides ja nende viitealused: isikulised asesõnad (mina/ma, sina/sa, tema/ta, meie/me, teie/te, nemad/nad). Kokku on korpuses 1734 isikulist asesõna, neist 1320 on ühendatud viitealustega. näitav asesõna see esineb korpuses...

Gap-tagger corpus

Alexander Tkachenko
Gap-tagger corpus contains data for assessing correctness of automatically generated alternatives for filling a gap (missing word). To get clearly interpretable results, we conducted modified version of A/B testing where the user had to choose between the original word and an alternative. The user has an option either to pick one of the two proposed words, or to report both words as appropriate. Since we know the right answer, we can objectively assess the suitability...

Kihnu sõnaraamat

Jüri Viikberg
„Kihnu sõnaraamat“ hõlmab sõnavara murdekeelest, mida kõneldakse Kihnus ja Manijal. Raamatusse on mahtunud enam kui 6000 sõna, lisaks veel valik isiku- ning kohanimesid. Märksõnade hulka on valitud nii Kihnule iseloomulikke iidseid sõnu kui ka neid, mis on murdekeelde tulnud alles viimastel kümnenditel. Sõnade tarvitamist hõlbustavad lisatud põhivormid ja näitelaused nii kihnu kui ka kirjakeeles. Sõnaraamatu on koostanud Reene Leas, Reti Könninge, Silvi Murulauk ja Ellen Niit ning toimetanud Karl Pajusalu ja Jüri Viikberg. Sõnaraamat on...

Militerm

Tiina Soon
Militerm on sõjanduse, julgeoleku- ja kaitsepoliitika terminite andmebaas, kus saab märksõnu otsida eesti, inglise, prantsuse ja saksa keeles. Eesti- ja ingliskeelsete terminite juures on ka oskussõnade definitsioonid.

Niederdeutsche Lehnwörter im Estnischen

Jüri Viikberg
Bei diesem Wörterbuch handelt es sich um den ersten Versuch, alle Entlehnungen aus dem Niederdeutschen zu erfassen, die in die estnische Sprache aufgenommen wurden und in ihr bestehen blieben. Dabei handelt es sich um eine der größten Gruppen der Entlehnungen. Die Wörter gehören meist zu jenem Wortschatz, der durch kulturelle Kontakte zwischen dem 13. und dem 17. Jahrhundert entstanden ist. Die niederdeutschen Entlehnungen in der estnischen Schriftsprache umfassen nach bisherigen Untersuchungen rund 800 Wörter. In...

Eesti keele segakorpus: Seadused

Kadri Muischnek
Eesti ja Euroopa seadusetekstide korpus. TEI P5 XML märgendus, UTF8 kodeering.

Uudiste lugeja Androidis

Meelis Mihkla
Rakendus loeb eesti keeles ette värskeid uudiseid. Kasutajal on võimalik valida kolme sünteeshääle ja erinevate lugemiskiiruste vahel.

Eesti-udmurdi sõnaraamat

Indrek Hein
Esimene eesti-udmurdi sõnaraamat. Sisaldab u 10 000 märksõna ja on keeleuuenduslik: udmurdikeelsete vastete puudumisel pakuvad autorid eestikeelsele sõnale omapoolse võimaliku vaste. Sõnaraamatu eripäraks on ka udmurdi murdesõnade rohkus.

Tekstide helindaja ja heliraamatute genereerija

Meelis Mihkla
Teisendab txt- ja html-formaadis tekstid helifailideks ja lisab ePub3 formaadis e-raamatule sünteeskõnes kuulatavad audiofailid. Helindaja ja genereerija Vox Populi koosneb kahest komponendist – tekstide helindajast ja hääldussõnastikust. Nende kahe koostöös ja Eest Keele Instituudi kõnesünteesi kaasates saab kasutaja saadetud tekstifailist sünteeshäälega audiofail.

Eesti keele õppekorpus 2018 (etSkELL)

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). Eesti keele õppekorpuse 2018 (etSkELL) suurus on u 248 000 sõna ja u 25 miljonit lauset....

Huviharidussõnastik

Indrek Hein
Sõnastik sisaldab huvidele vastava õppetöövälise hariduse valdkonda kuuluvaid mõisteid koos tähenduse seletuse ning vastetega inglise, saksa, soome ja vene keeles.

Esterm v20131231

Tiina Soon
ESTERM Eesti Keele Instituudi mitmekeelne terminibaas, mis sisaldab peamiselt Euroopa Liidu ja Eesti Vabariigi õigusaktide termineid. Terminibaas koondab üle 50 valdkonna terminoloogiat.

Eesti keele käsiraamat

Kristiina Ross & Mati Erelt
Pakub üldharivaid teadmisi eesti kirjakeele grammatika ja sõnavara ehituse kohta. Esitus on võimalikult lihtne, välditud on tavakasutajale tarbetuid üksikasju. Praktiline abivahend kirjakeele korrektseks kasutamiseks.

Väike murdesõnastik

Indrek Hein
Sisaldab eesti murdesõnavara.

NER-tagger corpus

Alexander Tkachenko
NER-tagger corpus represents a collection of sentences with manually labelled named entities. The labelling is partial -- only a selected word from each sentence is labelled. As a result, the labelled entity may be only a part of a named entity and the sentence may potentially contain other named entities. We distinguish the following types on named entities: PER: person, LOC: location, ORG: organization, FAC: facility, PRD: product, O: other. For each labelled word the...

Estonian NER corpus

Sven Laur

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    92

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    418