90 Works

Ametniku soovitussõnastik

Tiina Paet
Sõnastik kõigile neile, kellel on vaja kirjutada ametliku sisuga kirjakeelset teksti. Sõnastik pakub nõuandeid ja soovitusi, kuidas väljenduda lihtsamalt, selgemalt ja täpsemalt.

Eesti keele sõnapered

Indrek Hein & Silvi Vare
Esimene eesti keele sõnaperede sõnaraamat, kust saab põhjaliku ülevaate eesti keele rikkalikust sõnamoodustusest – kirjeldatud on ligikaudu 120 000 sõna ehitust ja sõnadevahelisi moodustusseoseid. Seoste alusel on sõnad koondatud ligi 9000 sõnapereks. Sõnapere koondab kokku kõik need sõnad, mis on üksteisest moodustatud, milles kordub üks ühine tüvi, mis seob kõiki sõnapere liikmeid.

Seto sõnastik

Indrek Hein
Esimene seto veebisõnastik sisaldab üle 6000 märksõna, mida saab otsida nii murdekeelse kirjapildi kui ka lihtsustatud ja ilma diakriitiliste märkideta variandi järgi.

e-keelenõu

Tõnis Nurk
Ühispäring keeleinfot sisaldavatest allikatest. Portaali peaeesmärgiks on pakkuda lõpptarbijale intuitiivselt lihtsal viisil vastuseid keelealastele küsimustele, nt normingukohasus, vasted teistes keeltes, selgitused, etümoloogia, kasutusinfo jms.

e-keelenõu

Tõnis Nurk
Ühispäring keeleinfot sisaldavatest allikatest. Portaali peaeesmärgiks on pakkuda lõpptarbijale intuitiivselt lihtsal viisil vastuseid keelealastele küsimustele, nt normingukohasus, vasted teistes keeltes, selgitused, etümoloogia, kasutusinfo jms.

etTenTen korpus

Heiki-Jaan Kaalep
etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus. Korpuses on 270 miljonit sõna 686 000 veebilehelt. Algmaterjal Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel. Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)

Eesti keele seletav sõnaraamat EKSS 2009

Margit Langemets
Suurim eesti keele sõnaraamat, mis hõlmab kogu eesti kirjakeelt, k.a kõnekeelt ja oskuskeelt. Oma tüübilt on sõnaraamat kirjeldav (deskriptiivne), mitte normiv (preskriptiivne). Langemets, Margit; Tiits, Mai; Valdre, Tiia; Veskis, Leidi; Viks, Ülle; Voll, Piret (2009). Eesti keele seletav sõnaraamat. Eesti Keele Sihtasutus.

Gap-tagger corpus

Alexander Tkachenko
Gap-tagger corpus contains data for assessing correctness of automatically generated alternatives for filling a gap (missing word). To get clearly interpretable results, we conducted modified version of A/B testing where the user had to choose between the original word and an alternative. The user has an option either to pick one of the two proposed words, or to report both words as appropriate. Since we know the right answer, we can objectively assess the suitability...

Estonian gap tests

Alexander Tkachenko
Estonian gap tests corpus represents a collection of sentences, in which one word is marked as a "gap", accompanied with a list of candidate words. The corpus can be used as a benchmark for evaluating language models. The corpus covers both frequent and infrequent gap-words and includes candidate lists generated in different ways. Sentences originate from the Estonian Reference Corpus (http://www.cl.ut.ee/korpused/segakorpus/). The corpus has been tokenized using Estnltk toolkit (https://github.com/estnltk/estnltk). An archive contains sentence files...

NER-tagger corpus

Alexander Tkachenko
NER-tagger corpus represents a collection of sentences with manually labelled named entities. The labelling is partial -- only a selected word from each sentence is labelled. As a result, the labelled entity may be only a part of a named entity and the sentence may potentially contain other named entities. We distinguish the following types on named entities: PER: person, LOC: location, ORG: organization, FAC: facility, PRD: product, O: other. For each labelled word the...

Valentsikorpus

Hille Pajupuu
Valentsikorpus koosneb "Postimehe" artiklite ortograafilistest lõikudest, mille emotsionaalsuse (positiivne, negatiivne, vastuoluline, neutraalne) on määranud lugejad. Kasutatud on domineeriva arvamuse meetodit (Pennebaker jt 1997). Valentsikorpus on mõeldud eeskätt statistiliste mudelite treenimiseks, kuid seda saab kasutada ka muudel eesmärkidel. Päringuid on võimalik teha nii rubriike (Arvamus, Eesti, Kultuur, Sport, Välismaa, Krimi) kui ka emotsionaalsust (positiivne, negatiivne, vastuoluline, neutraalne) arvesse võttes.

Eesti-udmurdi sõnaraamat

Indrek Hein
Esimene eesti-udmurdi sõnaraamat. Sisaldab u 10 000 märksõna ja on keeleuuenduslik: udmurdikeelsete vastete puudumisel pakuvad autorid eestikeelsele sõnale omapoolse võimaliku vaste. Sõnaraamatu eripäraks on ka udmurdi murdesõnade rohkus.

e-keelenõu

Tõnis Nurk
Ühispäring keeleinfot sisaldavatest allikatest. Portaali peaeesmärgiks on pakkuda lõpptarbijale intuitiivselt lihtsal viisil vastuseid keelealastele küsimustele, nt normingukohasus, vasted teistes keeltes, selgitused, etümoloogia, kasutusinfo jms.

Inglise-eesti meresõnaraamat

Indrek Hein
Sisaldab üle 30 000 märksõna. Peale merenduslike tavaterminite leiab sõnaraamatust ka purjelaevu, puulaevu, merekaubandust, mereõigust, merekindlustust, konteinervedusid, kalandust, sõjalaevastikku, raadiolokatsiooni, hüdromehaanikat, okeanograafiat, purjesporti jms puutuvaid sõnu.

Eesti Keele Instituudi kõnesünteesikorpus

Liisi Piits
Eestikeelse tekst-kõne sünteesi häälemudelite loomiseks kasutatud sisseloetud tekstid.

Haridussõnastik

Indrek Hein
Sisaldab 4850 terminit mitmesugustelt hariduse ja kasvatuse aladelt: kasvatus ja areng, alusharidus, põhi- ja keskharidus, kutse- ja kõrgharidus, andragoogika, eripedagoogika jne. Igale eesti terminile on antud inglise, saksa, soome ja vene vaste ning enamasti ka seletus.

Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiiv EMSUKA

Liis Ermus
Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiiv on maailma suurim eesti murdekeelt kajastav kogu. Arhiivis leidub nii salvestatud kui ka kirja pandud materjale eesti murrete, soome-ugri keelte ja väliseesti keele kohta.

Antonüümisõnastik

Indrek Hein
Sõnastikus on ligi 2000 antonüümipaari, neist enamik kuulub üldkeele sõnavarasse. Märksõna on esitatud koos oma vastandiga (nt suur : väike või vabastama : vangistama).

Sünonüümisõnastik

Indrek Hein & Asta Õim
Pakub kirjas ja kõnes kasutatavaid sünonüüme, sealhulgas valiku vanemaid, murdelisi ning kõnekeelseid sõnu või väljendeid, samuti termineid ning kantselei- ja stampkeelendeid.

Väike murdesõnastik

Indrek Hein
Annab ülevaate eesti murdesõnavarast ja sõnade levikust.

Huviharidussõnastik

Indrek Hein
Sõnastik sisaldab huvidele vastava õppetöövälise hariduse valdkonda kuuluvaid mõisteid koos tähenduse seletuse ning vastetega inglise, saksa, soome ja vene keeles.

Norra-eesti sõnaraamat

Ülle Viks
Sisaldab u 19 000 eesti ja 21 000 norra märksõna, millele on lisatud grammatilised andmed ja hulgaliselt näiteid sõnade kasutamise kohta. Raamatus on ka lühiülevaated eesti ja norra keelest. Turid Farbregd, Sigrid Kangur, Ülle Viks. Norra-eesti : eesti-norra sõnaraamat. Eesti Keele Sihtasutus. Tallinn 1998, 2. trükk 2005 (3. trükk ilmub 2013).

Eesti keele põhisõnavara sõnastik

Indrek Hein & Jelena Kallas
Sisaldab ca 5000 eesti keele sagedasemat sõna koos kasutusnäidetega. Sõnastik sisaldab infot märksõnade häälduse, vormimoodustuse, sõnamoodustuse, tähenduste, rektsiooni, kollokatsioonide, sünonüümine, antonüümide ja paronüümide kohta. Lisaks on ka illustreerivad pildid, õppelehed, pildilehed ning lisad („Maad ja rahavad“ ja „Eesti keele grammatika tabelid“). Elektroonilises versioonis on ka audiofailid. Mõeldud eeskätt A2- ja B1-keeleoskustasemega eesti keele õppijatele. Vt ka: Kallas, Jelena; Koppel, Kristina; Tuulik, Maria (2014). Eesti keele põhisõnavara sõnastik. Oma Keel, 2, 87−89. Kallas, Jelena; Tuulik, Maria...

Emotsioonidetektor

Hille Pajupuu
Vahend kirjaliku teksti lõikude positiivsuse, negatiivsuse ja neutraalsuse tuvastamiseks. Töötab teenusena EKI serveris.

Eesti keele spontaanse kõne foneetiline korpus v.1.0.3

Pärtel Lippus
The aim of the corpus is to compile a large amount of quality recordings of spontaneous Estonian and segment it phonetically on different levels. The project started in autumn 2006. The total size of the corpus is approximately 80 hours of speech from 120 speakers with different dialectological and social background. Speakers are from different age groups. They are asked to participate with face-to-face invitation and they are aware of the purpose of the recordings....

Registration Year

  • 2016
    90

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    90