606 Works
Suur eesti-prantsuse sõnaraamat
Madis Jürviste
A comprehensive bilingual general language translation dictionary (work in progress).
Nimeüksuste korpus
Sven Laur
Corpus containing morphologically analyzed articles with named entity annotations (persons, organizations, locations) in BOI format.
Eesti avatud paralleelkorpus
Martin Luts
Projekti „Eesti avatud paralleelkorpus” eesmärk on luua oluline kogus keeleressursse statistiliste masintõlkesüsteemide parendamiseks. Projekt aitab kaasa olukorra saavutamisele kus: (i) Erinevad kommerts- ja kogukondlikud masintõlkesüsteemid pakuvad kvaliteetset tõlketeenust. (ii) Masintõlkesüsteemide teenused on lõppkasutajatele võimalikult väheste piirangutega (tasu, maht, kasutatavad platvormid) kättesaadavad. (iii) Sõltuvus üksikutest masintõlketeenuste kommertsteenusepakkujatest ei ole kriitiline ja on asendatav avatud ning vabavaraliste lahendustega. Projekti mõõdetavad tulemid on: (i) Kogutud ja korrastatud paralleelkorpuste maht. Projekti esimese aasta jooksul kogutud vähemalt 2,5 miljonit ühikut...
Eesti keele segakorpus: Seadused
Kadri Muischnek
Eesti ja Euroopa seadusetekstide korpus. TEI P5 XML märgendus, UTF8 kodeering.
Eesti murdekorpus
Liina Lindström
korpus
Eesti Keele Instituudi reeglipõhise morfoloogia tööriistad
Indrek Hein
Eesti Keele Instituudi reeglipõhine morfoloogiatööriistade komplekt sisaldab endas eraldi kasutatavaid mooduleid silbitamise, tüübituvastuse, morfoloogilise analüüsi ja sünteesi kohta.
Ühestatud sõnatähendustega korpus
Neeme Kahusk
Raw text corpus. Resource for building Estonian Framenet
Eestikeelne kõnesüntees
Meelis Mihkla
Kõnesünteesikeskkond koondab endas eesti keele tekst-kõne sünteesi erinevaid variante, rakendusi, liideseid ja muid materjale, mis sünteesimiseks on loodud. Kuulata saab erinevaid eestikeelseid sünteeshääli ning neid ka alla laadida. Samuti saab alla laadida sünteesi kasutavaid rakendusi nii nutitelefonidele kui ka arvutitele.
The database of Estonian multi-word expressions
Kadri Muischnek
This database contains a subtype of multi-word expressions, namely those consisting of a verb and a particle or a verb and its complements.
Morphological Toolset for Estonian
Indrek HeinEstonian Open Parallel Corpus
Martin LutsEstonian NER corpus
Sven LaurEstonian Wordnet (kb69a-LAST)
Heili OravCorpus of Estonian newspaper texts
Kadri MuischnekCorpus of Estonian scientific texts
Kadri MuischnekCorpus of the Proceedings of Estonian Parliament
Kadri MuischnekEesti etümoloogiasõnaraamat
Margit Langemets
2012. aastal ilmunud „Eesti etümoloogiasõnaraamatu“ elektrooniline versioon. Sisaldab teavet eesti keele sõnatüvede päritolu ja sõnade omavaheliste päritoluseoste kohta (laenud, omatüved, tehistüved jm). Sisaldab „ÕS 2006“ sõnatüvede etümoloogiaid (v.a võõrsõnatüved).
Raadiointervjuude korpus
Einar Meister
This corpus includes telepone interviews from different radio programmes.
Arvutaja
Tanel Alumäe
Kõnetuvastust kasutav mobiilirakendus: kalkulaator ja assistent.
Kõnele
Tanel Alumäe
Kõnele on kõnetuvastusteenus Androidi rakendustele, mis võimaldab saata e-kirju, sooritada infootsingut, kirjutada märkmeid, anda käske jne kõne abil.
etTenTen korpus, morfoloogiliselt ühestatud
Kadri Muischnek
etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html
Algmaterjal
Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)
Vadja keele sõnaraamat
Indrek Hein
„Vadja keele sõnaraamat“ on mälestusmärk vadja keelele – eesti keele lähimale sugulaskeelele. Vadja keele emakeelena kõnelejaid arvatavasti enam ei leidu. Vadja külad Narvast kirde poole jääval Ingerimaal on hääbunud, viimase allesjäänud murdeala kõrvale kerkis Ust-Luga sadam tuhandete seal töötavate uusasukatega. Vadja kirjakeel jäigi tekkimata.
Eesti keele sõnaraamat 2019 (veebisõnaraamat)
Margit Langemets
eesti keele seletav sõnaraamat
Eesti-mari sõnaraamat
Sven-Erik Soosaar
Sõnaraamat sisaldab umbes 9800 märksõna. Sõnaraamatu sihtgrupiks on mari keelest ja kultuurist huvitatud eestlased ning eesti keelt õppivad marid. Sõnastiku näitelaused ja -fraasid on abiks nii keeleõppijatele kui ka tõlkijatele. Kuigi mari keelel on kaks kirjakeelt – niidumari keel ja mäemari keel –, sisaldab sõnaraamat vaid niidumari vasteid, sest enamasti peetakse mari keelest rääkides silmas just niidumari keelt. Sõnaraamat on kättesaadav ainult elektrooniliselt.
Inglise-eesti masintõlkesõnastik
Indrek Hein
Jooksvalt täienev inglise-eesti veebisõnastik, mis on abiks tõlkimisel ja toetab ka masintõlget. Sõnastikus on praegu ligi 90 000 ingliskeelset sõna ja püsiühendit Sõnastik on loodud hobi korras ning ei pruugi vastata Eesti Keele Instituudi kvaliteedistandardile.