99 Works

Ajalehe Setomaa korpus

Sulev Iva
Seo aolehe Setomaa korpus om osa Võro instituudi Võro ja seto keelekorpusõst. Korpusõ om kokko pandnuq Männamaa Kaur aolehe Setomaa lual lehe elektrooniliidsi arhiivõ perrä 2013. aastagal. Seo võrgolehe om kujondanu Männamaa Laura. Korpusõn om parhilla 1031 teksti. Tuu hulgan setokeelitsit tekste 403 (278 879 sõnna) ja eestikeelitsit tekste 628 (227 704 sõnna). Tekstiq ommaq peri aastist 2006 - 2013. Korpusõ kokkopandmist om rahaga tugõnuq riiklinõ programm Eesti keeletehnoloogia.

Kollokatsioonid

Kadri Muischnek
Kollokatsioonide leidja abil saab leida vastavalt päringule üksikuid kollokatsioone, kuid selleks, et teada saada kollokatsioonide pingerida, ongi abiks siin esitatud sagedusloendid kollokatsioonide leidja alusmaterjalist. Tänu pingeridadele on võimalik vaadelda valitud statistiku või lihtsalt kollokatsioonipaari sageduse alusel järjestatud 5000 sagedasemat/olulisemat Tasakaalus korpuses leiduvat kollokatsioonipaari, mis esinesid korpuses kümme või enam korda. Esitatud on sarnaselt kollokatsioonide leidja pakutud võimalustega teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid teise lemmaga, teatud sõnaliiki kuuluva sõnavormi sagedasemad kollokatsioonid teise sõnavormiga ja teatud...

Osalausestaja

Siim Orasmaa
Osalausepiiride tuvastaja

Tekstide helindaja

Indrek Hein
Heliraamatute genereerija Vox Populi, mis kasutab EKI kõnesünteesi ja hääldusbaasi, et pikemaid tekste helindada.

Võru-eesti paralleelkorpuse kasutajaliides

Sulev Iva
Otsida saab mitu sõna korraga, hetkel miinusmärki väljajättena ei toetata.Vaikimisi otsitakse mitte terveid sõnu vaid sõnesid pikemate sõnede sees.

Faktituletaja Pythonis

Sven Laur
Faktituletaja Pythoni komponent 7. märtsi 2013 seisuga. Integreeritud morfoanalüüsi kasutamiseks tuleb lisada bin kataloogi t3mesta binaar

Meditsiinikeele korpus

Peeter Ross & Eola Valdre
Meditsiinikeele korpuse koostamiseks on kasutatud autentseid isikustamata terviseandmeid, milleks on taotletud eetikaluba (Tallinna Meditsiiniuuringute Eetikakomitee otsuse nr 2169). Tuleb arvestada, et ka isikustamata terviseandmed on eriline materjal, sh ka tervishoiuturu konkurentsi tingimustes. Tegu on ühe tervishoiuasutuse andmetega, mis ei pruugi adekvaatselt kajastada ega olla automaatselt ülekantavad kõigile teistele tervishoiuasutustele, ka ei saa nende alusel teha järeldusi tervishoiuteenuse kui terviku kohta. Kõnelause projektiga seotud eetikaloa üks osapool on olnud AS Ida-Tallinna Keskhaigla, kelle radioloogiainfosüsteemist on isikustamata...

Subtiitrite helindaja

Meelis Mihkla
Subtiitrite helindamise ning tele-eetrisse edastamise tarkvaralahenduse eesmärk on ETVs kasutatavate subtiitrifailide alusel kõnesüntesaatoriga helifailide genereerimine ning eraldi helikanalis digitelevisiooni eetrisse edastamine. Ühisprojekti on kaasatud Eesti Keele Instituut (EKI), Eesti Rahvusringhääling (ERR) ja Eesti Pimedate Liit (EPL).

Kõneravi harjutuste mallid

Hannalore Taal
Harjutuste​ ​mallid,​ ​mille​ ​peale​ ​on​ ​logopeedidel​ ​võimalik​ ​luua​ ​kõneravi.ee keskkonda​ ​uusi​ ​harjutusi

Corpus of Estonian fiction D

Kadri Muischnek
A text corpus containing Estonian fiction texts from 1990. onwards, 5,6 million words.

Mitmikute sagedusloendid

Kadri Muischnek
Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal

Mallipõhine faktituletaja

Sven Laur
Tarkvarakomponent suudab vabatekstidest õppida erinevaid seoseid ning nende abil eraldada struktureeritud infot. Seosed võivad olla lihtsad nagu isikunimed ja organisatsioonid või keerulisemad nagu firmade peakontorite asukohad. Meetod vajab sisendiks korpust, milles on meid huvitav seos märgendatud. Seejärel leitakse automaatselt sobivad mallid ja koostatakse mudel, mis antud seost võimalikult hästi tuvastaksid. Tulemusena saame märgendamata vabatekstidest leida uusi seosele vastavaid näiteid.

Corpus of Estonian newspaper texts D

Kadri Muischnek
Corpus of Estonian newspaper texts, 182 million words Markup: TEI P5 XML Encoding: UTF8

Tilde masintõlge

Margit Krum
Lõppkasutajatele on lihtsalt ja tasuta kättesaadavad (veebilehitseja kaudu http://www.masintõlge.ee ja http://www.masintolge.ee) parima kvaliteediga masintõlkeprogrammid eesti keelest kultuuriliselt, majanduslikult olulistesse keeltesse (inglise, vene, soome, saksa, prantsuse) ja tagasi eesti keelde.

Synaq.org

Sulev Iva
Võru-eesti sõnaraamatu baasilt on üles ehitatud uus Võru-eesti-võru veebisõnaraamat (synaq.org). Sellega on integreeritud kõik Võru ja seto keelekorpuse projektiga loodud korpused (Uma Lehe ja ajalehe Setomaa korpus, ilukirjanduskorpus ja eesti-võru paralleelkorpus, mida kõiki on täiendatud uute tekstidega). Sõnaraamatust on kujundatud keeleportaal, mis sobitub hästi ka nutiseadmetes kasutamiseks.

Wõru Instituudi TõlkeMasin

Sulev Iva
Reeglipõhine masintõlge eesti ja võru keele vahel.

Ajalehe Setomaa korpus

Sulev Iva
Seo aolehe Setomaa korpus om osa Võro instituudi Võro ja seto keelekorpusõst. Korpusõ om kokko pandnuq Männamaa Kaur aolehe Setomaa lual lehe elektrooniliidsi arhiivõ perrä 2013. aastagal. Seo võrgolehe om kujondanu Männamaa Laura. Korpusõn om parhilla 1031 teksti. Tuu hulgan setokeelitsit tekste 403 (278 879 sõnna) ja eestikeelitsit tekste 628 (227 704 sõnna). Tekstiq ommaq peri aastist 2006 - 2013. Korpusõ kokkopandmist om rahaga tugõnuq riiklinõ programm Eesti keeletehnoloogia.

Võru-eesti paralleelkorpuse kasutajaliides

Sulev Iva
Otsida saab mitu sõna korraga, hetkel miinusmärki väljajättena ei toetata.Vaikimisi otsitakse mitte terveid sõnu vaid sõnesid pikemate sõnede sees.

Võru - eesti paralleelkorpus

Sulev Iva
Paralleelkorpuse tekstid on rida-realt käsitsi joondatud, iga terviktekst eraldi failis, iga keelefaili keel järjekorranumbri taga punktiga eraldatult, ühe keele liit- ja teise lihtlause puhul mõlema keele laused ühel real, tõlke puudumisel rida #-ga välja kommenteeritult jättes paralleelfaili tühja #-ga algava reaga, utf8 vormingus.

Faktituletaja visualiseerimisliides

Sven Laur
Faktituletaja visualiseerimisiidese kasutamiseks käivatada fail "startserver.sh" ning avada brauseriga "index.html" fail. Lisaks tuleb seadistada pakendi tee "settings.py" failis, mis on kataloog, kuhu liides lahti pakkida. Pakendis on kaasas ka mõned demomudelid, mida saab visualiseerijaga uurida.

Estonian Reference Corpus

Kadri Muischnek
The Estonian reference Corpus is a selection of electronic research material that contains written Estonian from 1990 onwards. Raw text corpus. The corpus represents the written language and contains 75% newspaper texts, in lesser extent also fiction, science and legislation texts.

Mitmikute sagedusloendid

Kadri Muischnek
Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal

Tekstide helindaja

Indrek Hein
Heliraamatute genereerija Vox Populi, mis kasutab EKI kõnesünteesi ja hääldusbaasi, et pikemaid tekste helindada.

Registration Year

  • 2019
    99

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    99