82 Works

Kõnesünteesi kõnekorpus Eva

Liisi Piits
Tulemust on kasutatud eestikeelsete sünteeshäälte loomiseks, korpus on kõnesünteesi akustiliseks baasiks.

Aktsendikorpus

Einar Meister
salvestati 10 leedu emakeelega keelejuhti, segmenteeriti käsitsi 6 jaapani, 7 rootsi ja 20 läti keelejuhi vältevastandustega sõnu sisaldavad laused, kokku 1566 lauset

Eestikeelne kõnesüntees

Meelis Mihkla
Kõnesünteesikeskkond koondab endas eesti keele tekst-kõne sünteesi erinevaid variante, rakendusi, liideseid ja muid materjale, mis sünteesimiseks on loodud. Kuulata saab erinevaid eestikeelseid sünteeshääli ning neid ka alla laadida. Samuti saab alla laadida sünteesi kasutavaid rakendusi nii nutitelefonidele kui ka arvutitele.

Estonian Wordnet (kb69a)

Heili Orav
The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. All words in a synset belong into the same part of speech.

Kõnesünteesi kõnekorpus Eva

Liisi Piits
Tulemust on kasutatud eestikeelsete sünteeshäälte loomiseks, korpus on kõnesünteesi akustiliseks baasiks.

Eesti keele segakorpus: Seadused

Kadri Muischnek
Eesti ja Euroopa seadusetekstide korpus. TEI P5 XML märgendus, UTF8 kodeering.

Eesti emotsionaalse kõne korpus

Hille Pajupuu
Korpus sisaldab 1234 eestikeelset viha-, rõõmu- ja kurbuse emotsiooniga lauset ning neutraalset lauset. Naishääl, 44.1 KHz, 16Bit, Mono; wav, textgrid: häälikud, sõnad, laused. Lausete heli ja teksti saab alla laadida ja salvestada.

Estonian Wordnet (kb72-LAST)

Heili Orav & Kadri Vare
Eesti Wordnetis (versioon 72) on praeguse seisuga (oktoober 2015) 74 720 mõistet, milles sõnu 101 761, semantilisi suhteid 239 719 ja seoseid Princetoni Wordnetiga (1.5) 108 202. Kõik mõisted on varustatud vähemalt ühe keelesisese suhtega ja vähemalt ühe ILI-suhtega.

Eesti-vene sõnaraamat

Jelena Kallas
Eesti-vene sõnaraamat sisaldab tänapäeva eesti kirjakeele põhisõnavara, hulgaliselt erialatermineid, aga ka keeles kinnistunud uut ja moodsat ainest. Sõnavaliku aluseks on õigekeelsussõnaraamatu märksõnastik ja Eesti Keele Instituudis koostatud kirjakeele seletussõnaraamat. Eesti näitestik põhineb paljuski kirjakeele seletussõnaraamatul.

Estonian Wordnet (kb71-STABLE)

Heili Orav
Eesti Wordnetis (versioon 71) on praeguse seisuga (veebruar 2015) u 73 000 mõistet, milles sõnu u 98 700, semantilisi suhteid üle 230 000 ja ingliskeelseid suhteid üle 105 000. Kõik mõisted on varustatud vähemalt ühe keelesisese suhtega ja vähemalt ühe ILI-suhtega.

Põhjatuule ja päikese korpus v.1.0.2

Pärtel Lippus
Recordings of the tale “Põhjatuul ja päike” (North Wind and the Sun) read by the same speakers who participated in the Phonetic Corpus of Estonian Spontaneous Speech. Most of the speakers read the text two times. The text is annotated using Praat TextGrids: words in standard orthography and phonemes in SAMPA.

Eesti keele puudepank

Kadri Muischnek
Morfoloogiliselt ja sõltuvussüntaktiliselt analüüsitud eestikeelsed tekstid, kokku umbes 400 000 sõna 30 000 lauses. Tekstid on pärit eesti keele Tasakaalus korpusest http://www.cl.ut.ee/korpused/grammatikakorpus/ ja Koondkorpusest http://www.cl.ut.ee/korpused/segakorpus/ ning jagunevad ilukirjanduse, ajakirjanduse, teaduse ja populaarteaduse tekstiklasside vahel. Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi. Publikatsioon: Muischnek, Kadri; Müürisep, Kaili; Puolakainen Tiina (2014). Dependency Parsing of Estonian : Statistical and Rule - based Approaches Human Language Technologies - The Baltic...

Corpus of Radio News

Einar Meister
Radio News of Estonian Public Broadcasting

Eesti puudepanga korpus

Kaili Müürisep
Estonian Treebank is available both in the VISL and TigerXML format. Esttre consists of ca 1400 manually annotated sentences (10600 tokens), the text classes represented in the Corpus are fiction, both translated and original, newspaper texts and 20 sentences of transcribed spoken language.

Vana kirjakeele korpus

Külli Prillop
The Corpus is geared towards researchers of the history and development of written Estonian. The texts included are from 16.-18. century. From 16th century all known printed and hand-written texts have been included, except for lists of place and person names. For 17. and 18. century a choice of more important authors and text types has been included. Both northern and southern Estonian dialects, secular as well as religious texts are represented. Excluded from the...

Eesti-prantsuse paralleelkorpus

Madis Jürviste
Aligned parallel translation corpus containing 65 million words (including both languages).

Nimeüksuste korpus

Sven Laur
Corpus containing morphologically analyzed articles with named entity annotations (persons, organizations, locations) in BOI format.

Inglise-eesti masintõlkesõnastik

Indrek Hein
Jooksvalt täienev inglise-eesti veebisõnastik, mis on abiks tõlkimisel ja toetab ka masintõlget. Sõnastikus on praegu ligi 90 000 ingliskeelset sõna ja püsiühendit Sõnastik on loodud hobi korras ning ei pruugi vastata Eesti Keele Instituudi kvaliteedistandardile.

Eesti Keele Instituudi tekstikorpus

Indrek Hein
EKI tekstikorpus on koostatud juhuslikult kogutud materjalist (10,4 miljonit sõnavormi; u 80% ulatuses ajalehetekstid) ja pole seega 'representatiivne'. Ka ei ole korpus märgendatud, sobides eelkõige leksikaalse materjali otsinguks.

Sagedussõnastik

Kadri Muischnek
Sagedusloendid, mis on tehtud 0,5 miljoni sõnaga ilukirjanduse korpuse baasil (aastatest 1992-1998) ja 0,5 miljoni sõnaga ajakirjanduse korpuse baasil (1995-1999). Kolm sagedusloendit sõnade ja nende sagedustega alamkorpustest ning koondkorpuses 10 000 lemmat (sõnaliikidega) 1000 sagedasemat sõnavormi, 100 sõna, mis on iseloomulikud ainult ühele allkorpusele, kuid puuduvad teises.

Aligned Estonian-Icelandic ICD-10

Kadri Muischnek
Aligned Estonian and Icelandic versions of WHO-s International Classification of Diseases (ICD-10)

Registration Year

  • 2015
    82

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    82