82 Works

Esterm v20180302

Tiina Soon
Esterm on Eesti Keele Instituudi mitmekeelne terminibaas, mis sisaldab peamiselt Euroopa Liidu ja Eesti Vabariigi õigusaktide termineid. Terminibaas koondab üle 50 valdkonna terminoloogiat.

Militerm v20180801

Tiina Soon
Militerm on sõjanduse, julgeoleku- ja kaitsepoliitika terminite andmebaas, kus saab märksõnu otsida eesti, inglise, prantsuse ja saksa keeles. Eesti- ja ingliskeelsete terminite juures on ka oskussõnade definitsioonid.

Esterm v20180302

Tiina Soon
Esterm on Eesti Keele Instituudi mitmekeelne terminibaas, mis sisaldab peamiselt Euroopa Liidu ja Eesti Vabariigi õigusaktide termineid. Terminibaas koondab üle 50 valdkonna terminoloogiat.

Emotsioonidetektor Google Chrome'i laiendusena

Hille Pajupuu
Emotsioonidetektoriga saab hinnata veebikirjutise emotsionaalset mõju. Selleks tuleb esmalt emotsioonidetektor installeerida, seejärel välja valida tekst ja klikata ikoonile. Detektor annab tekstile üldhinnangu: neutraalne, positiivne, negatiivne või vastuoluline. Tekstis märgitakse ära emotsioonitaju mõjutavad võtmesõnad ning ortograafiliste tekstilõikude emotsionaalsus (lilla - negatiivne, roheline - positiivne, kollane - vastuoluline, hall - ekstreemne).

Ersa prosoodia korpus

Pärtel Lippus
Ersa sõnaprosoodia uurimiseks kogutud andmestik. Sisaldab raamlauses loetud testsõnu 8 keelejuhilt. Iga keelejuht luges 100 lauset, iga lause sisaldas testsõna kord lause keskel, kord lause lõpus. Vt lähemalt: Lehiste, I., Aasmäe, N., Meister, E., Pajusalu, K., Teras, P., & Viitso, T.-R. (2003). Erzya prosody. Helsinki: Finno-Ugrian Society.

Eesti keele A1-C1 õpikute korpus 2018

Jelena Kallas & Kristina Koppel
Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Kõik korpuse laused on keeletaseme piirides unikaalsed. Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti...

Eesti keele A1-C1 õpikute korpus 2018

Jelena Kallas & Kristina Koppel
Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Kõik korpuse laused on keeletaseme piirides unikaalsed. Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti...

Keelehoiakud Eesti keelekeskkondades 2015

Andres Karjus & Martin Ehala
Tartu Ülikooli uurimisprojekti Eesti keele kestlikkus avatud maailmas (EKKAM) tellimusel 2015. aasta kevadel Eestis läbi viidud keelehoiakuid puudutava küsimustiku vastused. Demograafiliselt tasakaalustatud valimis on 1006 vastajat vanuses 15-74. Küsimused hõlmavad vastajate demograafilist infot, keeleoskust, igapäevaseid keelevalikuid, keelehoiakuid, keelepoliitilisi vaateid. Küsimustikule oli võimalik vastata nii eesti kui vene keeles, vastavalt küsitletava valikule (ankeedi valik on andmestikus salvestatud). Andmestikus on 200 tunnust, millest suurema osa moodustavad küsimuste vastused, lisaks mõned küsimuste vastustest tuletatud tunnused. Andmestikuga kaasas on...

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Taxonomy Extracted from Estonian Wikipedia Text 1.0

Eduard Barbu
The taxonomy is in an xml file and it has a structure compose of elements called “doc"

EstNLTK teek Pythoni jaoks (ver.1.4)

Sven Laur
Loodud EstNLTK teek 1.4 koondab keeletehnoloogilised tööriistad ühtseks tervikuks: - olemasolevad tööriistad liidestatud EstNLTK teegiga, - andmevahetus toimub struktureeritult läbi Python-i klasside, - iga komponendi ja analüüsi jaoks on loodud ülevaatlikud juhendmaterjalid. Teegi kasutamine muudab kättesaadavaks peamised keeletehnoloogilised operatsioonid: - lausestamine ja sõnestamine, - morfoloogiline analüüs, - osalausestamine, - ajaväljendite tuvastus, - nimeolemite tuvastus, - verbifraaside tuvastus, - nimisõnafraaside tuvastus, - omadussõnafraaside tuvastus, - pindsüntaktiline analüüs.

EstNLTK teek Pythoni jaoks (ver.1.6.2b)

Sven Laur
EstNLTK teegis on kergesti kohandatav ning robustne lingvistilise analüüsi töövoog, mis toimib ka kirjakeelest oluliselt erinevatel tekstidel. Sõltuvalt tekstide eripärast on võimalik kohandada sõnestamist, lausestamist ja morfoloogilist analüüsi. Vaikimisi kasutatakse EKT67 projektis ja Koondkorpuse analüüsi abil leitud lihtsustus- ja normaliseerimisreegleid. Töö tulemust valideeriti läbi Koondkorpuse ja etTenTen- i täieliku analüüsi.

Eesti keele õppekorpus 2018 (etSkELL) 2018-04

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). GDEXi skoorid on parandatud vastavalt uuele GDEXi konfuguratsioonile. Eesti keele õppekorpuse 2018 (etSkELL) suurus on u...

Koond-ner

Sven Laur
Estonian Reference Corpus* with NER annotations NER annotations were produced with Estnltk toolkit and include entities of a type person (PER), organisation (ORG), location (LOC) and timex (TIMEX). The corpus archive contains two subdirectories - tok and lbl. Tok directory contains original text files which are word and sentence tokenised, while the lbl directory contains corresponding NER annotations. * Estonian Reference Corpus http://www.cl.ut.ee/korpused/segakorpus/

Segakorpus: Riigikogu ver.2.0

Kadri Muischnek
Riigikogu korpus. TEI P5 XML märgendus, UTF8 kodeering. Morfoloogiline analüüs ja ühestamine, automaatselt tehtud.

Eesti keele spontaanse kõne foneetiline korpus v.1.0.4

Pärtel Lippus
The aim of the corpus is to compile a large amount of quality recordings of spontaneous Estonian and segment it phonetically on different levels. The project started in autumn 2006. The total size of the corpus is approximately 90 hours of speech from 130 speakers with different dialectological and social background. Speakers are from different age groups. They are asked to participate with face-to-face invitation and they are aware of the purpose of the recordings....

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Eesti keele õppekorpus 2018 (etSkELL) 2018-01

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). Eesti keele õppekorpuse 2018 (etSkELL) suurus on u 250 000 sõna ja u 25 miljonit lauset....

Eesti keele õppekorpus 2018 (etSkELL)

Jelena Kallas & Kristina Koppel
Eesti keele õppekorpus 2018 (etSkELL) on spetsiaalne tekstikorpus, mis sisaldab ainult keeleõppijale sobivaid lauseid. Laused pärinevad Eesti keele ühendkorpusest 2017 ja Eesti keele A1-C1 õpikute korpusest 2018. Keeleõppijale sobivate lausete tuvastamiseks kasutati Kristina Koppeli välja töötatud eesti keele GDEXi (Good Dictionary Example) moodulit, mis võimaldab lausete filtreerimist vastavalt etteantud parameetritele (nt lause pikkus, kirjavahemärkide arv ühe lause piires jmt). Eesti keele õppekorpuse 2018 (etSkELL) suurus on u 248 000 sõna ja u 25 miljonit lauset....

Eesti keele ühendkorpus 2017

Jelena Kallas & Kristina Koppel
Korpus on loodud Eesti Keele Instituudi ja Lexical Computing Ltd. koostöö raames. Korpuse suurus on 1,3 miljardit sõnet. Korpuse alus on Eesti keele ühendkorpus 2013, mida Lexical Computing Ltd. uuendas 2017. aastal Eesti Keele Instituudi tellimusel. Allkorpused on Eesti keele koondkorpus 1990-2008, Eesti keele veebikorpus 2013, Eesti keele veebikorpus 2017 ja Eesti Vikipeedia 2017 korpus. Veebikorpuste sisu on internetist alla laetud eestikeelsed veebilehed. Korpuse loomisel on kasutatud aadressil http://corpus.tools kirjeldatud programme: SpederLing, JustText, Chared, Onion...

Eesti regilaulud

Risto Järv & Janika Oras
Regilaulude andmebaas sisaldab 85 490 regilauluteksti, ligi kaks kolmandikku Eesti Rahvaluule Arhiivis talletatud regilaulutekstidest. Andmebaasist leiab vanema osa regilaulude kirjapanekutest – 19. sajandil ja 20. sajandi algukümnenditel kogutud tekstid. Lisaks regilauludele on andmebaasis ka u 6000 siirdevormilist ja lõppriimilist laulu. Tekste lisatakse järjest juurde. Andmebaasi on võimalik kasutada nimetatud veebilehe kaudu või (ühtse tekstikorpusena kasutamiseks) kontakteerudes kontaktisikutega.

Eesti kohanimeraamat

Peeter Päll & Marja Kallasmaa
Etümoloogiline sõnaraamat, mis sisaldab Eesti kõik ametlikud külanimed ja valikuliselt teisi Eesti kohanimesid.

Segakorpus: Riigikogu ver.2.0

Kadri Muischnek
Riigikogu korpus. TEI P5 XML märgendus, UTF8 kodeering. Morfoloogiline analüüs ja ühestamine, automaatselt tehtud.

Vox populi - tekstide helindaja

Indrek Hein
Vox populi e rahva hääl koosneb kahest komponendist: tekstide helindajast (siinne leht) ja hääldussõnastikust koos keelereegleid realiseerivate programmikestega. Nende kahe koostöös ja Eesti Keele Instituudi kõnesünteesi kaasates saab teie saadetud tekstifailist lõpptulemusena sünteeshäälega audiofail. Litsents: http://www.eki.ee/eki/litsents.html.

Koondkorpus analüüsitud estnltk ver.1.6.b abil - json vormingus

Sven Laur
Koondkorpus analüüsitud estnltk ver.1.6.b abil - json vormingus

Registration Year

  • 2018
    82

Data Centers

  • Keeleressursid. The Center of Estonian Language Resources
    82