435 Works

EstNLTK sentence splitting

Sven Laur
Estonian NLTK toolkit - detecting sentence boundaries

Ersa prosoodia korpus

Pärtel Lippus
Ersa sõnaprosoodia uurimiseks kogutud andmestik. Sisaldab raamlauses loetud testsõnu 8 keelejuhilt. Iga keelejuht luges 100 lauset, iga lause sisaldas testsõna kord lause keskel, kord lause lõpus. Vt lähemalt: Lehiste, I., Aasmäe, N., Meister, E., Pajusalu, K., Teras, P., & Viitso, T.-R. (2003). Erzya prosody. Helsinki: Finno-Ugrian Society.

Süntaksi eeltöötlusmoodulid (EtTenTen formaadile)

Kaili Müürisep & Kristiina Vaik
Selle süntaksianalüüsi-eelse eeltöötlusmooduli versioon on mõeldud etTenTeni korpuse tekstitüüpide (perioodika, valitsus, religioon, informatiivne, unknown, foorum ja blogi) jaoks. Moodulist on kaks versiooni. Esimene versioon on mõeldud perioodika, valitsuse, religiooni, informatiivse ja tundmatu tekstitüübile (eeltootlus_ettenten.py, ettenten_patterns.py), teine versioon on mõeldud foorumi ja blogi tekstitüübile (eeltootlus_ettenten_blg_frm.py, ettenten_patterns_blg_frm.py).

Eesti Keele Instituudi fonoteek

Liis Ermus
Eesti Keele Instituudi fonoteegi leheküljel saab kuulata eesti murrete, soome-ugri keelte ja väliseesti keele helinäiteid.

Eesti veeb 2013 (etTenTen) korpus, morfoloogiliselt ühestatud

Kadri Muischnek
etTenTen korpus (ehk Eesti veeb13) on internetist alla laetud eestikeelsete veebilehtede korpus. Korpuses on 270 miljonit sõna 686 000 veebilehelt. vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html Algmaterjal Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel. Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)

Eesti-norra sõnaraamat

Ülle Viks
Sisaldab u 19 000 eesti ja 21 000 norra märksõna, millele on lisatud grammatilised andmed ja hulgaliselt näiteid sõnade kasutamise kohta. Raamatus on ka lühiülevaated eesti ja norra keelest. Turid Farbregd, Sigrid Kangur, Ülle Viks. Norra-eesti : eesti-norra sõnaraamat. Eesti Keele Sihtasutus. Tallinn 1998, 2. trükk 2005 (3. trükk ilmub 2013).

Corpus of Estonian law texts D

Kadri Muischnek
Corpus of law texts in Estonian, contains Estonian legislation and European legislation in Estonian. 11 million words. Markup: TEI P5 XML Encoding: UTF8

Aktsendikorpus

Einar Meister
salvestati 10 leedu emakeelega keelejuhti, segmenteeriti käsitsi 6 jaapani, 7 rootsi ja 20 läti keelejuhi vältevastandustega sõnu sisaldavad laused, kokku 1566 lauset

Taxonomy Extracted from Estonian Wikipedia Text 1.0

Eduard Barbu
The taxonomy is in an xml file and it has a structure compose of elements called “doc"

Liivi prosoodia korpus

Pärtel Lippus
Korpus koosneb 12 keelejuhi salvestustest, kes loevad liivikeelseid lauseid. Loend koosneb 102st lausest, kus igas lauses on üks testsõna osalause lõpus ja teine testsõna lause lõpus. Osa keelejuhte loeb sarnast lätikeelset sõnaloendit. Materjal kasutati liivi sõnarposoodia uurimiseks, uurimus on avaldatud: Lehiste, I., Teras, P., Ernštreits, V., Lippus, P., Pajusalu, K., Tuisk, T., & Viitso, T.-R. (2008). Livonian prosody. Helsinki: Suomalais-ugrilainen Seura.

MILITERM

Tiina Soon
MILITERM on sõjanduse, julgeoleku- ja kaitsepoliitika terminite andmebaas, kus saab märksõnu otsida eesti, inglise, prantsuse ja saksa keeles. Eesti- ja ingliskeelsete terminite juures on ka oskussõnade definitsioonid.

Hariduse ja kasvatuse sõnaraamat

Indrek Hein
Sisaldab 4850 terminit mitmesugustelt hariduse ja kasvatuse aladelt: kasvatus ja areng, alusharidus, põhi- ja keskharidus, kutse- ja kõrgharidus, andragoogika, eripedagoogika jne. Igale eesti terminile on antud inglise, saksa, soome ja vene vaste ning enamasti ka seletus.

Maailma maade nimed

Tiina Laansalu
Loendi aluseks on Emakeele Seltsi keeletoimkonna poolt 1996. aastal läbi arutatud väliskohanimede (sh riiginimede) kirjapilt keelekorraldussõnaraamatu kohanimelisas. Loendit on hiljem pidevalt täpsustatud ja ajakohastatud. Loend on ühtlustatud standardis ISO 3166-1 antud valikuga.

Eesti ilukirjanduse korpus

Kadri Muischnek
Eesti ilukirjanduse korpus alates 1990. Kokku 5,6 miljonit sõna.

Ametniku soovitussõnastik

Tiina Paet
Sõnastik kõigile neile, kellel on vaja kirjutada ametliku sisuga kirjakeelset teksti. Sõnastik pakub nõuandeid ja soovitusi, kuidas väljenduda lihtsamalt, selgemalt ja täpsemalt.

Haridussõnastik

Indrek Hein
Sisaldab 4850 terminit mitmesugustelt hariduse ja kasvatuse aladelt: kasvatus ja areng, alusharidus, põhi- ja keskharidus, kutse- ja kõrgharidus, andragoogika, eripedagoogika jne. Igale eesti terminile on antud inglise, saksa, soome ja vene vaste ning enamasti ka seletus.

Sketch Engine eesti keele õppijale (etSkELL)

Jelena Kallas & Kristina Koppel
etSkELL on automaatselt loodud keeleõppekeskkond, mille alus on Eesti keele õppekorpus 2018. Korpus sisaldab umbes 25 miljonit lauset ja 250 miljonit sõna. Laused on pärit erinevatest meedia-, ilukirjandus- ja teadustekstidest ning eestikeelsest Vikipeediast ja Eesti keele A1-C1 õpikute korpusest 2018. etSkELL arendati välja Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös.

Tekstide helindaja

Indrek Hein
Heliraamatute genereerija Vox Populi, mis kasutab EKI kõnesünteesi ja hääldusbaasi, et pikemaid tekste helindada.

Huviharidussõnastik

Indrek Hein
Sõnastik sisaldab huvidele vastava õppetöövälise hariduse valdkonda kuuluvaid mõisteid koos tähenduse seletuse ning vastetega inglise, saksa, soome ja vene keeles.

Kirjandusajalooline veebikeskkond "ERNI. Eesti kirjanduslugu tekstides 1924 – 1925"

Marin Laak & Tiina Saluvere
ERNI on kirjandusloo õppeprogramm, mis esitab materjale 1920. aastate kirjanduselu kohta. ERNI kujutab üht kirjandusloo peatükki, eesti kirjanduse 1920. aastaid interaktiivses keskkonnas, tervikliku kirjandusajaloolise ruumina. ERNI sisaldab raamatukogu, kriitikaantoloogiat, fotogaleriid, autorite tutvustusi, kirjanduslike terminite sõnastikku ja ajatelge. Gümnaasiumi kirjandustundideks leiab abi küsimustikust ja kirjandiõpetusest. Kriitika ajaloo kursust kõrgkoolis saab elavdada kasutades programmi intertekstuaalse ja retseptsiooniajaloolise tekstide koguna. ERNIs leiduvad trükimaterjalid pärinevad Eesti Kirjandusmuuseumi Arhiivraamatukogust, kirjanike fotod Kultuuriloolise Arhiivi fotokogust (Vanemuise 42, Tartu). Raamatute kujundused on...

Registration Year

  • 2015
    82
  • 2016
    90
  • 2017
    71
  • 2018
    82
  • 2019
    109