Eesti veeb 2013 (etTenTen) korpus, morfoloogiliselt ühestatud

Kadri Muischnek
etTenTen korpus (ehk Eesti veeb13) on internetist alla laetud eestikeelsete veebilehtede korpus. Korpuses on 270 miljonit sõna 686 000 veebilehelt. vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html Algmaterjal Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel. Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)
This data center is not currently reporting usage information. For information on how your repository can submit usage information, please see our Documentation.