etTenTen korpus, morfoloogiliselt ühestatud

etTenTen corpus

DOI:

10.15155/1-00-0000-0000-0000-0012EL

etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html

Algmaterjal

Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)

You don’t have the permission to edit this resource.