Web13 corpus (etTenTen), unannotated

View resource name in all available languages

Veebikorpus13 (etTenTen), toortekst

Veebikorpus13etTenTen corpus

etTenTen korpus (ehk Veebikorpus13) on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html

Algmaterjal

Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)

You don’t have the permission to edit this resource.