Estonian National Corpus 2021 - vert

View resource name in all available languages

Eesti keele ühendkorpus 2021 - vert

DOI:

10.15155/3-00-0000-0000-0000-08E60L

Please use DOI in citation: https://doi.org/10.15155/3-00-0000-0000-0000-08E60L

Cite as: Koppel, Kristina; Kallas, Jelena (2022). Eesti keele ühendkorpus 2021. DOI: 10.15155/3-00-0000-0000-0000-08E60L


Subcorpora are Reference Corpus, incl. Balanced Corpus; Estonian Web 2013, 2017, 2019, 2021; Wikipedia 2021, Wikipedia Talk 2017; DOAJ, Estonian Feeds 2014-2021; Literature.
Documents are dividend into 6 genres and 24 topics. Genres are academic writing, blogs, encyclopedia, forums, periodicals, e-commerce. Topics are history; cars; construction & real estate;, education; gambling & casinos; beauty; technology & IT; home, family & children; culture & entertainment; economy, finance & business; nature & environment; pets and animals; women; politics & government; agriculture; travel & tourism; religion; sex; sports; science; health; food & drinks; video games; law & justice.

Includes 2 945 431 278 word units, 2 410 296 919 words, 196 615 233 sentences, 64 500 162 paragraphs, 11 744 940 documents.

View resource description in all available languages

Viita kui: Koppel, Kristina; Kallas, Jelena (2022). Eesti keele ühendkorpus 2021. DOI: 10.15155/3-00-0000-0000-0000-08E60L


Allkorpused on eesti keele koondkorpus, sh tasakaalus korpus; eesti keele veebikorpused 2013, 2017, 2019 ja 2021; Vikipeedia 2021, sh Vikipeedia Talk 2017; avatud lähtekoodiga teadusartiklite korpus DOAJ; uudisvoogude allkorpus 2014-2021; kirjanduse allkorpus.

Korpuse tekstid on klassifitseeritud kuude žanrisse ning 24 teemasse. Žanrid on akadeemiline kirjutamine, blogid, entsüklopeedia, foorumid, perioodika, veebikaubandus; teemad ajalugu, autod, ehitus ja kinnisvara, haridus, hasartmängud, ilu, IT ja tehnoloogia, kodu, pere ja lapsed, kultuur ja meelelahutus, majandus, rahandus ja äri, loodus ja keskkond, loomad, naised, poliitika ja valitsemine, põllumajandus, reisimine ja turism, religioon, seks, sport, teadus, tervis, toit ja joogid, videomängud, õigus.

Korpus sisaldab 2 945 431 278 sõnet, 2 410 296 919 sõna, 196 615 233 lauset, 64 500 162 lõiku, 11 744 940 dokumenti.

You don’t have the permission to edit this resource.

People who downloaded this resource also downloaded the following: