Estonian National Corpus 2019 (.vrt format)

View resource name in all available languages

Eesti keele ühendkorpus 2019 (.vrt vormingus)

DOI:

10.15155/3-00-0000-0000-0000-08489L

Cite as: Kallas, J., &amp; Koppel, K. (2020). <i>Eesti keele ühendkorpus 2019 (.vrt vormingus)</i>. Center of Estonian Language Resources. https://doi.org/10.15155/3-00-0000-0000-0000-08489L

Corpus is based on Estonian National Corpus 2013, which was renewed by Lexical Computing Ltd. in 2017 and 2019 at the request of Estonian Language Institute.

Subcorpora are: Estonian Reference Corpus 1990-2008, Estonian Web 2013, Estonian Web 2017, Estonian Web 2019, Estonian Wikipedia 2017, Estonian Wikipedia 2019, Estonian Open Access Journals (DOAJ), blogs, discussion, education, fiction, food, health, journals, news, religion, science, sex, society, sports.
Web corpora contain downloaded content of Estonian websites.

File format is .vrt, often used by Korp, SketchEngine and other corpus query systems using CQP.

Tools described at http://corpus.tools were used to create the corpus: SpederLing, JustText, Chared, Onion and wiki2corpus. Corpus is lemmatized, tagged and unified with EstNLTK 1.6 analyzer.

View resource description in all available languages

Korpuse alus on Eesti keele ühendkorpus 2013, mida Lexical Computing Ltd. uuendas 2017. ja 2019. aastal Eesti Keele Instituudi tellimusel.

Korpus on jagatud allkorpustesse:

* DOAJ (avatud lähtekoodiga eestikeelsed teadusajakirjad),
* eesti keele koondkorpus (1990-2008),
* tasakaalus korpus (koondkorpuse tasakaalustatud alamhulk),
* eesti Vikipeedia 2017/2019,
* eesti veeb 2013/2017/2019 (.ee-domeenid, blogid, foorumid, haridus, ilukirjandus, toit, tervis, ajakirjad, uudised, religioon, teadus, seks, ühiskond, sport). Veebikorpuste sisu on internetist alla laetud eestikeelsed veebilehed.

Failid on .vrt-vormingus, mida kasutavad nt Korp, SketchEngine jt CQP-l põhinevad korpusepäringusüsteemid.

Korpuse loomisel on kasutatud aadressil http://corpus.tools kirjeldatud programme: SpederLing, JustText, Chared, Onion and wiki2corpus.

Korpus on lemmatiseeritud, märgendatud ja ühestatud analüsaatori EstNLTK 1.6 abil.

You don’t have the permission to edit this resource.