Estonian Coursebook Corpus 2020

View resource name in all available languages

Eesti keele A1-C1 õpikute korpus 2020

DOI:

10.15155/3-00-0000-0000-0000-0848BL

Cite as: Kallas, J., &amp; Koppel, K. (2020). <i>Eesti keele A1-C1 õpikute korpus 2020</i>. Center of Estonian Language Resources. https://doi.org/10.15155/3-00-0000-0000-0000-0848BL

Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2018 (DOI:10.15155/3-00-0000-0000-0000-071E9L). Korpuse morfoloogiline märgendus on uuendatud, kasutatud on estNLTK 1.6 versiooni.

Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause <sentence> ja osalause <clause>. Kõik korpuse laused on keeletaseme piirides unikaalsed.
Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti semantiliselt terviklikud laused, kontekstisidusad ja valesti tuvastatud laused jäeti välja).
Korpuses on kaheksa õpikut:
Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus.
Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus.
Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik.
Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium.
Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti.
Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium.
Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak.
Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita.
Seitse esimest õpikut digitaliseeriti Eesti Rahvusraamatkogu digitaliseerimiskeskus. Sirje Rammo jt (2012) õpikust on kasutatud käsikirja doc-faile.
Korpus on UTF-8 kodeeringus. Korpus on lemmatiseeritud, märgendatud ja ühestatud analüsaatori EstNLTK abil.
Korpus loodi Eesti Keele Instituudi ja Lexical Computing Ltd. (https://www.sketchengine.co.uk/) koostöös.

You don’t have the permission to edit this resource.