Estonian Coursebook Corpus sentences 2020 (archived)

View resource name in all available languages

Eesti keele A1-C1 õpikute lausete korpus 2020 (arhiveeritud)

DOI:

10.15155/3-00-0000-0000-0000-0848BL

Please use DOI in citation: https://doi.org/10.15155/3-00-0000-0000-0000-0848BL

Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2018 (DOI:10.15155/3-00-0000-0000-0000-071E9L), mille morfoloogiline märgendus on uuendatud. Nimetatud korpuse aluseks oli omakorda Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti semantiliselt terviklikud laused, kontekstisidusad ja valesti tuvastatud laused eemaldati). Korpuse morfoloogiline märgendus on uuendatud, kasutatud on estNLTK 1.6 versiooni.

Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause <sentence> ja osalause <clause>. Korpus sisaldab ka korduvaid lauseid. Kõik laused on varustautd allika ja keeleoskustasemega.

Korpuses on kaheksa õpikut:
Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus.
Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus.
Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik.
Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium.
Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti.
Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium.
Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak.
Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita.
Seitse esimest õpikut digitaliseeriti Eesti Rahvusraamatkogu digitaliseerimiskeskus. Sirje Rammo jt (2012) õpikust on kasutatud käsikirja doc-faile.
Korpus on UTF-8 kodeeringus. Korpus on lemmatiseeritud, märgendatud ja ühestatud analüsaatori EstNLTK abil.
Korpus loodi Eesti Keele Instituudi ja Lexical Computing Ltd. (https://www.sketchengine.co.uk/) koostöös.

You don’t have the permission to edit this resource.