Estonian Treebank annotated with coreference relations

View resource name in all available languages

Anafooride suhtes märgendatud Eesti sõltuvuspuude pank

EstAnaphora

This corpus containing ca 107,000 words of running text, is annotated for pronouns and their antecendents. There are 4200 annotated pronouns, among them 3200 are linked with their antecendents. The remaining 1000 pronouns have no clearly identifiable antecendent in text. Majority of the texts come from Estonian newspapers plus one scientific (medical) text, namely an issue of journal „Eesti Arst” (Estonian Doctor).

Programs to convert Estonian dependency trees (VISLCG format) to brat annotations and back (pronoomentykeldaja.pl and brat2inforem) are in the tools folder, authors Kaili Müürisep and Katrin Tsepelina.

View resource description in all available languages

Anafooride suhtes märgendatud korpuses on praegu ca 107000 sõna mahus tekste, milles on u 4200 märgendatud asesõna, millest u 3200 on ühendatud oma viitealusega, ülejäänud tuhandel asesõnal viitealus tekstis puudub. Tekstideks on ajalehetekstid ning üks teadustekst (ajakirja Eesti Arst 2004. aasta aastakäik). Märgendatud on järgmised asesõnad kõigis käändevormides ja nende viitealused:

isikulised asesõnad (mina/ma, sina/sa, tema/ta, meie/me, teie/te, nemad/nad). Kokku on korpuses 1734 isikulist asesõna, neist 1320 on ühendatud viitealustega.
näitav asesõna see esineb korpuses 1489 korral, neist 1084 korral on tal tekstis olemas viitealus.
siduvad asesõnad kes ja mis esinevad tekstis kokku 1053 korda, neist 851 juhul on neil olemas viitealus tekstis.
Programmid, mis teisendavad puudepanga formaadis faili brati märgendajale sobivaks ja tagasi (pronoomentykeldaja.pl ja brat2inforem) on kataloogis tools. Programmide autorid on Kaili Müürisep ja Katrin Tsepelina.

You don’t have the permission to edit this resource.