Vabamorf - open source morphology tagger for Estonian

View resource name in all available languages

Vabamorf - vabavaraline morfoloogiatarkvara eesti keelele

VabamorfVabamorf

Tarkvarapakett koosneb:
1. Morfoanalüsaator määrab sõne vormist lähtudes sõnele vastava lemma, morfoloogilise struktuuri, sõnaliigi ja morfoloogilised kategooriad. Kui sõne on analüüsitav mitmeti, väljastataksegi mitu võimalikku analüüsi;
Analüsaator oskab analüüsida ka sõnesid, millele vastavad sõnad puuduvad morfoloogiatarkvara alussõnastikust. Analüüsifunktsioone välja kutsudes on võimalik spetsifitseerida, kas analüüsida ka alussõnastikust puuduvate sõnade vorme (oletada analüüsi väljundit);
Analüsaator oskab analüüsitavates sõnedes määrata hääldustunnused: rõhulised silbid, palataliseeritult hääldatud häälikutele vastavad tähed ja kolmandavältelised silbid. Võõrpärisnimede puhul pole hääldustunnuste määramine nõutud;
2. Morfosüntesaator sünteesib etteantud lemma või etteantud muutevormide põhjal sõna muutevormi(d), sh muutevormi morfoloogilise struktuuri ja hääldustunnused. Morfosüntesaator oskab sünteesida muutevorme ka sõnadest, mis puuduvad morfoloogiatarkvara alussõnastikust. Sünteesifunktsioone välja kutsudes on võimalik spetsifitseerida, kas sünteesida ka alussõnastikust puuduvate sõnade vorme (oletada sünteesi väljundit);
Sünteesifunktsioon oskab korraga sünteesida kogu muutevormide paradigma.
3. Õigekirjamoodul klassifitseerib sõned õigekeelseteks ja mitte-õigekeelseteks sõnavormideks. Lisaks sellele oskab see moodul leida mingile etteantud sõnele kõik sellele sarnased õigekeelsed sõnavormid, kasutades etteantud sarnasusmeetrikat;
4. Eesti keele speller, mis sobib Libre Office’ile ja OpenOffice.org 3.0.1 või uuematele versioonidele. Kasutatav platvormidel MS Windows, Linux, Macintosh.
5. Morfoloogilise analüüsi ühestaja leiab mitme analüüsiga sõnedele automaatselt kõige tõenäolisema analüüsi, kasutades lause- ja/või dokumendikonteksti. Soovitatavalt oskab ühestaja määrata kõikidele ühestamiseks etteantud analüüsidele kontekstist sõltuvad tõenäosused. Ühestaja kood peab olema eraldatud muust morfoloogilise analüüsi koodist.
6. Sõnastik. Morfoloogiatarkvara tööks vajaliku sõnastiku algteksti formaat on inimloetav ja põhjalikult dokumenteeritud. Morfoloogiatarkvara alussõnastiku täiendamisel kasutaja poolt on võimalik tagada sõnastiku vastavus formaadile (nt võib implementeerida sõnastiku valideerija, mis kontrollib, kas sõnastik vastab paika pandud formaadile ja osutab kindlatele ja võimalikele vigadele). Sõnastik kasutab UTF-8 kodeeringut.

You don’t have the permission to edit this resource.