Samples of Spoken Finnish

View resource name in all available languages

Suomen kielen näytteitä

SKN

The Institute for the Languages of Finland (Kotus) published the printed series Suomen kielen näytteitä (SKN) during the years 1978-2000. A total of 50 booklets appeared, each of which contains the transcripts of approximately two hours of dialect speech. The locations that were selected for the series are well representative of the Finnish dialectal regions.

Using the audio recordings in the Audio Archive of Finnish at Kotus, a database was created for the LAT platform, containing both the audio recordings and the text aligned with audio. For the time being, the access rights can be obtained by contacting FIN-CLARIN at finclarin@helsinki.fi. The corpus is available for research and teaching only.

The text has been roughly aligned with the audio on a per sentence basis. Each word in the original dialect transcripts has been associated with a corresponding form in standard language. Please note that this is teh first version of the aligned corpus and the standardization is still very tentative. Not everything has been manually checked and corrected.

The original audio recordings have been processed by Sakari Pietilä. The text and audio have been manually aligned by My Sjöholm, Pauliina Liuska and Olli Miettinen. The file conversions for LAT were performed by Mietta Lennes. The normalized word readings have been created by Maria Vilkuna and Pauliina Liuska.

View resource description in all available languages

Kotimaisten kielten tutkimuskeskus julkaisi Suomen kielen näytteitä (SKN) -sarjaa vuosina 1978–2000. Yhteensä ilmestyi 50 kirjasta, joissa jokaisessa on litteroituna noin kaksi tuntia murretta. Sarjaan valitut pitäjät edustavat kattavasti eri murrealueita. Aineistona ovat olleet pääasiassa Suomen kielen nauhoitearkiston äänitteet. Alkuperäisestä SKN-sarjasta on luotu tämä LAT-tietokanta, joka sisältää sekä äänitteet että niihin kohdistetun tekstin. SKN-korpuksen käyttöoikeuden voi toistaiseksi saada pyytämällä sitä osoitteesta finclarin@helsinki.fi. Korpusta voidaan käyttää ainoastaan tutkimuksessa ja opetuksessa.

Korpuksen .eaf-, .wav- ja .m4a-muotoisia tiedostoja voi selailla ja kuunnella verkon kautta. Napsauta kyseistä tiedostoa hiiren oikealla napilla ja valitse "view node" tai .eaf-tiedostolla "view in Annex", jolloin näet myös ääneen kohdistetut tekstikerrokset. Tiedostoja voi myös ladata yksitellen omalle koneelleen komennolla "download".

Tekstin ja äänen kohdistus on tehty karkeasti virkkeittäin. Lisäksi jokaiseen alkuperäisen litteraation sanaan on liitetty alustava yleiskielinen muoto. Huomaa kuitenkin, että yleiskielistys on vasta hyvin alustava, koska kaikkea ei ole vielä käsin tarkastettu ja korjattu. Alkuperäistä litteraatiota edustavat annotaatiokerrosten tyypit "original sentence" ja "original word", ja näiden alustavia yleiskielistyksiä tyypit "normalized sentence" ja "normalized word". Lisäksi jokaisen virkkeen ja sanan kohta on merkitty id-numerolla, joka vastaa Kotuksen alkuperäisissä xml-tiedostoissa olevia yksiköitä (kerrostyypit "sentence ID" ja "word ID"). Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta skn-solmua hiiren oikealla napilla ja valitse "annotation content search").

Alkuperäisen ääniaineiston on käsitellyt Sakari Pietarila. Tekstin ja äänen ovat Kotuksessa alustavasti kohdistaneet My Sjöholm, Pauliina Liuska ja Olli Miettinen. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes. Yleiskielistyksestä ovat vastanneet Kotuksessa Maria Vilkuna ja Pauliina Liuska.

Huomaa, että tämä korpusversio on alustava ja saattaa sisältää runsaasti virheitä! Korpuksesta ilmestyy myöhemmin uusi, paranneltu ja täydennetty versio.

You don’t have the permission to edit this resource.