Samples of Spoken Finnish

134 Last view: 2026-05-08

Samples of Spoken Finnish

View resource name in all available languages

Suomen kielen näytteitä

SKN

http://lat.csc.fi/

The Institute for the Languages of Finland (Kotus) published the printed series Suomen kielen näytteitä (SKN) during the years 1978-2000. A total of 50 booklets appeared, each of which contains the transcripts of approximately two hours of dialect speech. The locations that were selected for the series are well representative of the Finnish dialectal regions.

Using the audio recordings in the Audio Archive of Finnish at Kotus, a database was created for the LAT platform, containing both the audio recordings and the text aligned with audio. For the time being, the access rights can be obtained by contacting FIN-CLARIN at finclarin@helsinki.fi. The corpus is available for research and teaching only.

The text has been roughly aligned with the audio on a per sentence basis. Each word in the original dialect transcripts has been associated with a corresponding form in standard language. Please note that this is teh first version of the aligned corpus and the standardization is still very tentative. Not everything has been manually checked and corrected.

The original audio recordings have been processed by Sakari Pietilä. The text and audio have been manually aligned by My Sjöholm, Pauliina Liuska and Olli Miettinen. The file conversions for LAT were performed by Mietta Lennes. The normalized word readings have been created by Maria Vilkuna and Pauliina Liuska.

View resource description in all available languages

Kotimaisten kielten tutkimuskeskus julkaisi Suomen kielen näytteitä (SKN) -sarjaa vuosina 1978–2000. Yhteensä ilmestyi 50 kirjasta, joissa jokaisessa on litteroituna noin kaksi tuntia murretta. Sarjaan valitut pitäjät edustavat kattavasti eri murrealueita. Aineistona ovat olleet pääasiassa Suomen kielen nauhoitearkiston äänitteet. Alkuperäisestä SKN-sarjasta on luotu tämä LAT-tietokanta, joka sisältää sekä äänitteet että niihin kohdistetun tekstin. SKN-korpuksen käyttöoikeuden voi toistaiseksi saada pyytämällä sitä osoitteesta finclarin@helsinki.fi. Korpusta voidaan käyttää ainoastaan tutkimuksessa ja opetuksessa.

Korpuksen .eaf-, .wav- ja .m4a-muotoisia tiedostoja voi selailla ja kuunnella verkon kautta. Napsauta kyseistä tiedostoa hiiren oikealla napilla ja valitse "view node" tai .eaf-tiedostolla "view in Annex", jolloin näet myös ääneen kohdistetut tekstikerrokset. Tiedostoja voi myös ladata yksitellen omalle koneelleen komennolla "download".

Tekstin ja äänen kohdistus on tehty karkeasti virkkeittäin. Lisäksi jokaiseen alkuperäisen litteraation sanaan on liitetty alustava yleiskielinen muoto. Huomaa kuitenkin, että yleiskielistys on vasta hyvin alustava, koska kaikkea ei ole vielä käsin tarkastettu ja korjattu. Alkuperäistä litteraatiota edustavat annotaatiokerrosten tyypit "original sentence" ja "original word", ja näiden alustavia yleiskielistyksiä tyypit "normalized sentence" ja "normalized word". Lisäksi jokaisen virkkeen ja sanan kohta on merkitty id-numerolla, joka vastaa Kotuksen alkuperäisissä xml-tiedostoissa olevia yksiköitä (kerrostyypit "sentence ID" ja "word ID"). Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta skn-solmua hiiren oikealla napilla ja valitse "annotation content search").

Alkuperäisen ääniaineiston on käsitellyt Sakari Pietarila. Tekstin ja äänen ovat Kotuksessa alustavasti kohdistaneet My Sjöholm, Pauliina Liuska ja Olli Miettinen. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes. Yleiskielistyksestä ovat vastanneet Kotuksessa Maria Vilkuna ja Pauliina Liuska.

Huomaa, että tämä korpusversio on alustava ja saattaa sisältää runsaasti virheitä! Korpuksesta ilmestyy myöhemmin uusi, paranneltu ja täydennetty versio.

You don’t have the permission to edit this resource.

DistributionDOI

10.15155/9-00-0000-0000-0000-0014FL

Availability

Available - Restricted Use

Licence

CLARIN ACA - NC

Restrictions: Academic - Non Commercial Use

Download location: hidden

Distribution Access/Medium: Accessible Through Interface, Downloadable

text
audio

Monolingual text corpusLanguages

Finnish

Variety: Finnish spoken in Kerimäki (Type: Dialect)

Variety: Finnish spoken in Kiihtelysvaara (Type: Dialect)

Variety: Finnish spoken in Kalajoki (Type: Dialect)

Variety: Finnish spoken in Kauhava (Type: Dialect)

Variety: Finnish spoken in Juupajoki (Type: Dialect)

Variety: Finnish spoken in Jämsä (Type: Dialect)

Variety: Finnish spoken in Joutsa (Type: Dialect)

Variety: Finnish spoken in Jurva (Type: Dialect)

Variety: Finnish spoken in Kitee (Type: Dialect)

Variety: Finnish spoken in Alatornio (Type: Dialect)

Variety: Finnish spoken in Salla (Type: Dialect)

Variety: Finnish spoken in Sippola (Type: Dialect)

Variety: Finnish spoken in Pälkäne (Type: Dialect)

Variety: Finnish spoken in Rautalammi (Type: Dialect)

Variety: Finnish spoken in Rautu (Type: Dialect)

Variety: Finnish spoken in Saarijärvi (Type: Dialect)

Variety: Finnish spoken in Paavola (Type: Dialect)

Variety: Finnish spoken in Padasjoki (Type: Dialect)

Variety: Finnish spoken in Pielisjärvi (Type: Dialect)

Variety: Finnish spoken in Pihtipudas (Type: Dialect)

Variety: Finnish spoken in Velkua (Type: Dialect)

Variety: Finnish spoken in Urjala (Type: Dialect)

Variety: Finnish spoken in Kurkijoki (Type: Dialect)

Variety: Finnish spoken in Hailuoto (Type: Dialect)

Variety: Finnish spoken in Heinola (Type: Dialect)

Variety: Finnish spoken in Hietamäki (Type: Dialect)

Variety: Finnish spoken in Hinnerjoki (Type: Dialect)

Variety: Finnish spoken in Artjärvi (Type: Dialect)

Variety: Finnish spoken in Askola (Type: Dialect)

Variety: Finnish spoken in Eurajoki (Type: Dialect)

Variety: Finnish spoken in Hollola (Type: Dialect)

Variety: Finnish spoken in Jaala (Type: Dialect)

Variety: Finnish spoken in Ilmajoki (Type: Dialect) (2 Hours)

Variety: Finnish spoken in Vihti (Type: Dialect)

Variety: Finnish spoken in Vermlanti (Type: Dialect)

Variety: Finnish spoken in Ikaalinen (Type: Dialect) (2 Hours)

Variety: Finnish spoken in Vittanki (Type: Dialect)

Variety: Finnish spoken in Suomussalmi (Type: Dialect)

Variety: Finnish spoken in Sotkamo (Type: Dialect)

Variety: Finnish spoken in Noormarkku (Type: Dialect)

Variety: Finnish spoken in Moloskovitsa (Type: Dialect)

Variety: Finnish spoken in Mikkeli (Type: Dialect)

Variety: Finnish spoken in Markkova (Type: Dialect)

Variety: Finnish spoken in Loppi (Type: Dialect)

Variety: Finnish spoken in Liperi (Type: Dialect)

Variety: Finnish spoken in Lieto (Type: Dialect)

Variety: Finnish spoken in Lappee (Type: Dialect)

Variety: Finnish spoken in Lappajärvi (Type: Dialect)

Variety: Finnish spoken in Lapinlahti (Type: Dialect)

Linguality

Linguality type: Monolingual

Size

100 Files

Modalities

Spoken Language

Creation

Creation mode: Manual

Monolingual audio corpusLanguages

Finnish

Variety: Finnish spoken in Kalajoki (Type: Dialect)

Variety: Finnish spoken in Kauhava (Type: Dialect)

Variety: Finnish spoken in Juupajoki (Type: Dialect)

Variety: Finnish spoken in Jämsä (Type: Dialect)

Variety: Finnish spoken in Joutsa (Type: Dialect)

Variety: Finnish spoken in Jurva (Type: Dialect)

Variety: Finnish spoken in Ilmajoki (Type: Dialect)

Variety: Finnish spoken in Jaala (Type: Dialect)

Variety: Finnish spoken in Kerimäki (Type: Dialect)

Variety: Finnish spoken in Alatornio (Type: Dialect)

Variety: Finnish spoken in Rautu (Type: Dialect)

Variety: Finnish spoken in Saarijärvi (Type: Dialect)

Variety: Finnish spoken in Pielisjärvi (Type: Dialect)

Variety: Finnish spoken in Pihtipudas (Type: Dialect)

Variety: Finnish spoken in Pälkäne (Type: Dialect)

Variety: Finnish spoken in Rautalammi (Type: Dialect)

Variety: Finnish spoken in Moloskovitsa (Type: Dialect)

Variety: Finnish spoken in Noormarkku (Type: Dialect)

Variety: Finnish spoken in Paavola (Type: Dialect)

Variety: Finnish spoken in Padasjoki (Type: Dialect)

Variety: Finnish spoken in Suomussalmi (Type: Dialect)

Variety: Finnish spoken in Sotkamo (Type: Dialect)

Variety: Finnish spoken in Kiihtelysvaara (Type: Dialect)

Variety: Finnish spoken in Hailuoto (Type: Dialect)

Variety: Finnish spoken in Heinola (Type: Dialect)

Variety: Finnish spoken in Hietamäki (Type: Dialect)

Variety: Finnish spoken in Hinnerjoki (Type: Dialect)

Variety: Finnish spoken in Artjärvi (Type: Dialect)

Variety: Finnish spoken in Askola (Type: Dialect)

Variety: Finnish spoken in Eurajoki (Type: Dialect)

Variety: Finnish spoken in Hollola (Type: Dialect)

Variety: Finnish spoken in Ikaalinen (Type: Dialect)

Variety: Finnish spoken in Vittanki (Type: Dialect)

Variety: Finnish spoken in Velkua (Type: Dialect)

Variety: Finnish spoken in Urjala (Type: Dialect)

Variety: Finnish spoken in Vihti (Type: Dialect)

Variety: Finnish spoken in Vermlanti (Type: Dialect)

Variety: Finnish spoken in Sippola (Type: Dialect)

Variety: Finnish spoken in Salla (Type: Dialect)

Variety: Finnish spoken in Mikkeli (Type: Dialect)

Variety: Finnish spoken in Markkova (Type: Dialect)

Variety: Finnish spoken in Loppi (Type: Dialect)

Variety: Finnish spoken in Liperi (Type: Dialect)

Variety: Finnish spoken in Lieto (Type: Dialect)

Variety: Finnish spoken in Lappee (Type: Dialect)

Variety: Finnish spoken in Lappajärvi (Type: Dialect)

Variety: Finnish spoken in Lapinlahti (Type: Dialect)

Variety: Finnish spoken in Kurkijoki (Type: Dialect)

Variety: Finnish spoken in Kitee (Type: Dialect)

Linguality

Linguality type: Monolingual

Size

100 Hours

Modalities

Spoken Language, Voice

Classification

Audio genre: Speech

Speech genre: Interview

Content

Noise Level: Medium

Setting

Naturality: Natural

Conversational type: Multilogue

Audience: No

Interactivity: Interactive

Audio Formatsaudio/wav

Sampling rate: 22050

Recording quality: Medium

Quantization: 16

Recording

Recording environment: Other

Recording device type: Other

Metadata

Created: 06/13/2012

Last Updated: 06/13/2012

Source: The Kotus website, http://www.kotus.fi/index.phtml?s=3913

Metadata Language: English (en)

Version

Version: The first version where the text and audio have been aligned

People who looked at this resource also viewed the following: