n-gram for Swedish (based on the NST Text Corpus)

View resource name in all available languages

n-gram for svensk (basert på NSTs tekstkorpus)

n-gram for svensk (basert på NST sitt tekstkorpus)

DOI:

10.15155/9-00-0000-0000-0000-00168L

Please use DOI in citation: https://doi.org/10.15155/9-00-0000-0000-0000-00168L

From the Swedish texts in the Text Corpus of Nordisk språkteknologi holding AS, Språkbanken has provided a collection of derivated word n-grams (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) from approximately 400 million words. The n-grams have been made available in two versions, one "light" version with only the 1.000 most frequent n-grams, and a full version where all the derived n-grams are sorted by different criteria. There is also a third format, making it possible to select text types. This version contains more texts and has approximately 437 million words. The n-grams are freely available for language technology research and development purposes.

View resource description in all available languages

Med utgangspunkt i de svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for en tekstmengde på ca. 400 millioner ord. Dette er gjort tilgjengelig i to versjoner, en lett versjon der bare de 1000 mest frekvente n-grammene er samlet, og en full versjon der alle n-grammene er samlet og sortert etter ulike kriterier. I tillegg foreligger materialet i et tredje format hvor man kan velge hvilke tekster man ønsker å ta med. Denne versjonen innholder noen flere tekster og er til sammen på ca. 437 millioner ord. N-grammene kan brukes fritt til språkteknologisk forskning og utvikling.

Med utgangspunkt i dei svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca. 400 millionar ord. Dette vert tilgjengeleggjort i to versjonar, ein lett versjon der berre dei 1000 mest frekvente n-gramma er samla, og ein full versjon der alle n-gramma er samla og sortert etter ulike kriterium. I tillegg ligg materialet føre i eit tredje format der ein kan velje kva tekster ein ønskjer å ta med. Denne versjonen innheld nokre fleire tekster og er til saman på ca. 437 millionar ord. N-gramma kan nyttast fritt til språkteknologisk forsking og utvikling.

You don’t have the permission to edit this resource.