n-gram for Norwegian Bokmål (based on NNC and NST news text) 
View resource name in all available languages
n-gram for norsk bokmål (basert på Norsk aviskorpus og nyhetstekst fra NST)
n-gram for norsk bokmål (basert på Norsk aviskorpus og nyhendestekst frå NST)
These n-grams are derived from the Norwegian Newspaper Corpus and part of the Text Corpus from Nordisk språkteknologi (NST). The material is available as two separate lists of n-grams, but is also available as one merged list. In total, the source material consists of 1175 million words of running text. The n-grams have been made available in different versions, one "light" version with only the 1.000 most frequent n-grams, and a full version where all the derived n-grams are sorted by different criteria. Frequency lists have also been derived for all unigrams in the material. The n-grams are freely available for language technology research and development purposes.
View resource description in all available languages
Disse n-grammene er laget med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og deler av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to deler, men foreligger også i en sammenflettet del. Samlet tekstgrunnlag for hele materialet er 1175 millioner ord løpende tekst. Materialet blir gjort tilgjengelig i litt ulike former, først som en oversikt over de 1000 mest frekvente n-grammene (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og en full versjon der alle n-grammene er samlet og sortert etter ulike kriterier. Det er også lagt ut frekvenslister over enkeltordene (1-gram) i materialet. Disse ressursene kan benyttes fritt til språkteknologisk forskning og utvikling.
Desse n-gramma er laga med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og delar av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to delar, men ligg òg føre i ein samanfletta del. Samla tekstgrunnlag for heile materialet er 1175 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Det er også lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.
People who looked at this resource also viewed the following: