Text version of the Norwegian Newspaper Corpus

View resource name in all available languages

Tekstversjon av Norsk aviskorpus

NNCNorsk Aviskorpus

This version of the texts from the Norwegian Newspaper Corpus is not complete, and the texts are available in three different formats. During the course of 2012 and 2013 all texts will be made available in one uniform xml-format. The corpus was last updated 28.12.2011.

The Norwegian Newspaper Corpus (NNC) is a large monitor corpus representing contemporary Norwegian language in both its written varieties, Bokmål and Nynorsk. The corpus is compiled through daily harvesting and processing of published texts from the web edition of Norwegian newspapers.

Starting in 1998, Uni Research (formerly called Aksis) has compiled an extensive collection of texts from Norwegian newspapers. On 01.01.2012 the database contained approximately 1 billion words for Nowegian Bokmål and 60 million words for Norwegian Nynorsk, thus being the largest resource of its kind. The system automatically harvests and processes large amounts of text from the web editions of Norwegian newspapers. The material is growing by the day. Among the 200.000-250.000 running words that are daily being added to the database, 1.000-1.500 are neologisms. The corpus is a valuable source of information about the development of Norwegian language, about neologism, the use of words that have been introduced from other languages and language use and patterns in general. See http://avis.uib.no/ for more information.

The NNC is available for the users of Språkbanken. It must only be used for language technology research and development (LT R&D). The users of the corpus are not allowed to redistribute or publish any parts of the texts, only knowledge and products exploiting these texts.


View resource description in all available languages

Denne versjonen av tekstene fra Norsk aviskorpus er uferdig, og tekstene foreligger i tre ulike format. I løpet av 2012 og 2013 skal det ryddes opp i tekstene, og de vil foreligge i et enhetlig xml-format. Korpuset er oppdatert per 28.12.2011.

Ved det som i dag heter Uni Research AS har det siden 1998 blitt samlet inn et omfattende tekstmateriale bestående av norske avistekster. Databasen inneholder per 01.01.2012 omlag 1 milliard ord for bokmål, og 60 millioner ord for nynorsk, og er dermed den desidert største i sitt slag. Systemet innhenter automatisk store mengder tekst fra norske avisers nettsteder. Materialet vokser hver eneste dag. Av de 200.000-250.000 løpende ordene som daglig legges til i databasen, er 1000-1500 nyord. Samlet utgjør dette en verdifull kilde til informasjon om det norske språkets utvikling, nyorddanning, bruken av lånord og språklige bruksmønstre mer generelt. Les mer om Norsk aviskorpus på prosjektets hjemmeside, http://avis.uib.no/.

Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.

Denne versjonen av tekstene frå Norsk aviskorpus er uferdig, og tekstene ligg føre i tre ulike format. I løpet av 2012 og 2013 skal det ryddast opp i tekstene, og dei vil liggje føre i eit einskapleg xml-format. Korpuset er oppdatert per 28.12.2011.

Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.

You don’t have the permission to edit this resource.