angivelse av hvilket tegnsett som er benyttet på fila, dvs. hvilke 8(7)-bits koder tegnene har.
Merknad: Dette kommer spesielt til anvendelse ved tolkning av ÆØÅ, samt valg av tegnsett som støtter samiske tegn.
De samiske tegnene har fått tildelt sine koder i SOSI via ISO8859-10. Koder ut over 7-bits tolkes ulikt i ISO8859-2 til -10, men ÆØÅæøå er plassert på samme sted i ISO8859-1 og ISO8859-10, og også på samme sted i Windows tegnsettet. Den samiske varianten er ikke implementert i Windows, som benytter en egen variant (utvidelse) av ISO8859-1. En må derfor installere en fontbeskrivelse som i visse forberedte programmer viser korrekt symbol for samiske tegn selv om koden har annet utseende i ISO8859-1.For koder over 127 er kun følgende tillatt benyttet i ei SOSI-fil.
De særnorske tegnene ÆØÅ er plassert på følgende koder:
Æ Ø Å æ ø å é
DOSN8 146 157 143 145 155 134
ND7,DECN7 91 92 93 123 124 125
ISO8859-1 198 216 197 230 248 229 233
ISO8859-10 198 216 197 230 248 229 233
TEGNSETT skal alltid være oppgitt i SOSI-fila. (I tidligere versjoner har DOSN8 vært betraktet som standard hvis ikke annet har vært oppgitt.)
Kode |
Initialverdi |
Beskrivelse |
Dec Norsk 7-bits |
DECN7 |
|
identisk med ISO 8859-1 |
ANSI |
Identisk med ISO8859-1 for de fleste anvendelser, bruk heller denne. |
internasjonalt 8-bits tegnsett. |
ISO8859-1 |
Information processing - 8-bit single-byte coded graphic character sets. Part 1: Latin alphabet No. 1 |
MS-DOS Norsk 8-bits |
DOSN8 |
|
Norsk Data 7-bits |
ND7 |
|
variant av ISO 8859-1 for samiske tegn |
ISO8859-10 |
Information processing - 8-bit single-byte coded graphic character sets. Part 1: Latin alphabet No. 6 |
UTF-8 |
UTF-8 |
ISO/IEC 10646:2011 Information technology -- Universal Coded Character Set (UCS)
Advarsel:
I UTF-8-datasett kan det komme BOM (Byte Order Mark) som de første tegn på ei fil. Dette vil da komme før den logiske starten på SOSI-filer (”.HODE”), og føre til at .HODE ikke lenger nødvendigvis er de første tegnene på ei SOSI-fil |
Verdi |
Navn |
Beskrivelse |
|
Dec Norsk 7-bits |
|
|
identisk med ISO 8859-1 |
Identisk med ISO8859-1 for de fleste anvendelser, bruk heller denne. |
|
internasjonalt 8-bits tegnsett. |
Information processing - 8-bit single-byte coded graphic character sets. Part 1: Latin alphabet No. 1 |
|
MS-DOS Norsk 8-bits |
|
|
Norsk Data 7-bits |
|
|
variant av ISO 8859-1 for samiske tegn |
Information processing - 8-bit single-byte coded graphic character sets. Part 1: Latin alphabet No. 6 |
|
UTF-8 |
ISO/IEC 10646:2011 Information technology -- Universal Coded Character Set (UCS)
Advarsel:
I UTF-8-datasett kan det komme BOM (Byte Order Mark) som de første tegn på ei fil. Dette vil da komme før den logiske starten på SOSI-filer (”.HODE”), og føre til at .HODE ikke lenger nødvendigvis er de første tegnene på ei SOSI-fil |
Name |
Type |
English |
Description |
Dec Norsk 7-bits |
<undefined> |
Dec Norsk 7-bits |
|
identisk med ISO 8859-1 |
<undefined> |
identisk med ISO 8859-1 |
|
internasjonalt 8-bits tegnsett. |
<undefined> |
internasjonalt 8-bits tegnsett. |
|
MS-DOS Norsk 8-bits |
<undefined> |
MS-DOS Norsk 8-bits |
|
Norsk Data 7-bits |
<undefined> |
Norsk Data 7-bits |
|
variant av ISO 8859-1 for samiske tegn |
<undefined> |
variant av ISO 8859-1 for samiske tegn |
|
UTF-8 |
<undefined> |
|
|
Navn |
Innhold |
SOSI_lengde |
10 |
SOSI_navn |
TEGNSETT |