UNICODE ha come scopo la creazione di una codifica delle scritture a livello universale, ovverosia di tutte le scritture, in modo univoco.
Alcune distinzioni teoriche sono preliminari necessarii. Si tengano distinti il concetto di carattere dalle svariate forme con cui esso può essere realizzato; l'insieme dei caratteri codificato (character coded set) dalla codifica del carattere (character encoding).
.Carattere (character)
Character repertoire
Code set
Coded character set
Character encoding
ISO 10646-1 = ISO 10646-UCS-2
ISO 10646-UCS-4
UTF-16
UTF-8
ISO 8859-x
ASCII
Unità astratta a cui possono corrispondere diverse forme grafiche. Le differenze paleografiche andrebbero recuperate con altri strumenti informatici basati sulla relazione del singolo carattere e delle sue variazioni paleografiche memorizzate in una banca di dati.
Insieme di caratteri (può essere determinato in base alla lingua che rappresenta o essere language neutral). L'alfabeto latino è un buon esempio di charachter repertoire indifferente alla lingua che rappresenta. È infatti usato comunemente anche per le traslitterazioni. Il cuneiforme, essendo una tipologia di scritture e non una scrittura singola, non può essere considerato in astrtto, a prescindere dalla lingua o dalla tradizione letteraria e documentaria che rappresenta.
Insieme di codici numerici, detti anche punti di codice, perchè a ciascun codice numerico viene associato in modo biunivoco un carattere del charecther repertoire. Il charachter repertoire viene suddiviso in sotto insiemi. Alcuni di questi sottoinsiemi possono contenere un carattere che ha forma e origine identica ad un carattere in un altro sottoinsieme, come nel caso di alcune lettere dell'alfabeto greco, usate nella simbologia matematica. I due elementi vanno considerati due caratteri diversi.
Insieme risultante dalla associazione del character repertoire ad un code set. UNICODE è il coded character set specificato da un consorzio dei maggiori produttori informatici americani.Dalla versione 1.1 UNICODE è sviluppato in totale compatibilità con ISO/IEC 10646 (il carachter set standard pubblicato nel 1993 dalla ISO) . Lo UNICODE Consortium è anzi un importante collaboratore del progetto ISO/IEC 10646 stesso.
Modo in cui il punto di codice viene ridotto a bit (algoritmo di mappatura tra "code point" e una o più sequenze di bit) ovvero trasformato in MRF. ISO/IEC 10646-UCS-2 e ISO/IEC 10646-UCS-4 sono standard per la definizione del character encoding. (Ma UCS da solo è un coded charachter set: è il nome dello standard ISO/IEC 10646.)
Universal Multiple-octect encoded form a 16 bit/2 byte per UCS. Partendo dalla tabella da 256 righe per 256 celle definita in UCS-2, il primo byte identifica la riga, il secondo la cella.
Universal Multiple-octect encoded form a 32 (di cui però il primo deve essere sempre uguale a 0, quindi 31) bit/4 byte. Dalla tabella "bidimensionale" si passa ad una struttura "tridimensionale" posizioni. (256 tabelle da 256x256 stratificate in 256 piani). Di queste strutture, in UCS-4 ce ne sono 128. 128 gruppi di strutture da 2563 caselle, danno 2.147.483.648 "posizioni" per altrettanti caratteri. Il primo byte identifica il gruppo, il secondo il piano, il terzo la riga, il quarto la cella. Group 0, plane 0 = BMP, Basic Multlingual Plane.
UCS Transformation Format, 16-bit/2 bytes encoding form. Riduce parte di UCS-4 a UCS-2 utilizzando un sistema complesso definito "a coppie surrogate". Nella BMP viene riservata un'area dove le posizioni definite dal codice possono essere differentemente realizzate collegandole con sequenze di bytes da posizioni al di fuori dell BMP senza dover ricorrere ad una codifica a 4 bytes.
UCS Transformation Format, 8-bit encoding form. Riduce UCS a formati compatibili con standard precedenti e più leggeri. Codifica da 1 a 4 bytes. Con un byte venogono codificati i caratteri dell'alfabeto latino, alcune sue estensioni e pochi altri sotto insiemi di caratteri fino ad un massimo di 256. Questi corrispodono alla codifica ANSI (ISO 8859-x). È questa l'encoding form UNICODE più usata. I documenti XML devono essere codificati UTF-8 per poter essere validati.
Estensione ASCII a 256 posizioni. Codifica a un byte. ASCII + repertorio specifico. Le varie realizzazioni di ISO 8859 (1, 2, 3 ecc.) sono costituite dalla tabella ASCII sempre ripetuta e, nelle posizioni successivo fino all 256, vengono aggiunti caratteri specifici per determinate scritture.
Standard "classico" a 128 posizioni
L'Orientalistica antica offre molti problemi per la standardizzazione UNICODE. O, meglio, da un lato riceve un grande vantaggio nell'avere la possibilità di codificare in modo univoco i caratteri usati per traslitterazioni e trascrizioni in alfabeto latino ampliato; dall'altro lato offre un numero elevato di grafie spesso non più in uso con una struttura intrinseca tale da non poter essere, di fatto, passibili di alcuna standardizzazione.
Per scopi scientifici, infatti, servono riproduzioni esatte dei testi non mediate da alcuna astrazione. Per tale scopo la riproduzione elettronica può avvenire con immagini e fotografie digitali. Per scopi educativo/editoriali di più vasto raggio, si possono sviluppare forme standardizzate delle scritture da poter inserire nelle specifiche UNICODE.
Per una panoramica del problema e delle soluzioni migliori da seguire, rimando ai saggi di XXXXXX e Jost Gippert, in parte reperibili sul sito del TITUS.
torna a CAANES
Contact Author