Antiche scienze informatiche

Nuove tecnologie informatiche per l'orientalistica antica: uso e valore

(può essere necessario settare la codifica su UTF-8, specilamente con Mozilla e Opera)

Rizza Alfredo

Riproduzione di una tavoletta di Boğazköy contenente la versione bilingue hattico-etea del mito del dio-luna che cade dal cielo.

Prima parte
Scienze umane e informatica L'orientalistica e l'informatica Panoramica web
Seconda parte
Il nodo essenziale CAANES

UNICODE

UNICODE ha come scopo la creazione di una codifica delle scritture a livello universale, ovverosia di tutte le scritture, in modo univoco.

Per capire almeno le gli obiettivi basilari del progetto sono necessarie alcune distinzioni teoriche. Innanzitutto si tengano distinti il concetto di carattere dalle svariate forme con cui esso può essere realizzato e si tengano anche distinti l'insieme dei caratteri codificati (character coded set) dalla codifica del carattere (character encoding).

Carattere (character)	Il carattere è l'unità astratta che rappresenta l'unità minima di un sistema grafico. Al concetto di carattere possono corrispondere diverse forme grafiche. Per le scritture antiche le differenze paleografiche possono essere recuperate con altri strumenti informatici basati sulla relazione del singolo carattere e delle sue variazioni paleografiche memorizzate in una banca di dati.
Character repertoire	Un Insieme di caratteri può essere determinato in base alla lingua che rappresenta o essere language neutral. L'alfabeto latino è un buon esempio di charachter repertoire indifferente alla lingua che rappresenta. È infatti usato comunemente anche per le traslitterazioni. Per quanto riguarda la cosiddetta "scrittura cuneiforme", dobbiamo ricordare che il cueniforme è piuttosto una tipologia di scritture e non una scrittura singola e non può essere, quindi, considerato in astratto, a prescindere dalla lingua o dalla tradizione letteraria e documentaria che rappresenta.
Code set	È l'insieme di codici numerici, detti anche punti di codice, perchè a ciascun codice numerico viene associato in modo biunivoco un carattere del charecther repertoire. Il charachter repertoire viene suddiviso in sotto insiemi. Alcuni di questi sottoinsiemi possono contenere un carattere che ha forma e origine identica ad un carattere in un altro sottoinsieme, come nel caso di alcune lettere dell'alfabeto greco, usate nella simbologia matematica. I due elementi vanno considerati due caratteri diversi.
Coded character set	Insieme risultante dalla associazione del character repertoire ad un code set. UNICODE è il coded character set specificato da un consorzio dei maggiori produttori informatici americani.Dalla versione 1.1 UNICODE è sviluppato in totale compatibilità con ISO/IEC 10646 (il carachter set standard pubblicato nel 1993 dalla ISO) . Lo UNICODE Consortium è anzi un importante collaboratore del progetto ISO/IEC 10646 stesso.
Character encoding	È il modo in cui il punto di codice viene ridotto a bit (algoritmo di mappatura tra "code point" e una o più sequenze di bit) ovvero trasformato in MRF. ISO/IEC 10646-UCS-2 e ISO/IEC 10646-UCS-4 sono standard per la definizione del character encoding. (Ma UCS da solo è un coded charachter set: è il nome dello standard ISO/IEC 10646.)
ISO 10646-1 = ISO 10646-UCS-2	Universal Multiple-octect encoded form a 16 bit/2 byte per UCS. Partendo dalla tabella da 256 righe per 256 celle definita in UCS-2, il primo byte identifica la riga, il secondo la cella.
ISO 10646-UCS-4	Universal Multiple-octect encoded form a 32 bit / 4 byte (di cui però il primo deve essere sempre uguale a 0, quindi 31 bit utilizzabili). Dalla tabella "bidimensionale" si passa ad una struttura "tridimensionale": Il primo byte identifica il gruppo, il secondo il piano, il terzo la riga, il quarto la cella. In pratica 256 tabelle da 256x256 posizioni stratificate in 256 piani suddivise in 128 gruppi. 128 gruppi di strutture con 256³ posizioni, accolgono 2.147.483.648 "posizioni" per altrettanti caratteri. Il primo gruppo dei 128, "Group zero, plane zero" è stato denominato BMP, Basic Multlingual Plane.
UTF-16	UCS Transformation Format, 16-bit/2 bytes encoding form. Riduce parte di UCS-4 a UCS-2 utilizzando un sistema complesso definito "a coppie surrogate". Nella BMP viene riservata un'area dove le posizioni definite dal codice possono essere differentemente realizzate collegandole con sequenze di bytes da posizioni al di fuori del BMP senza dover ricorrere ad una codifica a 4 bytes.
UTF-8	UCS Transformation Format, 8-bit encoding form. Riduce UCS a formati compatibili con standard precedenti e più leggeri. Codifica da 1 a 4 bytes. Con 1 byte veogono codificati i caratteri dell'alfabeto latino, alcune sue estensioni e pochi altri sott- insiemi di caratteri fino ad un massimo di 256. Questi corrispodono alla codifica ANSI (ISO 8859-x). È questa l'encoding form UNICODE più usata. I documenti XML devono essere codificati con UTF-8 per poter essere validi.
ISO 8859-x	Estensione ASCII a 256 posizioni. Codifica a 1 byte. ASCII + repertorio specifico. Le varie realizzazioni di ISO 8859- (1, 2, 3 ecc.) sono costituite dalla tabella ASCII sempre ripetuta nelle prime 128 posizioni e, nelle posizioni successivo fino alla 255 (che corrisponde alla duecentocintaseiesima perché la prima è stata numerata con la cifra zero), vengono aggiunti caratteri specifici per determinate scritture.
ASCII	Standard "classico" a 128 posizioni.

L'Orientalistica antica offre molti problemi per la standardizzazione UNICODE. O, meglio, da un lato riceve un grande vantaggio nell'avere la possibilità di codificare in modo univoco i caratteri usati per traslitterazioni e trascrizioni in alfabeto latino ampliato; dall'altro lato offre un numero elevato di grafie spesso non più in uso con una struttura intrinseca tale da non poter essere, di fatto, passibili di alcuna standardizzazione.

Per scopi scientifici, infatti, servono riproduzioni esatte dei testi non mediate da alcuna astrazione. Per tale scopo la riproduzione elettronica può avvenire con immagini e fotografie digitali. Per scopi educativo/editoriali di più vasto raggio, si possono sviluppare forme standardizzate delle scritture da poter inserire nelle specifiche UNICODE.

Per una panoramica del problema e delle soluzioni migliori da seguire, rimando ai saggi di Carl-Martin Butz e Jost Gippert, in parte reperibili sul sito del TITUS.

torna a CAANES

Contact Author

Antiche scienze informatiche

Nuove tecnologie informatiche per l'orientalistica antica: uso e valore

Rizza Alfredo

Prima parte

Seconda parte

UNICODE