[AIB]

Rappresentazione grafica del linguaggio. Introduzione

[Bozza 980407] / Eugenio Gatto. - Torino, 1998-04--

In un accenno volutamente breve, ci limitiamo all'enunciazione dei problemi principali (complessi, ed ancora lontani da una soluzione unitaria, posto che esista), e a brevi esempi a partire da quanto è maggiormente in uso attualmente.

Tavole di caratteri ISO

Storicamente, gli elaboratori sono nati per eseguire calcoli numerici, ed era inizialmente sufficiente poter esprimere dati e risultati con le dieci cifre, e pochissimi altri segni. Presto, con i linguaggi di programmazione, anche solo per scrivere qualcosa che somigliasse alle ordinarie espressioni algebriche, venne aggiunto l'alfabeto (maiuscolo); per lungo tempo questo è stato l'aspetto caratteristico del "tabulato da calcolatore": lettere maiuscole, numeri, segni di punteggiatura.

Già negli anni '60 le applicazioni ai testi (e a quei particolari testi che sono i cataloghi di biblioteche) erano numerose: meno importavano in quel caso numeri e calcoli, ma diventava indispensabile, soprattutto per una più umana leggibilità, l'uso di maiuscolo e minuscolo. La necessità fu enormemente accentuata dall'avvento dei piccoli (allora!) elaboratori, diffusi soprattutto per uso d'ufficio, e quindi come minimo a sostituire la macchina da scrivere.

Rispetto ad altri concorrenti, divenne predominante la scelta di caratteri che in ambiente internazionale si preferisce indicare come ISO 646 (è nota storicamente anche come "ASCII character set": i due nomi indicano strettamente la stessa cosa). Si tratta di un insieme di 128 caratteri (le combinazioni possibili di 7 bit), 95 dei quali sono "stampabili" (numeri, lettere maiuscole e minuscole, segni d'interpunzione, accenti), e 33 sono invece "di controllo" (cioè corrispondono a significati specifici, spesso meccanici, per la macchina che li interpreta, come 'a capo', 'indietro di uno' &c).

Nella variante IRV (international reference version), questa tavola resta tuttora la sola universalmente condivisa da tutte le macchine, cioè interpretata allo stesso modo, per cui, ad esempio, il 65º carattere è per tutti 'A (maiuscola)'. La posta elettronica, uno degli strumenti di comunicazione che più presto ha dovuto porsi il problema di essere leggibile anche su macchine diversissime, tuttora usa ordinariamente questo insieme di caratteri.

La situazione si è comunque complicata immediatamente, non appena quella tavola ha dovuto essere adattata per servire a lingue diverse, in caratteri non latini (greci, cirillici, ebraici, per non parlare delle lingue non alfabetiche, come il giapponese e il cinese). Ma anche per i caratteri latini: soprattutto per riprodurre, negli uffici, la situazione a cui le ben note tastiere delle macchine da scrivere avevano abituato, in modo da avere con un tasto solo le più comuni lettere accentate.

Per cui sono state definite numerose varianti nazionali di ISO 646 (ma non esiste ufficialmente una variante italiana), che rinunciavano ad alcuni caratteri (tipicamente parentesi quadre e graffe, barre dritte e rovesce, accento grave, circonflesso e tilde), per mettere al loro posto lettere accentate, giudicate "più utili". Si può immaginare come questo comprometta l'interpretazione del testo su macchine diverse, per quanto l'inconveniente sia di solito limitato ad alcune zone della tavola (sono salvi numeri, lettere maiuscole e minuscole, segni d'interpunzione principali).

Più solida, come soluzione, è quella, ora di uso normale, che ricorre a tavole da 256 caratteri (le combinazioni possibili di un ottetto, cioè di una sequenza di 8 bit: che è anche l'unità minima che ordinariamente si trasmette e su cui le macchine lavorano internamente). La tavola più usata in questa serie è la ISO 8859-1 (assai simile ad una precedente di nome "Latin1"), che è anche quella di base per i testi HTML. La dicitura '-1' indica che si tratta in realtà della prima di una serie di tavole, in particolare quella adatta per l'alfabeto latino usato dalle lingue europee occidentali (dal portoghese al norvegese); ISO 8859-2 è piuttosto per quelle orientali (polacco &c); le altre della serie specificano alfabeti non latini (greco &c).

In questa famiglia le tavole sono costruite tutte allo stesso modo: per la prima metà garantiscono la comprensione internazionale, e i primi 128 caratteri sono esattamente quelli di ISO 646 IRV; la seconda metà cerca di soddisfare, con altri 96 caratteri stampabili, le necessità di specifiche lingue o gruppi di lingue. Come esempio può valere il caso della posta elettronica: è tuttora richiesto che le sue "buste" (che qualunque sistema di transito deve poter interpretare correttamente) siano scritte con caratteri della tavola breve, ma il testo contenuto all'interno può usare le tavole estese (purché sia immediatamente specificato quale delle tavole estese viene usata.

Naturalmente, questo non vuole affatto dire che ogni possibile esigenza sia soddisfatta: l'elaboratore è arrivato, come disponibilità di caratteri, al livello di una macchina da scrivere (ricca, e spesso più di quanto siamo direttamente in grado di controllare). Ma senza essere, se non con software specifici e non ancora di uso ordinario, né una macchina da scrivere universale (il tentativo a cui mira ISO 10646, o "Unicode", complesso sistema per la gestione contemporanea di più famiglie di caratteri, ideogrammi compresi), né una macchina automaticamente incline all'equilibrio e alle finezze a cui ci ha abituato la buona composizione tipografica.

Esigenze specifiche per l'uso bibliotecario

[In preparazione]


© AIB, EG, 1998-04 (rev. 1998-04-07).

[AIB-WEB]   [LIS]   [Normativa]