Home
testata sito
   Il progetto Biblioteca Documentazione
  Documentazione
  Generale
  Codifica testuale
  Metadati
  Architettura
  
  Partner & Sponsor
   CIBID
   MIUR
   ICCU
   BDI
   ADI
   BIDS
  Servizi
   FAQ
   Contatti
 

 

Breve introduzione alla Text Encoding Initiative

La storia della Text Encoding Initiative

Sin dagli anni '80 in campo informatico umanistico si è avvertita l'esigenza di rispondere adeguatamente ai problemi di interscambiabilità e portabilità creati della proliferazione di linguaggi di codifica, e di definire uno standard per la rappresentazione di testi su supporto digitale. Nel 1988, con la sponsorizzazione delle tre maggiori associazioni professionali nel campo dell’informatica umanistica e della linguistica computazionale, la Association for Computers and the Humanities (ACH), la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC), e con il sostegno del National Endowment for the Humanities (USA), dello European Union's Language Engineering Directorate, del Canadian Social Science and Humanities Research Council e della Mellon Foundation, è stato avviato un progetto internazionale per sviluppare uno schema di codifica che mettesse ordine nella intricata congerie linguaggi di rappresentazione dell'informazione testuale in formato elettronico. Questo progetto è stato denominato Text Encoding Initiative (TEI), e ad esso hanno partecipato oltre 200 studiosi provenienti da tutto il mondo.

Scopo del progetto era la definizione di uno standard di codifica allo scopo di normalizzare i formati di memorizzazione di testi, di consentire lo scambio di documenti e testi tra studiosi, enti di ricerca e sistemi informatici differenti, come affermano gli estensori delle Guidelines:

Because of its roots in the humanistic research community, the TEI scheme is driven by its original goal of serving the needs of research, and is therefore committed to providing a maximum of comprehensibility, flexibility, and extensibility.More specific design goals of the TEI have been that the Guidelines should:
* provide a standard format for data interchange
* provide guidance for encoding of texts in this format
* support the encoding of all kinds of features of all kinds of texts studied by researchers
* be application independent

Per conseguire tali obiettivi in prima istanza venne individuato come linguaggio di base lo Standard Generalized Markup Language (SGML), il linguaggio standard definito dalla International Organization for Standardization (ISO) per la descrizione e la formattazione dei testi su supporto informatico.

A partire dal 1989 la TEI ha sviluppato diverse versioni del suo schema di codifica, le cui specifiche provvisorie sono state pubblicate per la prima volta nel 1991 con il titolo Guidelines for Electronic Text Encoding and Interchange, TEI P1. Il lavoro della TEI ha poi visto molte successive revisioni che hanno portato alla pubblicazione di altri due manuali: uno nel 1992, TEI P2, nel quale la struttura del DTD è stata notevolmente rivista; ed uno nel 1994 intitolato TEI P3. Nel 2000 i membri della TEI hanno deciso di rendere permanente il progetto, costituendo il TEI Consortium, una organizzazione internazionale senza scopo di lucro fondata allo scopo di sostenere e sviluppare lo schema di codifica TEI. Il TEI Consortium ha i suoi uffici esecutivi a Bergen (Norvegia) ed è ospitato da quattro università nel mondo: University of Bergen, Brown University, Oxford University, e University of Virginia. Il Consorzio è diretto da un Consiglio di Direzione, e la sua attività tecnico-scientifica è controllata da un Consiglio elettivo. Le attività sono svolte tipicamente da piccoli gruppi internazionali di esperti, coordinati da due curatori, uno in Nord America e uno in Europa.

Il primo risultato del TEI Consortium è stata la pubblicazione nel giugno del 2002 di una nuova versione dello schema di codifca e delle relative Guidelines for Electronic Text Encoding and Interchange, nota come P4. L'aspetto più importante di questa nuova versione è la sua piena conformità con il nuovo metalinguaggio di mark-up XML, che colloca stabilmente la TEI nel contesto dei recenti sviluppi delle biblioteche digitali e del World Wide Web. La nuova edizione è accessibile on-line da alcuni mesi all'indirizzo http://www.tei-c.org/P4X/, e continuerà a esserlo; ma l'edizione a stampa, ora disponibile presso la University of Virginia Press (http://www.upress.virginia.edu/books/tei.html), rappresenta una nuova pietra miliare nella storia di questo fondamentale progetto per la comunicazione e per la cooperazione scientifica internazionale.

Lo schema di codifica TEI

In breve, le Guidelines TEI definiscono un linguaggio per descrivere la struttura di un testo e propongono dei nomi per individuare i suoi componenti. Tale linguaggio è espresso nella sintassi XML e si basa su una cosiddetta Document Type Definition (DTD), una grammatica formale che specifica la struttura di un documento e gli elementi che lo costuiscono.

Con la definizione di un insieme standardizzato di nomi le Guidelines rendono possibile la combinazione di diverse rappresentazioni digitali dei testi in grandi basi dati, e forniscono altresì un linguaggio comune per gli studiosi che intendano lavorare in modo cooperativo. In ambito industriale e commerciale esistono molti di tali vocabolari standard ­ ad esempio nel settore bancario, nell’industria aeronautica, nella modellazione di sostanze chimiche. Il grande risultato della TEI è stato tentare di fare la stessa cosa nell’ambito dei dati testuali e linguistici ­ sia per coloro che studiano la cultura testuale del passato nelle sue varie manifestazioni, sia per coloro che studiano l’evoluzione delle lingue.

I principi che hanno orientato lo sviluppo dello schema di codifca TEI sono basati sui fondamenti teorici dei linguaggi di markup di tipo dichiarativo, come SGML e XML, che prediligono la descrizione di struttura logiche e astratte del documenmto piuttosto che del suo aspetto fisico. Il modello descrittivo dei testi che sottende la TEI è basato su una formalizzazione delle convenzioni nella produzione di documenti testuali che sono state definite a partire dalla diffusione della stampa, e che sono state codificate fino al punto di divenire un vero e proprio schema di argomentazione (la divisone in capitoli, parti, paragrafi, etc., è un tipico esempio di questo fenomeno di determinazione dialettica tra modelli del pensiero e schemi imposti dagli strumenti di produzione intellettuale).

L'orientamento verso una codifica di tipo dichiarativo strutturale è stata rispettata nella maggior parte dei casi, pur osservando che essa comporta l'intervento soggettivo dello studioso che effettua la codifica, il quale deve interpretare la funzione delle varie strutture fisiche tipografiche (o manoscritte) per essere in grado di usare gli elementi previsti nella DTD della TEI. Tuttavia lo schema prevede anche elementi di tipo presentazionale, utilizzabili quando la scelta del markup descrittivo non è praticabile senza arrecare problemi, o quando le esigenze di ricerca richiedono una forte aderenza del testo elettronico al suo originale cartaceo.

La TEI infatti provvede uno schema di codifica generale, orientato al dominio umanistico, ma non rigidamente determinato. Basti pensare che gli elementi definiti nel DTD sono oltre 500, e che molte caratteristiche strutturali di un testo sono provviste di molteplici possibilità di codifica. Inoltre lo schema TEI è fortemente modulare è prevede ampie possibilità di personalizzazione e di estensioni, al fine di adattarsi a ogni esigenza di codifica testuale. Per aiutare gli utenti nella costruzione di tali viste personalizzate della DTD il TEI Consortium mette a disposizione sul suo sito una applicazione Web di assai semplice utilizzo, battezzata scherzosamente Pizza Chef. Una di tali personalizzazioni prodotta dallo stesso TEI-C e molto diffusa è la cosiddetta TEI LIte, un sottoinsieme dello schema TEI pensato per rispondere al "90% delle esigenze del 90% della comunità di utenti della TEI.

Fabio Ciotti

 

Il progetto
- Biblioteca - Documentazione

© Biblioteca Italiana - Ultimo aggiornamento: 26/04/2010