La necessità di una forma di trascrizione ortografica dei testi di una raccolta di parlato viene ribadita come operazione preliminare e imprescinbibile per la costituzione stessa, la fruibilità e la riutilizzabilità di un corpus (Gibbon et al., 1997:79): essa costituisce infatti il primo (eventualmente anche unico) stadio della codifica, cioè dello strumento che dota il corpus di una struttura organizzata che permette di mantenere una distinzione tra i dati e la loro rappresentazione (Llisterri, 1997:1).

La trascrizione rende il testo orale (inteso, in senso ampio, come un "pezzo di comunicazione linguistica che si possa considerare per qualche ragione come un insieme unitario", cfr. Ide, 1996:1.1) permanente, maneggiabile e analizzabile per molteplici scopi.

All'operazione di rappresentazione, segue quella di interpretazione del testo che consiste nell'aggiunta di informazioni di vario tipo al testo stesso, in diversi gradi a seconda dei diversi scopi che si prefigge.

L'intera operazione di codifica di un corpus consiste nel rendere espliciti i vari tipi di interpretazione del testo.

Per i motivi appena esposti, la trascrizione ortografica convenzionale dei testi prodotti è comune a tutti i corora di lingua orale, qualche sia l'obiettivo che si propongono, qualunque sia l'ambito di studio applicativo in cui rientrano, qualcunque sia il pubblico a cui si rivolgono, ecc...

Tale operazione preliminare va intesa come una forma di semplice sbobinatura della registrazione (nel caso di testi spontanei o semi-spontanei) o corrisponde semplicemente al testo scritto presentato al soggetto (nel caso di testi letti).

La codifica prevede di norma anche un'operazione di annotazione del testo stesso, che arricchisce la trascrizione di una serie di dettagli descrittivi e interpretativi.

Per entrambe le operazioni nel progetto CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto) sono state proposte norme specifiche e definiti protocolli standardizzati che mirano a facilitare l'utilizzo e l'interscambiabilità tra i numerosi corpora raccolti e costituiti in ambito internazionale.

Le norme proposte e adottate nei diversi progetti si basano su principi generali diffusi e comuni ma, allo stesso tempo, si differenziano in risposta a criteri specifici variabili secondo l'obiettivo e le finalità utime per le quali il corpus viene raccolto e codificato.

L'obiettivo principale dell'annotazione è quello di avere un testo scritto utilizzabile in maniera per così dire 'autonoma' rispetto alla produzione vocale, dal quale, quindi, sia possibile estrarre un certo numero di informazioni linguistiche (relative ai vari livelli di analisi), paralinguistiche e anche extralinguistiche (per esempio, situazionali).

logo lfsag
logo lingue
logo unito