LFSAG - Laboratorio di Fonetica Sperimentale 'Arturo Genre'

Prosopraat - Un progetto di etichettatura prosodica.

La necessità di una forma di trascrizione ortografica dei testi di una raccolta di parlato viene ribadita come operazione preliminare e imprescinbibile per la costituzione stessa, la fruibilità e la riutilizzabilità di un corpus (Gibbon et al., 1997:79): essa costituisce infatti il primo (eventualmente anche unico) stadio della codifica, cioè dello strumento che dota il corpus di una struttura organizzata che permette di mantenere una distinzione tra i dati e la loro rappresentazione (Llisterri, 1997:1).

La trascrizione rende il testo orale (inteso, in senso ampio, come un "pezzo di comunicazione linguistica che si possa considerare per qualche ragione come un insieme unitario", cfr. Ide, 1996:1.1) permanente, maneggiabile e analizzabile per molteplici scopi.

All'operazione di rappresentazione, segue quella di interpretazione del testo che consiste nell'aggiunta di informazioni di vario tipo al testo stesso, in diversi gradi a seconda dei diversi scopi che si prefigge.

L'intera operazione di codifica di un corpus consiste nel rendere espliciti i vari tipi di interpretazione del testo.

Per i motivi appena esposti, la trascrizione ortografica convenzionale dei testi prodotti è comune a tutti i corpora di lingua orale, qualche sia l'obiettivo che si propongono, qualunque sia l'ambito di studio applicativo in cui rientrano, qualunque sia il pubblico a cui si rivolgono.

Tale operazione preliminare va intesa come una forma di semplice sbobinatura della registrazione (nel caso di testi spontanei o semi-spontanei) o corrisponde semplicemente al testo scritto presentato al soggetto (nel caso di testi letti).

La codifica prevede di norma anche un'operazione di annotazione del testo stesso, che arricchisce la trascrizione di una serie di dettagli descrittivi e interpretativi.

Per entrambe le operazioni nel progetto CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto) e in C-ORAL-ROM sono state proposte norme specifiche e definiti protocolli standardizzati che mirano a facilitare l'utilizzo e l'interscambiabilità tra i numerosi corpora raccolti e costituiti in ambito internazionale.

Le norme proposte e adottate nei diversi progetti si basano su principi generali diffusi e comuni ma, allo stesso tempo, si differenziano in risposta a criteri specifici variabili secondo l'obiettivo e le finalità ultime per le quali il corpus viene raccolto e codificato.

L'obiettivo principale dell'annotazione è quello di avere un testo scritto utilizzabile in maniera per così dire 'autonoma' rispetto alla produzione vocale, dal quale, quindi, sia possibile estrarre un certo numero di informazioni linguistiche (relative ai vari livelli di analisi), paralinguistiche e anche extralinguistiche (per esempio, situazionali).

L'annotazione del testo conosce diversi gradi di complessità in relazione, come si è detto, al tipo di corpus e agli scopi che si prefigge. In linea teorica, un corpus potrebbe essere annotato a tutti i livelli possibili, tuttavia, sono molto più frequenti corpora annotati solo per alcuni aspetti.

Annotazione = arricchimento della trascrizione ortografica mediante dettagli relativi alla produzione, alcuni simboli di categorizzazione basilare degli eventi fonici e pochi commenti extratestuli riferiti a unità linguistiche
Etichettatura = (in inglese mark-up) operazioni volte a definire, identificare e classificare le unità linguistiche costitutive di un testo ai vari livelli (fonetico, fonologico, prosodico, lessicale-morfologico, morfo-sintattico, coreferenziale, di unità di discorso, di funzioni comunicative, ecc...).

In questa suddivisione, l'annotazione è lo stadio che presenta il più basso grado di complessità. Le due operazione possono coesistere entro lo stesso testo, ma di norma rispondono a principi diversi e si prefiggono obiettivi diversi.

Requisiti minimi per una trascrizione annotata:

Suddivisione del testo in stringhe, identificabili univocamente, che corrispondano a produzioni unitarie di un singolo parlante;
Informazioni sulla sequenza e sovrapposizione di produzioni di parlanti diversi;
Trascrizione in forma univoca di tutti gli elementi lessicali della produzione, compreso numeri, sequenze di lettere (come acronimi e sigle), interiezioni, abbreviazioni, ecc.;
Trascrizione degli elementi verbali non-lessicali che comprendono tutti i tipi di disfluenze e speech repairs (errori di pronuncia, frammenti di parole, troncamenti, articolazioni di esitazione) nonché le pause (brevi, lunghe, con reset) e le sequenze intellegibili;
Annotazione dei fenomeni vocali non verbali prodotti dai parlanti (inspirazioni, risate ecc.);
Annotazioni di rumori presenti nel segnale, prodotti dal parlante o dall'ambiente.

Ci occuperemo di tutti questi requisiti minimi nel primo video tutorial del progetto Pro(so)Praat usando, per l'appunto, il software PRAAT.

PRAAT è un potentissimo strumento per l’analisi, la sintesi, la visualizzazione e la manipolazione del segnale.
È un software gratuito creato dai linguisti olandesi Paul Boersma e David Weenink ed è scaricabile in questa pagina.
È ottimo per la segmentazione e l'etichettatura in quanto permette di farlo su più livelli; inoltre, permette la creazione di script di lavoro per automatizzare le procedure di analisi, di estrarre statistiche, grafici e tanto altro.

Ci serviremo di questo software per effettuare l'annotazione ortografica del parlato e, in seguito, per quella prosodica.