Correlatore

Correlatore è un programma scritto da Paolo Mairano in Tcl/Tk durante la sua tesi di dottorato presso LFSAG. È stato ideato per calcolare automaticamente alcuni correlati ritmici (%V, ΔC, ΔV, Varcos, PVIs, CCIs - v. la documentazione) a partire dai file di annotazione prodotti da Praat. Quindi, per chi desidera portare avanti ricerche sui correlati acustici del ritmo, è sufficiente etichettare dei file sonori con Praat e, successivamente, aprire i file di etichettatura con Correlatore per ottenere i valori dei correlati ed eventualmente costruire dei grafici.

Correlatore è rilasciato con licenza GPL, dunque può essere scaricato e utilizzato liberamente. Si consiglia di leggere la documentazione (in particolar modo le avvertenze, in cui vengono specificati i criteri da seguire durante l'etichettatura).

News

Da settembre 2015 la homepage di Correlatore è stata spostata su un nuovo sito per facilitarne l'aggiornamento. Da lì è possibile scaricare l'ultima versione del software.

CORRELATORE 2.2: DOCUMENTAZIONE

LICENZA

Questo software è rilasciato con licenza GPL. È quindi possibile utilizzarlo e/o modificarlo liberamente; tuttavia, l'autore gradisce che il software sia citato se viene utilizzato a scopo di ricerca: basta specificare l'autore - Paolo Mairano - e l'indirizzo di questo sito web, oppure citare il seguente articolo:

Mairano, P. & Romano, A. (2010) Un confronto tra diverse metriche ritmiche usando Correlatore. In: Schmid, S., Schwarzenbach, M. & Studer, D. (a cura di) La dimensione temporale del parlato, Atti del 5° Convegno nazionale AISV (Associazione Italiana di Scienze della Voce) (Università di Zurigo, Collegiengebaude, 4-6 febbraio 2009), Torriana (RN): EDK, 79-100.

Secondo i termini della licenza GPL, l'autore non risponde di eventuali danni prodotti dal software. Qualsiasi commento è ben accetto.

RICONOSCIMENTI

Questo programma è stato creato esclusivamente con software opensource e può essere scaricato dal sito del Laboratorio di Fonetica Sperimentale "A Genre" dell'Università di Torino.
È stato sviluppato su Xubuntu 8.04 con TCL/TK 8.5 e tk-img mentre gli eseguibili sono stati creati con Tclkit 8.5, fornito da Equi4
Sono state usate le icone del progetto CrystalClear for GNOME di Andrew Crouthamel; secondo i termini della licenza GPL, preciso che le icone sono state convertite in formato GIF il 25 maggio 2008 con the Gimp. Per quanto riguarda le immagini delle bandiere inglese e francese, sono state prese da Wikipedia e convertite in GIF il 26 maggio 2008.
Ringrazio Antonio Romano (Università di Torino) per il suo appoggio e per avere aiutato a testare l'applicazione e Adriano Allora (Università di Torino) per avermi introdotto alla programmazione e a Linux.

AVVERTENZE

Questo programma calcola i correlati del ritmo (%V, ΔV, ΔC, VarcoV, VarcoC, rPVI, nPVI e CCI - v. Riferimenti) a partire dai file di annotazione prodotti da Praat. In ogni file possono essere presenti più tiers, ognuno dei quali può essere etichettato con una trascrizione SAMPA o, semplicemente, CV (dove C indica una consonante, V una vocale). È tuttavia necessario seguire le seguenti convenzioni affinché gli script riconoscano correttamente le annotazioni:

CV

  • È necessario creare un'etichetta per ogni intervallo vocalico o consonantico ed annotarla con tante 'c' o 'v' quanti sono i segmenti fonologici che compongono l'intervallo. Per esempio, 'marcio' deve essere etichettato come |c|v|cc|v|, 'palla' come |c|v|cc|v|, 'accipicchia' come |v|cc|v|c|v|ccc|v|. Le pause vanno lasciate vuote o etichettate come #. Questo tipo di trascrizione lascia l'utente libero di decidere se considerare vocalici o consonantici i segmenti dubbi (es. le consonanti sillabiche) e di controllare pienamente la suddivisione degli intervalli; in questo modo si possono seguire le istruzioni di Bertinetto & Bertini (2008) (v. sotto, la sezione Riferimenti) per il calcolo dei CCI: ad esempio, gli iati possono essere etichettati come 2 intervalli distinti: 'suo' |c|v|v|.
  • In alternativa è anche possibile utilizzare una più semplice segmentazioni in cui non venga indicato il numero di segmenti che compone ogni intervallo, es. 'palla' |c|v|c|v|, 'accipicchia' |v|c|v|c|v|c|v|, ma questo porterà a risultati erronei dei CCI (la cui formula prevede una divisione per il numero di segmenti di ogni intervallo, che in questo caso risulterebbe sempre 1, dando lo stesso risutato degli rPVI).

SAMPA

  • È necessario che a ogni etichetta corrisponda un solo fono (quindi solo una vocale o una consonante, non un intervallo vocalico o consonantico).
  • I fonemi fonologicamente geminati (es. le vocali lunghe del finlandese e le consonanti geminate dell'italiano) vanno annotate con due etichette distinte (nonstante il confine tra i 2 foni sia naturalmente fittizio). Ad esempio, il finlandese 'saami' deve essere etichettato |s|a|a|m|i|, e non |s|a:|m|i| né |s|aa|m|i|. Altrimenti, il risultato del CCI risulterà errato.
  • È possibile usare i diacritici SAMPA standard, ma se si utilizzano diacritici non standard, questi potrebbero interferire con la variabile di sostituzione (v. sotto). Per esempio, se si utilizza t_u (invece di t_w) per indicare una occlusiva dentale sorda labializzata, quell'etichetta verrà erroneamente considerata vocalica a causa del simbolo u.
  • Il programma utilizza una variabile di sostituzione per trasformare le etichette SAMPA in sequenze CV. In questa variabile sono contenuti tutti i simboli che devono essere considerati vocalici: se un'etichetta contiene almeno uno di questi simboli, essa viene considerata una vocale, altrimenti viene considerata una consonante (a meno che non sia vuota o contenga '#' - che indicano una pausa). Il valore della variabile è mostrato nella barra di stato in basso ed è possible modificarlo cliccandoci sopra.
  • Le pause devono essere etichettate con # oppure lasciate vuote.
  • Durante il processo di segmentazione e calcolo dei correlati di un tier etichettato come SAMPA, Correlatore costruirà gli intervalli vocalici e consonantici sommando le durate di ogni consonante/vocale esclusivamente secondo un criterio di adiacenza.

INSTALLAZIONE

REQUISITI DI SISTEMA: Risoluzione dello schermo 1024x768 o superiore.

Eseguibile per Windows: non è necessaria installazione, è sufficiente fare doppio clic sul file correlatore.exe.

Eseguibile per Mac: non è necessaria installazione, è sufficiente eseguire il file correlatore.

Eseguibile per Linux: non è necessaria installazione, è sufficiente eseguire il file correlatore.

Starkit (qualsiasi sistema operativo): trascinare il file correlatore.kit sul Tclkit del proprio sistema operativo.

Sorgenti (qualsiasi sistema operativo): i sorgenti dovrebbero funzionare su qualsiasi piattaforma su cui sia installato TCL/TK 8.5 (oppure TCL/TK 8.4 + tile) e tk-img (quest'ultimo è necessario solo se si desidera salvare i grafici in formati immagine diversi da Postscript). Navigare fino alla cartella contenente il file correlatore.tcl ed eseguirlo o, da riga di comando, digitare wish8.5 correlatore.tcl

ISTRUZIONI

----CALCOLO DEI CORRELATI----

  1. Eseguire il file di Correlatore. La prima volta che si esegue l'applicazione apparirà una finestra in cui viene chiesto di specificare la lingua, verrà chiesto di accettare i termini della licenza e se si vuole visualizzare le istruzioni. Dopodiché viene presentata una finestra con un menu, alcuni pulsanti e un riquadro vuoto. La barra di stato in basso mostra il valore corrente della variabile di sostituzione SAMPA.
  2. Se uno o più file di annotazione di Praat (in formato TextGrid) si trovano nella stessa cartella di Correlatore, essi verranno trovati e automaticamente visualizzati all'interno del riquadro; altrimenti, cliccare Apri file o Apri cartella e navigare fino alla posizione del o dei file TextGrid. Una volta aperto/i il/i file, esso/i sarà/anno visualizzato/i nel riquadro. È possibile chiuderne uno selezionandolo e premendo Chiudi file oppure tutti premendo Chiudi tutti.
  3. Per procedere alla segmentazione e al calcolo dei correlati selezionare un solo file e premere Segmenta e calcola correlati. Verrà aperta una nuova finestra in cui sono mostrati i tier presenti nel file TextGrid e viene chiesto di selezionare quello che contiene le misure dei foni. Il programma cerca di riconoscere se un tier è etichettato come SAMPA o come CV ma chiede conferma. È quindi necessario controllare che i tiers siano stati riconosciuti correttamente ed, eventualmente, correggere.
  4. Fare le scelte adeguate e premere Calcola!. Verranno riempiti i tre riquadri a destra. Nel caso venga riscontrata qualche anomalia sarà presentata una finestra di avvertimento (per esempio, nel caso in cui vengano riscontrate etichette diverse da "c", "v" o "#" in un file etichettato come CV). Nel primo riquadro viene mostrato come il programma ha segmentato i dati e le durate di ogni intervallo consonantico e vocalico per il calcolo di %V, dei delta, varco e dei PVI; nel secondo riquardo viene mostrato come il programma ha segmentato i dati per il calcolo dei CCI (questi 2 riquadri presenteranno dati differenti solo se i TextGrid sono stati etichettati come CV e secondo le convenzioni specificate); è possibile salvare questi dati premendo Salva su file. Nel terzo riquadro vengono presentati alcuni dati quantitativi riguardo al file (n° di intervalli vocalici/consonantici, n° di pause, durata media dei segmenti vocalici/consonantici) e i valori dei correlati (calcolati secondo i metodi A e B, v. sotto). Premendo Aggiungi a report, si aprirà una finestra in cui si chiede di scegliere in quale report aggiungere i dati del file (in seguito sarà possibile visualizzare il contenuto del report premendo Gestisci report dalla finestra principale di Correlatore). Nel riquadro in basso viene mostrata una rappresentazione grafica (personalizzabile) dei segmenti consonantici e vocalici.
  5. Ora si può premere Pulisci per pulire i due riquadri ed eventualmente calcolare i correlati su altri tier. Altrimenti premere Chiudi per tornare alla finestra principale. In qualsiasi momento è possibile premere Aiuto per visualizzare questa guida.
  6. (Nuovo in 2.2)Se si dispone di numerosi TextGrid con lo stesso formato (cioè lo stesso numero di tier e le stesse convenzioni di annotazione), è possibile processarli in modo automatico. Una volta che sono stati aperti tutti i TextGrids in Correlatore, basta cliccare su Processa tutti i file in batch. Si aprirà una finestra che richiede di precisare quale tier contiene la segmentazione (1, 2, etc.) e il tipo di annotazione. Cliccando su Vai! viene avviato il batch e, se tutto va come previsto, si troveranno i risultati nel report.

----REPORT E GRAFICI----

Dal riquadro a destra della finestra principale di Correlatore è possibile gestire i report (un report contiene i risultati del cacolo dei correlati di uno o più file). In alto c'è un menu che permette di selezionare un report tra quelli esistenti. Per visualizzare ed, eventualmente, effettuare modifiche al report selezionato, premere Gestisci report: verrà aperta una nuova finestra in cui sono mostrati tutti gli item presenti nel report. Cliccando sopra ognuno di essi ne vengono visualizzati i valori. È possibile rinominare uno o più item, eliminarli o calcolarne la media. In quest'ultimo caso, nel nuovo item contenente le medie, saranno presenti anche aggiornati i valori di ErrBar (errore standard o deviazione standard a seconda della scelta dell'utente), che verranno utilizzati per le barre d'errore nei grafici. Quindi, per esempio, è possibile far segmentare un file a 2 persone, calcolare i correlati su entrambi i file, salvare i risultati nel report e calcolarne la media: in questo modo quando si creerà un grafico con questi dati, verrà mostrato un punto sui valori della media con delle barre d'errore che riflettono la deviazione standard inter-operatore.
È naturalmente possibile creare nuovi report, rinominarli, importarli ed esportarli. Queste operazioni possono essere svolte cliccando sul pulsante-asterisco di fianco al menu di scelta report nella finestra principale. L'importazione/esportazione dei report permette di scambiare facilmente i dati tra più computer o tra più utenti, ma è necessario prestare attenzione al fatto che anche solo una piccola modifica al loro interno potrebbe renderli inutilizzabili da Correlatore: al momento dell'importazione di un report, infatti, Correlatore non controlla che esso sia valido (controlla esclusivamente che sia in formato di testo), questa responsabilità viene lasciata all'utente.

È anche possibile creare dei grafici a partire dai dati contenuti nel report. Dalla finestra principale è sufficiente scegliere il report che contiene i dati desiderati, il correlato da mettere sull'asse delle x e quello da mettere sull'asse delle y e premere Disegna grafico. Verrà presentata una finestra contente il grafico e varie opzioni per configurarlo: è possibile specificare le dimensioni del grafico, la forma e il colore degli indicatori, il formato degli assi, delle etichette, della legenda, del titolo, etc. Il grafico può essere esportato in diversi formati (JPEG, PNG, GIF, BMP, TIFF etc.) premendo su Salva come immagine o in codice R cliccando su Esporta in R.

----PREFERENZE E CONFIGURAZIONE----

Le preferenze e la configurazione di Correlatore sono persistenti, cioè non vengono cancellate alla chiusura del programma poiché vengono mantenute in un file di configurazione.

La variabile di sostituzione è una variabile che serve a trasformare le trascrizioni SAMPA in sequenze del tipo CV. In essa sono contenuti tutti i simboli che, durante la trasformazione, verranno considerati vocalici: cioè, quando il programma apre un file TextGrid etichettato in SAMPA, ogni etichetta viene sostituita con una V se essa contiene uno dei simboli presenti nella variabile di sostituzione, altrimenti con una C, se essa contiene solo simboli non presenti nella variabile di sostituzione (a meno che contenga # - in qual caso viene considerata una pausa). Il valore di default della variabile è aeiouyAEIOUY@MQV&1236789={} (quindi sono incluse le consonanti sillabiche, mentre i glides vengono considerati consonantici), ma è possibile modificarlo cliccando sulla barra in basso in cui è indicato il valore di questa variabile oppure dal menu Modifica, Modifica variabile di sostituzione.

Le preferenze correlati stabiliscono il metodo di calcolo dei correlati. Esistono 2 possibilità:
A) possono essere calcolati in un'unica statistica, cioè applicando la formula dei delta, varco, pvi o cci su tutti gli intervalli vocalici e consonantici presenti in un tier.
B) possono essere calcolati applicando la formula dei delta, varco, pvi o cci agli intervalli vocalici e consonantici di ogni singolo intervallo interpausale e poi calcolando la media dei valori ottenuti.
A partire dalla versione 2.0 di Correlatore, tutti i correlati vengono calcolati in entrambi i modi (ed entrambi i risultati vengono salvati nei report); tuttavia, è necessario specificare quali risultati utilizzare per la costruzione di grafici: per default vengono utilizzati i correlati calcolati con il metodo A, ma è possibile modificare questo comportamento per ogni singolo correlato cliccando su Correlati nella barra degli strumenti, oppure dal menu Modifica, Preferenze correlati.

Per visualizzare le funzioni di calcolo dei correlati usate dal programma, cliccare su Formule oppure dal menu Modifica, Visualizza implementazione TCL dei correlati. Verrà aperta una nuova finestra con le formule dei correlati, la loro implementazione TCL ed è possibile inserire dei valori numerici o importarli da un file TXT per applicare su di loro le varie formule.

È possibile cambiare la lingua (inglese o italiano) premendo sul tasto corrispondente.

È possibile nasconere o ripristinare la barra di stato, la barra degli strumenti e i suggerimenti tramite il menu visualizza. Sempre da questo menu, su sistemi Unix è anche possibile cambiare tema (default, clam, alt).

Nuovo in 2.2 È possibile escludere alcuni intervalli dal computo dei correlati del ritmo (iniziali di frasi, finali di frase, intervalli troppo poco numerosi in una frase). Per default, nessun intervallo iniziale o finale di frase viene escluso, ma è possibile cambiare questo comportamento modificando i valori nella parte bassa della finestra principale. Da notare anche che se una frase (definita come intervallo tra due pause) contiene meno di 2 intervalli vocalici o 2 intervalli conosonantici, questi valori saranno necessariamente esclusi (infatti sono necessari almeno 2 valori per poter applicare le formule dei correlati ritmici). Questo comportamento può cambiare incrementando il numero minimo di intervalli richiesti (Min. di intervalli per frase). Attenzione: se si è scelto di escludere intervalli finali e iniziali, questi intervalli esclusi non entrano più nel conto di intervalli della frase. Per esempio, con una frase di 10 intervalli (cc - v - c - v - cc - vv - ccc - v - cc - v) in cui vengono esclusi 1 intervallo iniziale e 2 intervalli finali, si ottiene (v - c - v - cc - vv - ccc - v); quindi, se si sceglie di settare 'Min intervals per sentence' a 5, verranno esclusi tutti i rimanenti intervalli (4 vocalici e 3 consonantici). Gli intervalli esclusi vengono mostrati in grigio nella finestra di segmentazione.

RIFERIMENTI

Bertinetto, P. M. & Bertini, C. (2008). On modeling the rhythm of natural languages. Proc. of the 4th International Conference on Speech Prosody, Campinas 2008, 427-430.

Boersma, P. & Weenink, D. (2005) Praat: doing phonetics by computer. Retrieved from http://www.praat.org/.

Dellwo, V. (2006). Rhythm and speech rate: A variation coefficient for deltaC. Language and Language Processing: Proceedings of the 38th Linguistic Colloquium, Piliscsaba 2003, ed. by Pawel Karnowski Imre Szigeti, 231–241. Frankfurt: Peter Lang.

Grabe, E. & Low, E.L. (2002). Durational variability in speech and the rhythm class hypothesis. In: Gussenhoven, C., Warner, N. (eds), Papers in Laboratory Phonology 7, Berlin: Mouton de Gruyter, 515-546.

Mairano, P. & Romano, A. (2010) Un confronto tra diverse metriche ritmiche usando Correlatore. In: Schmid, S., Schwarzenbach, M. & Studer, D. (a cura di) La dimensione temporale del parlato, Atti del 5° Convegno nazionale AISV (Associazione Italiana di Scienze della Voce) (Università di Zurigo, Collegiengebaude, 4-6 febbraio 2009), Torriana (RN): EDK, 79-100.

Ramus, F., Nespor, M. & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal. Cognition, 73/3, 265-292.

Welch, B. B., Jones & K. Hobbs, J. (2003). Practical Programming in Tcl and Tk, 4th ed., Prentice Hall PTR.

Wells, J.C. (1997). SAMPA computer readable phonetic alphabet. In Gibbon, D., Moore, R. and Winski, R. (eds.), 1997. Handbook of Standards and Resources for Spoken Language Systems. Berlin and New York: Mouton de Gruyter. Part IV, section B.

Correlatore è stato ospitato su questo sito per più di 5 anni ma da settembre 2015 è stato spostato su una nuova pagina per facilitarne l'aggiornamento.
Visitate la nuova homepage per scaricare l'ultima versione del software!