VOX_RISONANZA

F1 e F2

formante = concentrazione di energia in una banda frequenziale comprendente una o più componenti armoniche

Alcuni aspetti interessanti della struttura formantica:

- le prime due formanti contengono sufficienti informazioni affinchè il nostro sistema di audio-codifica identifichi e classifichi (non qualitativamente) un timbro vocalico

- ciascuna delle 7 vocali della lingua italiana prevede almeno 5 formanti, situate in zone frequenziali ben precise

- la frequenza della prima formante F1 è in relazione con l’ampiezza dell’apertura della bocca

- la frequenza della seconda formante F2 è determinata dalle diverse posizioni della lingua

Diamo ora un’occhiata a questa immagine: sono raffigurate le frequenze delle prime due formanti di tutte e sette le vocali, con relativo assetto del tratto vocale.
La cosa interessante è che per una medesima vocale la posizione delle formanti non cambia pur variando la frequenza che si sta emettendo.

Ciò che fa la differenza è la diversa quantità di informazioni contenute in ciascuna formante; nella figura qui sotto si nota come emettendo la stessa vocale [a] su frequenze diverse si determinino identiche formanti ciascuna con una quantità diversa di componenti armoniche. Ciò avviene in quanto aumentando la frequenza, il primo armonico si sposta visivamente verso destra, e così tutti gli armonici successivi, che sono suoi multipli interi.

Questo è anche uno dei motivi per cui facciamo più fatica a notare differenze timbriche tra due soprani piuttosto che tra due bassi.

Altro aspetto particolare interessante: il picco della prima formante aumenta di frequenza dalla [i] fino alla [a], per poi decrescere e tornare alla posizione di partenza dalla [a] alla [u].

Il motivo è semplice: F1 è in relazione anche con l’ampiezza della cavità faringea (dietro la lingua per intenderci), che in effetti, osservando la figura, prima diminuisce e in seguito aumenta.

Idem dicasi per le posizioni di F2 che si posiziona attorno ai 2700 Hz nella [i] (cavità buccale piccola) e man mano scende fino ai 700 Hz nella [u] (cavità buccale ampia).

Uberti

In questa figura appare ben evidente l'immutabilità dei picchi formantici, su medesima vocale, pur al variare della frequenza emessa; in ordinata abbiamo l'intensità, in ascissa la frequenza. Ciò è dovuto al fatto che la frequenza della componente armonica fondamentale (praticamente l'altezza del suono che stiamo emettendo) non è in relazione con l'ampiezza delle cavità di risonanza:

Georgia State University

In quest’altra immagine abbiamo una chiara visione spettrografica di F1 e F2 e loro variazioni per ciascuna vocale:

Uberti: le sette vocali della lingua italiana sintetizzate per chiarezza di esposizione come se fossero cantate da un basso sulla stessa nota fa1 (= 87,30 Hz): in alto lo spettrogramma dell’esempio vocale; nella colonna sinistra gli schemi degli atteggiamenti articolatori, ricavati da radiografie; nella colonna destra gli spettri delle sette vocali. Nello spettro di ogni vocale si riconoscono facilmente i gruppi di armonici dall’aspetto di picchi montagnosi, chiamate “formanti”. Nello spettrogramma le stesse formanti appaiono come annerimento degli stessi gruppi di armonici.

Per contro è interessante notare, come già menzionato, come al variare della frequenza di una medesima vocale le formanti cadano sempre nelle medesime bande frequenziali:

Uberti

In pratica la posizione invariabile delle formanti mi garantisce il riconoscimento e l’identificazione timbrico-vocale a prescindere dall’altezza del suono emesso; infatti se campionassimo una qualsiasi frequenza vocale e poi via MIDI suonassimo una scala ascendente dalla nota più bassa alla più acuta, sentiremmo un timbro che da muggito si trasforma in timbro da polmoni pieni di elio.

Ciò perchè mutando il pitch cambia anche la distanza frequenziale tra le formanti. Questo è uno dei motivi per cui uno strumento campionato deve essere costituito da un campione per ogni singola nota: si campiona un do suonato da un pianoforte e si assegna al tasto do corrispondente, poi si suona un do#, si campiona e si assegna al tasto do#, e via dicendo.

Ecco un esempio del comportamento formantico della voce umana, prima con [i], poi con [ò], e le zone formantiche rimangono invariate, per finire col terzo esempio, una [i] compressa e dilatata digitalmente in modo progressivo, e le zone formantiche seguono l’andamento (gli esempi partono al 7° sec.):

Graficamente vi è un modo molto semplice per coordinare l’azione delle prime due formanti F1 e F2 il cui rapporto determinerà le diverse vocali, ovvero si prende un piano cartesiano e sull’asse x si dispongono le frequenze di F1 e sull’asse y le frequenze di F2, in questa maniera:

ho cerchiato in rosso molto approssimativamente le coordinate delle prime due formanti, nel senso che ad esempio la vocale [è] (/e/ aperta), emessa con voce liricamente ben impostata potrebbe risultare come F1= 600 Hz e F2=1400 Hz.

Da questo diagramma si evince quindi che modificando la banda di F2 da 800 Hz verso i 2300 Hz, e lasciando invariata F2 a 350 Hz, si passi da [u] verso [i].

Riflettendoci appare chiaro, infatti nel passaggio da una vocale all’altra il vocal tract assume forme diverse grazie ai movimenti di labbra, lingua, palato molle e spostamenti della laringe e della mandibola, venendosi a creare quindi al suo interno cavità più o meno ampie, la dimensione delle quali determina il rinforzo di certi gruppi di armonici (formanti) piuttosto che di altri.