La scorsa primavera ho avuto la fortuna di lavorare alla creazione degli effetti sonori di “Youth” di Paolo Sorrentino, primo film in Italia rilasciato in Dolby Atmos. Essendo una tecnologia recente non esiste ancora una letteratura o delle risorse ben organizzate per orientarsi nella produzione di una colonna sonora di questo tipo, ne sotto il profilo tecnico tantomeno sotto il profilo estetico. Quello che segue è il racconto della mia esperienza e le mie personalissime riflessioni sulla resa e le potenzialità di questo formato. Vediamo come funziona
Il sistema di riproduzione
Atmos è un formato surround che prevede la diffusione del suono attraverso un sistema che può arrivare fino a 64 casse indipendenti. Virtualmente ogni cassa potrebbe far suonare cose completamente differenti dalle altre. Il sistema oltre ad avere file di speaker lungo le pareti della sala, prevede anche due file installate sul soffitto, a differenza dei formati “tradizionali”, il suono è full range come il fronte, questa caratteristica è garantita dalla presenza di due subwoofer sulla parete posteriore della sala, si ha la possibilità di spostare il suono dal fronte al retro senza che il timbro sonoro venga alterato in maniera sensibile.
Il sistema di produzione
Come è impostato il workflow per questo formato? Bisogna intanto immaginare la colonna sonora come se fosse composta da due strati (mi permetto di chiamarli così) con funzionalità diverse, sono il bed e gli oggetti.
Il bed
Il bed si avvicina concettualmente alla classica lavorazione surround 5.1 o 7.1 ma può anche essere esteso a 9.1 aggiungendo una sorgente stereo proveniente da sopra. Il bed può essere integralmente lavorato con Protools senza particolari accessori, per lavorare in 9.1 basta fare il setup delle uscite come nella figura che segue. Naturalmente con questa configurazione non é possibile eseguire spostamenti del suono dal fronte ai canali over head con gli strumenti di pan di protools.
In riproduzione il bed si comporta quasi come il surround classico e cioè considera gruppi di casse come back surround LR, side surround LR nel caso del 7.1 e over head LR nel caso di un bed 9.1. Il bed non considera i 64 speaker come indipendenti, se ad esempio sposto un suono dal lato al retro, quel dato suono verrà riprodotto prima dal gruppo di casse sul lato e poi dal gruppo di casse sul retro. Stesso discorso vale per gli OverHead, ad esempio, se assegno un ambiente stereo a OHL e OHR, la traccia L verra riprodotta sull’intera fila OHL ed R sull’intera fila OHR.
Gli oggetti
Gli oggetti sono la novità sostanziale di questo sistema. Bisogna immaginarli come singoli suoni liberi di passare da una cassa all’altra o di stazionare in un particolare speaker all’interno della sala, possono essercene fino a 118 contemporaneamente. Gli oggetti considerano le 64 casse come indipendenti. Per far si che ciò avvenga è necessario tutto il corredo hardware e software Dolby che lavora con Protools.
Il sistema di gestione degli oggetti si compone di un plug-in di pan (Fig 1) che prevede un asse z e comunica con un software esterno, il Dolby Monitor (Fig 2). La parte software del sistema crea delle coordinate 3d e le invia all’RMU (la componente hardware) sotto forma di metadati sincronizzati all’audio. La RMU è una unità di rendering che riceve l’audio da protools tramite MADI, i metadati tramite ethernet e infine gestisce le uscite fisiche smistando l’audio sull’impianto. Un’altra funzione della RMU è quella di generare il master finale.
Il sistema è scalabile, quindi quando si memorizzano i pan degli oggetti lo si fa in maniera virtuale su delle coordinate 3d. Queste informazioni saranno parte integrante del master finale è se il film verra riprodotto in sale diverse, con un diverso numero di casse, il movimento del suono si adattera al tipo di impianto che troverà in quella particolare sala.
La fase di lavorazione è agevole, non ci sono particolari difficoltà e i tempi tecnici per gestire la spazializzazione sono rapidi, le complicazioni (esclusivamente in termini di tempo) emergono solo al momento della produzione del master audio.
Volendo semplificare, il prodotto finale che verra letto dal processore Dolby CP850 va immaginato più simile alla struttura di un video game che ad un file audio, infatti è composto da una directory contenente le informazioni audio e i metadati che forniscono al processore le coordinate per la riproduzione degli oggetti sugli speaker in base alle scelte operate nello spazio virtuale 3d durante il missaggio.
La produzione dei contenuti
Personalmente la vera difficoltà non è stata tanto nell’apprendimento degli strumenti. Quello che mi ha messo in difficoltà è stata piuttosto la preparazione mentale ad un nuovo modo di ascoltare. I mesi prima di iniziare il lavoro sono stati densi di ragionamenti su quali soluzioni tecniche adottare per sfruttare al meglio il sistema. Si è carichi di aspettative quando si immagina di avere la possibilità di creare una colonna audio 3d da zero e quindi si comincia a ragionare sul tipo di materiale audio che bisogna registrare, sulla riverberazione e su come gestire gli oggetti per arrivare al risultato finale desiderato; quello che si auspica è un’esperienza di immersione realistica. Più in avanti vedremo che le mie aspettative non sono state tutte completamente soddisfatte, forse per errori di valutazione su come determinate cose avrebbero dovuto rispondere, forse per limiti oggettivi del sistema.
La registrazione degli ambienti e il montaggio degli effetti sonori
Youth è un racconto intimista ambientato in un lussuoso albergo tra le montagne svizzere. Le principali necessità sonore per la narrazione sono sopratutto le ambientazioni. Avendo la possibilità di riprodurre dei background in 9.0 mi sono avvalso della preziosissima collaborazione di Gabriele Fasano di surround-ambiences.com per registrare gli ambienti in 9.0. Per ragioni logistiche la scelta del rig microfonico è ricaduta su un compatto Double MS più due omni direzionali per gli overhead (Fig. 4). Questo set-up oltre ad avere una maneggevolezza adatta al trasporto a piedi su per i monti, assicura una certa gestione della de-correlazione di fase durante la post-produzione. Nel caso di un formato 9.0 la cosa essenziale per una compatibilità verso i formati inferiori è che i microfoni siano il più decorrelati possibile. Gli omnidirezionali si comportano benissimo in tal senso. La cosa più logica da fare era quella di configurare il rig di ripresa in maniera che fosse concettualmente complementare alla posizione delle casse di un impianto 9.1 così come lo presenta la Dolby (Fig. 3)
Il vantaggio di lavorare in Double MS è la possibilità di convertirlo in B-Format avvalendosi dell’utilizzo del DMS2B. Una volta che si ha il segnale B-Format lo si può convertire in 7.0 con Harpex, successivamente, aggiungendo gli omnidirezionali, si compone il 9.0 necessario alla realizzazione dei background sonori.
Tutto questo lavoro è stato giustificato dalla volontà di non voler usare gli ascolti overhead solo in alcuni casi, volevo evitare di accendere e di spegnere all’occorrenza l’audio sul soffitto, avevo in mente di mantenere una costante di tridimensionalità sonora per tutta la durata del film. Anche la riverberazione è stata affrontata con la stessa idea di continuità e la scelta è ricaduta sull’utilizzo del Phoenixverb per via della sua funzione di 3d Link che permette di creare un riverbero con una diffusione che va oltre il 7.1.
La resa in sala
Il risultato è stato molto soddisfacente in termini di qualità assoluta, ma la spazializzazione delle riprese non è stata come la immaginavo. La sensazione di altitudine o l’esistenza di differenti campi sonori in mezzo alla sala, cioè la tridimensionalità, è poco evidente. La spiegazione si deve ricercare in come l’essere umano percepisce il suono.
Il posizionamento delle sorgenti sonore viene percepito grazie alla differenza di tempo con cui le onde sonore raggiungono le orecchie. Se un dato suono è alla destra di chi lo ascolta, l’orecchio destro lo capterà prima di quello sinistro. Tutto si traduce in una lieve differenza di fase, ma è proprio grazie a questo scarto che il cervello riconosce la posizione di un suono. Questa capacità di percepire lo spazio funziona molto bene sul piano orizzontale perché le orecchie sono poste al lato della testa. Per lo stesso motivo abbiamo meno sensibilità per l’altezza. Un’abilità di questo tipo sarebbe possibile se avessimo un’orecchio sulla fronte e l’altro sul mento. È stato appurato che una percezione minima dell’altezza avviene ma è limitata ad un’angolo di 30° rispetto alle orecchie (Fig. 5). La configurazione di ascolto Atmos prevede che le casse siano posizionate allo zenit dello spazio di ascolto e ciò non favorisce una spazializzazione “naturalistica”.
La scoperta in itinere di questa cosa ha un po ridimensionato le mie aspettative sul potenziale di tridimensionalità stazionaria che immaginavo di poter ottenere. Il vantaggio vero nella spazializzazione lo si ottiene soprattutto quando si ha un suono molto dinamico in termini di movimenti di pan-pot, fly-bys tra il fronte e il retro e in generale quando si piazzano suoni distinti in una qualsiasi parte del surround, questo non tanto per via delle casse sul soffitto quanto per la possibilità reale di far suonare il surround in maniera puntiforme. Esiste però un rovescio della medaglia. Con un suono localizzato in maniera così precisa, la posizione di ascolto dello spettatore e l’acustica stessa della sala hanno un’influenza molto evidente sulla resa e diventano un fattore determinante anche nelle scelte di mix. Immaginate di voler costruire un bosco piazzando singoli cinguettii tutt’intorno al surround, cassa per cassa. Sedersi in un punto piuttosto che in un’altro darà una sensazione molto diversa di ciò che ascoltiamo. Al cinema è sempre stato così, la corsa al posto centrale è nota a tutti, ma nel caso dell’Atmos lo è ancora di più. Non a caso la Dolby ha avviato un nuovo servizio di progettazione delle sale cinematografiche con tutte le caratteristiche adatte per fruire al meglio questo tipo di sistema.
Mirko Perri