I formati audio ad alta risoluzione sono, da tempo, argomento di discussione per gli appassionati. Archiviati (o almeno ridotti a minuscole nicchie) i tentativi di nuovi supporti fisici quali SACD e DVD Audio, che non sono mai riusciti a sostituire il buon vecchio Compact Disc, si stanno
moltiplicando sul web i servizi di download di musica liquida in formati ad alta risoluzione, così come si diffonde l'hardware (che si tratti di singole unità DAC, di amplificatori dotati di ingressi digitali, o anche semplicemente di schede e interfacce audio) per la riproduzione degli stessi.
Ma, prendendo a termine di paragone la classica qualità CD (44.1 kHz e 16 bit), la differenza qualitativa promessa dai cosidetti formati HD (fino a 192 kHz e 24 bit) è realmente tale? E' percepita dall'ascoltatore medio? O, al contrario, si tratta soprattutto di marketing?
La questione è stata affrontata in un interessante articolo di Christopher Montgomery, apparso tempo fa su Xiph.org, articolo in cui si discute nei dettagli l'effettiva utilità dei formati audio ad alta risoluzione, tipicamente a 192 kHz e 24 bit: 24/192 Music Downloads ...and why they make no sense (Download musicale a 24/192 ...perché non ha senso).
Le conclusioni dell'autore sono decisamente critiche riguardo certo marketing musicale: a suo avviso, non solo i formati ad alta risoluzione sono sostanzialmente inutili sul piano qualitativo, ma talvolta possono essere addirittura peggiori di quelli a risoluzione standard.
Proviamo a riassumere brevemente alcuni dei concetti chiave affrontati nell'articolo (di cui, ad ogni modo, consiglio vivamente la lettura).
- La prima questione posta da Montgomery riguarda le capacita uditive dell'uomo. L'udito umano, nelle condizioni migliori (ovvero nel caso di una persona giovane e possibilmente allenata all'ascolto), percepisce suoni dai 20 Hz ai 20 kHz; pur tenendo conto del teorema di Nyquist/Shannon (secondo il quale il limite superiore di frequenza di una registrazione, è pari alla metà della frequenza di campionamento), ascoltare un file audio a 192 kHz sarebbe un po' come pensare di poter vedere i raggi X, o gli infrarossi...
- L'audio a 192 kHz non suona meglio; anzi, può suonare peggio.
Poiché qualsiasi DAC e qualsiasi amplificatore audio introducono una piccola quantità di distorsione, che tende ad aumentare significativamente alle frequenze molto basse e molto alte, secondo Montgomery, la presenza di frequenze elevate non udibili nel materiale riprodotto, può causare un leggero aumento della distorsione - che si può spostare - anche nella gamma sonora udibile, con un peggioramento generale della qualità audio.
L'autore precisa come esistano varie soluzioni tecniche per eliminare il problema, ma si tratta di approcci che comportano una spesa aggiuntiva superflua, quando è molto più semplice risolvere la questione alla base evitando la riproduzione di materiale contenente frequenze così elevate, comunque non udibili.
- Secondo l'autore, il campionamento audio oltre i 44 o anche i 48 kHz, e in particolare quello a frequenze elevatissime (come i 192 kHz), non comporta nella pratica miglioramenti qualitativi udibili in fase di riproduzione. La frequenza di campionamento influisce soprattutto sulla risposta alle alte frequenze del materiale audio; ma se è vero che, sul piano teorico, un campionamento a 44.01 kHz garantisce una gamma di frequenze adeguata in fase di riproduzione, ci sono alcune motivazioni tecniche che (per la presenza del filtro anti-aliasing) suggerirebbero comunque di campionare a frequenze più elevate in fase di digitalizzazione.
Per spiegare le argomentazioni di Montgomery, facciamo un passo indietro e torniamo al teorema di Nyquist/Shannon: come accennato sopra, il teorema afferma che un suono può essere ricostruito fedelmente dal campionamento digitale, se il campionamento stesso avviene ad una frequenza doppia di quella più alta contenuta nel suono originale. Ad esempio, poiché il CD adotta un campionamento di 44.1 kHz, la sua risposta in frequenza arriva fino a 22.05 kHz. La frequenza di Nyquist è la metà della frequenza di campionamento, in questo caso dunque 22.05 kHz.
Prima di essere digitalizzato però, il segnale analogico, passa attraverso un filtro passa basso (detto filtro anti-aliasing) per rimuovere le frequenze superiori a quella di Nyquist: se ciò non avvenisse, le frequenze ultrasoniche non udibili sarebbero convertite in toni udibili, "inquinando" così l'audio originale.
In base a questo, si comprende come campionare a frequenze elevate, abbia il vantaggio di lasciare più spazio fra i 20 kHz (limite udibile superiore) e la frequenza di Nyquist (che, ad esempio, nel caso di un campionamento a 96 kHz, sarà di 48 kHz): questo spazio può essere utilizzato per adottare un filtro anti-aliasing più morbido, con pendenza più lieve, e in generale più affidabile.
In realtà, i moderni convertitori analogico/digitale, superano il problema adottando di default il sovracampionamento (oversampling): in pratica, il segnale da digitalizzare è campionato in automatico a una frequenza più elevata, per poi passare attraverso un filtro anti-aliasing digitale, che può rimuovere con precisione le frequenze indesiderate (i filtri anti-aliasing digitali sono molto più semplici da implementare, precisi e affidabili degli omonimi filtri analogici); il segnale sovracampionato viene quindi ricampionato alla frequenza desiderata.
Ciò significa, suggerisce Montgomery, che con la tecnologia attuale che utilizza il sovracampionamento e i filtri anti-aliasing digitali, è possibile digitalizzare l'audio a 44 o 48 kHz senza nessuna problematica qualitativa.
- Secondo l'autore, anche l'uso (in fase di riproduzione) di una risoluzione di 24 bit, piuttosto che di 16, è superfluo.
Montgomery non sostiene affatto che registrare e mixare a 24 bit (usando poi procedure di dithering per passare a 16 bit) sia inutile; piuttosto, afferma che l'uso dei 24 bit è sprecato nel caso del file finale destinato alla riproduzione.
Per chiarire questo aspetto, cominciamo con il ricordare che, mentre la frequenza di campionamento influisce soprattutto sulla risposta in frequenza, la profondità in bit riguarda principalmente dinamica, rumore e distorsione.
Un file audio a 16 bit presenta, secondo un dato comunemente accettato, un range dinamico di 96 dB. Montgomery sostiene che questo valore sia falsato da un approccio errato al calcolo dello stesso (riferendosi al rumore di fondo sull'intera gamma di frequenze udibile, piuttosto che a quello relativo ad una frazione della stessa - ovvero quello da prendere in considerazione in base alle caratteristiche di funzionamento del nostro orecchio), e che la gamma dinamica potenziale di un file a 16 bit sia in realtà di ben 120 dB, un valore molto elevato, sostanzialmente pari o superiore alle capacità uditive umane.
Aumentare il range dinamico con una maggiore profondità in bit, in pratica, equivale a rendere "più silenzioso" il rumore di fondo: un'operazione che sarebbe inutile, dal momento che già il rumore di fondo ottenibile dai 16 bit, è sostanzialmente inudibile per l'uomo.
- Studi e test: l'autore fa riferimento ad un interessante studio pubblicato dalla Audio Engineering Society (famosa associazione internazionale composta da ricercatori e professionisti del settore audio), dove alcuni tecnici insieme ad alcuni appassionati, dovevano discriminare lo stesso materiale audio in formato SACD e DVD Audio (quindi ad alta risoluzione) da quello a qualità CD (44.1 kHz e 16 bit).
Ovviamente i test sono stati condotti utilizzando numerosi sistemi di riproduzione di elevatissima qualità, dozzine di soggetti particolarmente allenati all'ascolto, in ambienti acustici ideali, con centinaia di prove nel corso di un intero anno.
I risultati sono stati chiarissimi: nessuno si è dimostrato in grado di discriminare le diverse fonti musicali, se non scegliendo casualmente l'una o l'altra.
Un dato oggettivamente difficilmente contestabile, che indica chiaramente come anche persone allenate, non riescano a percepire differenze qualitative reali fra i formati audio ad alta risoluzione e quelli a qualità CD.
Sulla rivista Mix potete trovare un resoconto completo di questo studio: http://www.mixonline.com/news/profiles/emperors-new-sampling-rate/365968
- Effetto placebo: come suggerisce Montgomery, la superiorità qualitativa percepita da molti appassionati nell'ascolto di materiale musicale audio in formati ad alta risoluzione, è fondamentalmente un effetto placebo o, se vogliamo essere più franchi, una suggestione.
Un test serio al riguardo, come ogni esperimento scientifico, dovrebbe essere condotto (come quello citato sopra) in un ambiente controllato e con strumentazione adeguata, con un gruppo di soggetti rappresentativo della popolazione a cui si fa riferimento, in doppio cieco (ove né lo sperimentatore, né i soggetti conoscono la natura del materiale oggetto di test): condizioni sostanzialmente irrealizzabili in ambito domestico, e raramente adottate anche in contesti professionali.
Nel caso dell'audio, è necessario inoltre fare molta attenzione a differenze anche molto piccole di livello (nell'ordine degli 0.2 dB), da correggersi con rilevazioni e apparecchiature specifiche (e non a mano, agendo sul volume): un audio che suona anche leggermente più forte è in genere percepito come "migliore" dalla maggioranza degli ascoltatori.
Ancora, è necessaria attenzione a potenziali problemi di clipping, nel caso non si adottino procedure di ricampionamento adeguate.
Queste ed altre problematiche si possono presentare ad esempio, confrontando le stesse musiche prodotte in formato SACD e CD: infatti, spesso, le fonti master originali sono diverse (o meglio, sono frutto di alcuni passaggi differenti nel percorso di produzione), fatto che rende la comparazione potenzialmente falsata.
Le conclusioni di Montgomery sono chiare: l'audio ad alta risoluzione è fondamentalmente un'esigenza di mercato e di marketing, ma non sussistono assolutamente dati scientifici a prova di una superiorità qualitativa percepibile.
Non mi resta altro da aggiungere se non che, personalmente, condivido sostanzialmente gran parte delle opinioni espresse da Montgomery.
Commenti
Ma avete mai provato ad acoltare i nuovi cd di musica classica, quelli che riproducono brani orchestrali sinfonici,
Registrati con risoluzione di 24 bit 96Khz, facendo il confronto degli stessi brani registrati anni prima a 16 bit?
Be' io ci trovo una gran differenza in definizione e naturalezza, altro che suonare peggio.
Inoltre, facendo il confronto fra il medesimo cd ascltato con DAC vecchia generazione a 16 bit e attuale a 24 bit, anche in questo caso la differenza si sente.
Le orecchie sono quelle che contano, non tanto il resto.
Buon ascolto della buona musica.
Per quanto concerne la digitalizzazion e in fase di ripresa, indubbiamente è meglio campionare a 24 bit per poi ridurre a 16 con procedure di dithering, piuttosto che registrare direttamente a 16 bit.
Circa la frequenza di campionamento, invece, personalmente rimango scettico sull'effettiva utilità di frequenze elevatissime come i 192 kHz anche in fase di ripresa.
Ad ogni modo, parlando dell'audio finale, il confronto può essere fatto fra 2 registrazioni identiche, con identico mastering, compensate anche a livello di volume.
Sarebbe interessante replicare lo studio della AES (che è una delle più prestigiose realtà al mondo in campo audio), ovviamente adottando gli stessi criteri rigorosi necessari in qualsiasi studio scientifico.
Anche l'esperimento mi sembra eseguito correttamente.
Il fatto che i nuovi cd di musica classica si sentano molto meglio può essere dovuto al fatto che sono registrati molto meglio di una volta. Probabilmente i moderni cd ad alto campionamento sono semplicemente registrati meglio.
Rigirando la frittata, se con l'hi-res non si guadagna, allora quando si sente decisamente meglio, è colpa della registrazione "normale" che è fatta male.
In sostanza se ci produce il CD lo fa in modo così economico e trascurato da devastare il risultato in termini qualitativi, mentre con l'hi.res si dispone di un brano inciso come si deve, ecco che allora gli hi-res hanno senso e come.
Se invece sono una semplice furbata per spacciare in hi-res un file che è stato semplicemente convertito via software, alloria siamo al limite e forse oltre la truffa (del resto in ambito cinematografico è un continuo vendere Blue-Ray che sono identici al DVD come qualità a parte nel prezzo assai più caro).
In ultima istanza, se chi produce i CD li facesse curando l'aspetto audiofilo, forse i files hi-res davvero non servirebbero.
Ma visto il sempre decrescente numero di cd venduti mi sa che la bretella tra hi-res e cd normale tenderà ad aumentare più per peggioramento del cd che per miglioramento del campionamento.
C' da dire che se si confronta un file hi-res con il corrispondente vinile inciso come si deve, a mio parere il vinile ne esce vincitore anche se per quastione di sfumature.
Personalmente provengo da una formazione scientifica, e non credo si possa affrontare la discussione, come fanno alcuni, in termini "io sento tanta differenza fra un CD e un file HD".
Sia perché non è un metodo scientifico e tantomeno dimostrabile, sia perché, come spiegato nell'articolo, ci sono quasi sempre nei diversi formati differenze di tipo non qualitativo (ad es. di livello) che falsano la percezione.
Allo stato attuale, a mio avviso, l'audio ad alta risoluzione di per sé è e rimane fondamentalment e esigenza di marketing.
Poi, se escono dischi HD meglio registrati o meglio masterizzati, buon per tutti. Ma la qualità la fanno semmai quei processi di produzione audio, non il formato finale.
Avete mai osservato un suono digitale all'oscilloscopio ?
Se avete osservato la forma d'onda di un suono registrato su CD e un suono preso da un supporto magnetico o elettronico come chiavetta usb, che differenza avete notato ?
Quando avrete risposto alle domande che ho posto avrete la semplice ripeto la semplice soluzione.
Saluti
Tutto questo riguarda i 24bit, non tanto i 192kHz i quali, evitano essenzalmente il dithering (che è per definizione rumore aggiunto alla traccia audio) e "forse" evitare anche molti aliasing e relativi filtri che, anche se per definizione tagliano frequene non udibili, distorcono almeno la fase, se pur leggermente, alle frequenze udibili.
Il problema grosso lo vedo comunque sui 16 bit, per i motivi sopra.
In sintesi, dal punto di vista fisico sono d'accordissimo, ma nei fatti i formati HD fanno eccome la differenza, per motivi soprattuto di produzione e marketing (che non sono affatto trascurabili): permettendo di fatto produzioni con meno compromessi e quindi migliori dal punto di vista della qualità e degli intenti del produttore, e infine una esperienza di ascolto che per certi generi può essere decisamente migliore. Questo si apprezza però a patto di considerare tutta la catena di produzione del disco, non solo la fase di conversione finale che avviene dopo il mastering. Il confronto non va fatto con la stessa traccia a formati diversi, ma con master diversi, ognuno dei quali ha potuto sfruttare tutte le possibilità del formato di destinazione (il paradosso è che a questo punto non sarebbe più un confronto oggettivo perché avverrebbe tra master diversi).
Ho potuto confrontare nelle migliori condizioni di ascolto registrazioni MQA di Tidal e FLAC 24-Bit fino a 192 KHz di Qobuz ma le differenze con un CD ben registrato sono davvero minime, al limite della suggestione: sono CERTO che nemmeno i sedicenti audiofili e guru dell'Hi-Fi sarebbero in grado di distinguere una registrazione da un'altra.
Senz'altro esistono registrazioni di bassa qualità, che suonano male a qualsiasi bitrate.
Detto questo, parlando da professionista, credo non ci sia nulla di male nel mettersi nelle migliori condizioni possibili partendo dalla SORGENTE del suono: se una persona ha i mezzi per potersi permettere un abbonamento streaming ad alta risoluzione, un impianto Hi-Fi rivelatore e un ambiente adeguato... ben venga!
Non penso che il peso del file possa essere preso come misura. E' ovvio che in un file a 24 bit ci sono il 50% informazioni in più di uno a 16 bit. Stesso discorso per la frequenza: da 44 a 88kHz c'è il doppio di informazioni.
Il fatto che ci siano più informazioni non è detto che siano significative e sopratutto udibili/percepibili.
Se a te basta avere il file grosso per sentire bene allora ho una serie di wav... :) scherzo ovviamente.
Il test (da quanto scritto) è stato condotto in maniera precisa ed accurata, in mesi di lavoro e facendo alscoltare i brani a tecnici dell'audio e a gente con l'orecchio allenato (io non ero certamente tra questi), in condizioni ideali e con strumentazione di alto livello.
Non posso mettere in dubbio i risultati. Nessuno può. Oppure qualcuno vuole organizzare un altro test? :)
Io la differenza abissale l'ho sentita nel tanto agognato passaggio dal vinile al CD (e al digitale in genere), a volte anche nel raffronto tra il vinile e il tanto detestato mp3, che però alle mie orecchie (in certi casi e con files codificati ad almeno 160 kbit/S) suona decisamente meglio...
Dipende molto dal proprio personale punto di vista, dai particolari sui quali si concentra la propria attenzione e sulla personale concezione che ognuno ha riguardo quello che dovrebbe essere l'ascolto ottimale.
Dal CD "Red Book" ai formati superiori non mi è parso di percepire una grande differenza in termini di qualità. Anni fa al rimpianto Top Audio (e poi anche Video) assistevo ad una dimostrazione del formato DSD da parte di Sony, e devo dire che la qualità del suono era davvero impressionante, però su un impianto di quella classe, con elettroniche e diffusori allo stato dell'arte, pure l'ascolto di un normale CD premasterizzato come si deve sarebbe stato ugualmente impressionante. Oltretutto, i vizi di forma dell'ambiente in cui si ascolta (il più delle volte non poco inadeguato) pesano molto di più della differenza qualitativa del formato digitale in termini di risoluzione.
Personalmente, restando sul CD "Red Book", trovo migliore la conversione R/2R ladder 4x o 8x oversampling a 18 bit, rispetto alla conversione "bitstream", e non ho mai pienamente capito come cappero fa il DAC bitstream a regolare il duty cycle di un impulso che dura 1"/44100, con una precisione di una parte su 65.536... Teoricamente dovrebbe impiegare un contatore binario, cosa che però richiederebbe una frequenza di clock nell'ordine dei GHz, quindi immagino che in realtà si ricorra a qualcosa di molto più semplice, che in conseguenza di detta semplificazione funziona un po' a minchia di segugio. Nel caso del SACD so che si fa uso di tecniche di modulazione più accurate (e costose), e immagino che sarebbe possibile utilizzare lo stream DSD per pilotare direttamente i finali di un amplificatore in classe D (o in classe T), ottenendo non solo di inviare ai diffusori un segnale la cui purezza sarebbe pari a quella della sorgente, ma anche di portare la "vera Hi-Fi" alla portata di ogni audiofilo...