Die Realität als Kriterium
Wichtig ist nun die komplementäre Frage, was denn ein Orchester oder eine Band für einen maximalen Dynamikumfang liefert, in der Realität im Konzertsaal und auf der Aufnahme, die wir in unserem Hörraum geniessen möchten.
Laut-Leise-Unterschiede sind ein Stilmittel in der Musik. Ein Komponist baut damit Spannung auf, will Bewegungen, Emotionen ausdrücken und auch gezielt auf einen musikalischen Höhepunkt hinarbeiten. Nicht jedes Musikgenre arbeitet gleich intensiv mit diesem Stilmittel. Auch kann ein Singer/Songwriter mit Gesang und Akustik-Gitarre nicht den gleichen Dynamikumfang erreichen wie eine Gruppe mit mehreren Instrumenten oder gar ein grosses Symphonieorchester.
Die Konzertrealität unterscheidet sich nicht grundsätzlich von der Heimmusikwiedergabe, was den Dynamikbereich angeht. Auch in der Tonhalle Zürich muss das Piano (nicht das Klavier, die leise gespielten Musikteile) in den hinteren Rängen noch hörbar sein. Die maximal schmerzfrei hörbare Lautstärke definiert der Mensch und nicht der Saal. So gesehen könnte die real spielbare Dynamik im grossen Saal sogar kleiner sein als auf einer Einspielung auf Tonträger (Schmerzgrenze der ersten Reihe und Hörfähigkeit für leise Töne in der hintersten Reihe).
Für elektrisch verstärkte Pop-Konzerte in Stadien gelten allerdings andere Realitäten, respektive geht es um Gehörschutz oder Ohrensausen am Tag nach dem Konzert. Gut, kann man im Wohnraum die Abhörlautstärke selbst bestimmen und so die auf der Aufnahme verfügbare Dynamik optimal wirken lassen.
Analyse
Bei der Musik sind Melodie, Harmonie, Rhythmus, Tonalität und Dynamik, verbunden mit der Darbietung und Interpretation, die wichtigsten Aspekte eines Musikstücks. Aber auch technische Gesichtspunkte wie Klangbalance, zugelassene Dynamik, Mischung, Mastering und der Einfluss des Aufnahme- und Distributionsformats wirken sich darauf aus, welchen Hörgenuss wir empfinden, ob Emotionen geweckt werden.
Und wir können all diese Aspekte bis zu einem gewissen Grad anhand von Grafiken und Zahlen bewerten und diskutieren. Dies mit einigen ausgesuchten Alben aus Pop, Jazz und Klassik. Der für diesen Artikel gewählte Umfang kann nicht repräsentativ sein, gibt aber einen klaren Hinweis, welchen Dynamikumfang bei Alben aus diesen Genres üblicherweise zu erwarten ist.
Wo wird am meisten und wo am wenigsten Dynamik geboten?
Zugegeben, ein etwas unfairer Titel, da je nach Grösse des Klangkörpers auch mehr Dynamikumfang möglich ist. Dynamikumfang darf aber nicht einfach auf maximale Lautstärke oder akustische Dichte reduziert werden. Es geht um die Differenz zwischen dem leisesten und dem lautesten Teil innerhalb eines Musikstücks, respektive der Entwicklung und Varianz der Lautheit innerhalb eines Musikstücks. Dass da bei einem typischen Pop-Song von rund dreieinhalb Minuten Spieldauer weniger Entwicklungsmöglichkeiten drin liegt als bei einem viel längeren Musikstück, ist der Gattung Lied geschuldet.
Eine Lautstärkezunahme kann kompositorisch durch Hinzufügen von weiteren Instrumenten/Stimmen oder spieltechnisch durch lauter spielen/singen (Crescendo) erreicht werden. Und logisch ist das auch in der Umkehrung als Decrescendo/Diminuendo so.
Schauen wir mal, wie das einer der Grössten der Musikgeschichte macht und wie das aufnahmetechnisch erfasst wird.
Klassik – Meisterwerke in zahlreichen Formen
Der Beginn des ersten Satzes von Beethovens Triplekonzert (Orchesterwerk mit drei Solisten: Klavier, Violine und Cello) ist ein Paradebeispiel für den dramaturgischen Aufbau eines Musikstückes. Im Folgenden betrachten wir die ersten 65 Sekunden des Stückes – was nur einen Teil der Einleitung ausmacht, der ganze Satz dauert rund 18 Minuten!

Grafik 1: Abgebildet die Dynamik-Struktur des ganzen Satzes anhand der Wellenform. Je höher der Ausschlag der grünen Linien um die Mittelachse, desto lauter die Passage.
Die Zeitachse im Bild oben läuft von links nach rechts. Zoomen wir auf der Zeitachse, sehen wir die Wellenform im Detail, wie die Rille einer Schallplatte, die ja ein mechanisches Abbild der Schallwelle ist. In dieser Hüllkurve sind alle Frequenzanteile des Musiksignals enthalten.

Grafik 2: Die ersten 65 Sekunden des Konzertes (33 Takte) haben einen Lautstärkeanstieg von insgesamt 39 dB! Dies ist von sehr leise bis laut im Hörraum, was am Ende einem Schalldruck von rund 85 dB im Hörraum des Autors entspricht.
In Grafik 2 sehen Sie oben die Pegel in dB und unten Beethovens Lautstärke-Angaben in der Partitur, die umfangreicher sind als hier dargestellt.
(dBFS* = durchschnittliche RMS-Amplitude des Messbereichs)
39 dB Lautstärkeunterschied im Wohnzimmer? Geht das, ist das erträglich? Kein Problem! Unser Gehör kann das verarbeiteten. Das Triplekonzert ist mit der Antonini-Aufnahme unseres Beispiels ein wahrer Hörgenuss: aufnahmetechnisch und von der Interpretation her. Takt 1 beginnt sehr leise mit den Celli und Kontrabässen. Das Klangtimbre ist fein wahrnehmbar. Auch im Fortissimo ist die Durchhörbarkeit gegeben. Ob die Spannweite dieser Aufnahme und der Detailreichtum auch wirklich hörbar sind, hängt natürlich auch von der Qualität des Audiosystems und von der Beschaffenheit des Hörraums ab.

Grafik 3: Gesamter Dynamikumfang des 1. Satzes. Merken Sie sich den Wert für die Loudness-Range, ganz unten in der Tabelle. Der Wert 18.0 LU (Loudness Units) gibt einen Anhaltspunkt über die wahrgenommene Lautheit unter Weglassung von Extremwerten.
Beethoven-Konzert mit knapp 40 dB Dynamikumfang in der Einleitung und einem gesamten Dynamikumfang von rund 60 dB für den ganzen 1. Satz – 90 dB wären machbar. Also kein Problem, selbst für ein grosses Orchester. Bleiben 36 dB Headroom bei der CD und sogar 84 dB im 24-Bit-Format. Overkill – nicht zwingend, doch mehr dazu später.

Grafik 4: Nur vier Streichinstrumente, dennoch kann der Dynamikumfang beträchtlich sein.
Schauen wir mal, was ein Streichquartett mit zwei Violinen und je einer Bratsche und einem Cello für einen Dynamikumfang produzieren kann: satte 37 dB im Extremfall (4. Satz, Presto). Alle vier Streicher spielen bei Minute 5:12 (Punkt -44,9 dBFS in der Grafik 4) sehr leise (pp) und mit reduziertem Tempo, um dann mit einem Crescendo das ursprüngliche Tempo (Presto) wieder aufzunehmen.
Unsere heutige Technik kann dies problemlos und akkurat abbilden. Da stört kein noch so feines Hintergrundrauschen, und der musikalische und lautstärkemässige Höhepunkt versinkt nicht in einem Klangbrei mit angestiegenen Verzerrungen. Um dies zu erreichen, brauchen wir eine Aufnahmetechnik mit genügend Headroom.
Jazz – ein Füllhorn an Stilen und Formationen
Die Fusion-Jazz-Band «Flim and The BB’s» machte in den frühen 80er-Jahren mit spektakulären Aufnahmen und sehr kreativen Musikstücken auf sich aufmerksam. Man erkannte und nutzte das Dynamikpotenzial der Digitalaudio-Technik. Tricycle: Klavier, Schlagzeug und Bass – clever arrangiert, präzise gespielt und sauber aufgenommen, zeigt das Stück, wie Klangdichte durch Spieltechnik und Instrumentierung anstelle der unsäglichen Dynamikkompression erzeugt wird.

Grafik 5: Tricycle von Flim & The BB’s – 17.7 LU Dynamikumfang ist selbst für Jazz ein sehr hoher Wert. Die Durchhörbarkeit ist selbst bei lauter Wiedergabe, dank der hervorragenden Aufnahme gegeben. Allerdings muss die Audiokette pegelfest sein!

Grafik 6: Tricycle von Flim & The BB’s. Aha! Ein Sample clippt. Ein einzelnes geclipptes Sample (ISP) ist kein Problem, aber dieses Beispiel zeigt das technische Verhalten der Digitaltechnik exemplarisch.
Inter-Sample-Clipping (ISP)
Dies ist die Einleitung zum Thema, das später noch wehtun wird.
Die diskreten numerischen Werte eines digitalen Audiosignals werden bei der D/A-Wandlung zur Rekonstruktion des analogen Signals herangezogen. Dabei werden auch die bei der A/D-Wandlung nicht erfassten analogen Signalanteile zwischen den Abtastwerten (Samples) wiederhergestellt. Der rekonstruierte, analoge Wert kann höher sein als der digitale Wert des Samples = Spitzenwert zwischen Samples / Inter Sample Peak. Dies alles ist absolut kein Problem, es sei denn, das digitale Sample ist sehr nah an der digitalen Nulllinie von 0 dBFS. Siehe Grafik 7 und Grafik 8.

Grafik 7: Dieses 12-kHz-Sinussignal (fs = 48 kHz/s) wird mit 4 Samples (pro Zyklus) repräsentiert. Der Spitzenwert des zurückgewandelten Signals (analog -0,55 dB) ist höher als der binäre Wert (-3,35 dBFS).
Der digitale Wert von Grafik 7 ist weit genug von Digital-Null entfernt (-3,35 dBFS) für eine korrekte Rückwandlung.

Grafik 8: Das 12-kHz-Sinussignal (fs = 48 kHz/s) wird mit 4 Samples (pro Zyklus) repräsentiert. Der binäre Wert des Samples ist bei -1,35 dBFS. Der Headroom von 1,35 dB reicht nicht aus, um das analoge Signal vollständig rekonstruieren zu können.
In Grafik 8 wäre ein Headroom von 2,8 dB notwendig, um das analoge Signal vollständig zu rekonstruieren, wie dies in der Grafik 7 gegeben ist. Die Kuppe wird abgeschnitten, was zu heftigen Verzerrungen führt. In der Wellenform-Statistik werden 1306 geclippte Samples gelistet (Signaldauer 5 Sek.).
Das Thema ISP wird uns später noch beschäftigen.
Till Brönner – Jazz-Trompeter
«Bumpin’» ist ein ruhiges, balladenartiges Stück mit einem Ostinato-Grundrhythmus von Klavier und Bass. Die Natur des Stückes mit den melodischen Figuren von Trompete und Hammond-Orgel sorgen für eine gleichförmige Vorwärtsbewegung. Grössere dynamische Akzente sind nicht vorhanden. Der Lautstärkeumfang beträgt rund 27 dB.

Grafik 9: Till Brönner, «Bumpin’». Das Stück hat einen Dynamikbereich von rund 27 dB, wird aber mit 4.3 LU als gleichmässig laut empfunden.
Pop, Mainstream und die Uniformität der Musikproduktion
Unter dem Genre Pop tummeln sich eine Vielzahl von Untergattungen, die je nach Präferenz auch als eigene, primäre Genres wahrgenommen werden können: Rock, Metal, Blues, R&B. Uns interessiert in diesem Artikel, wie viel Dynamikumfang Musikstücke haben, ob diese Dynamik im Wohnraum abgebildet werden kann und auch welchen Transportcontainer (wie viel Bits) wir benötigen, um diese Dynamik vermitteln zu können.
In dieser Kategorie eine gerechte Auswahl zu treffen, respektive ein aussagekräftiges Resultat zu erhalten, kann fast nur zu kurz geraten. Halten wir uns an Titel, die auf ein breites Interesse stossen und so auch für das ganze Musikbusiness ein Massstab sein könnten.
Ist dem so, dann kommt man nicht um Taylor Swift herum. Betrachten wir das Stück «Lavender Haze» (3:22 Min.) aus ihrem neusten Album «Midnight». Das Musikstück wird den Genres Ambient House, Dream-Pop, Synth-Pop, R&B, Disco zugeordnet. Typisch für die (Mainstream-)Liedgattung ist eine Spieldauer von unter 5 Minuten, mit überschaubarer musikalischer Entwicklung und in der Folge auch geringem Dynamikumfang, aber mit Gewichtung der Textaussage.

Grafik 10: Der Unterschied zwischen den leisesten und lautesten Signalanteilen bei «Lavender Haze» liegt bei rund 20 dB. Die wahrgenommene Dynamik ist allerdings gering mit 2.9 LU.
Die Perzeption des Songs ist uniform laut. Vernachlässigbare geclippte Samples, die Stimme klingt sauber und klar.
The Beatles Resurrection
Zugegeben, ein übertriebener Titel. Moderne KI-Audiotechnik hat mit alten Demotapes den 1980 in New York von einem Idioten ermordeten John Lennon und den 2001 verstorbenen George Harrison nochmals auf einer Neuveröffentlichung mit Ringo und Paul aufleben lassen. Den Titel «Now and Then» hat John im Home recording als Tonfragment eingespielt – Text und Melodie. Dank KI ist es heute möglich, Johns Stimme von der Klavierbegleitung zu separieren. Das gelingt hervorragend. Es gab schon vor 1995 Versuche der drei Beatles, Johns Lied einzuspielen, was aber an der damaligen Technik scheiterte.
So, nun wurden John Stimme und Georges Spiel rekonstruiert, restauriert und in die Produktion mit Paul und Ringo eingefügt. So weit, so gut. Johns unvergleichliche Harmonik prägt den Song. Doch was das Mastering dann aus den Stems und Takes macht, ist … Urteilen Sie selbst.

Grafik 11: Im Schnitt 9 dB Dynamikumfang (1.5 Bit), eine Loudness-Range von 4.6 LU. Die Dynamik wurde massiv komprimiert.
Verlust an Klangfeinheiten und das Erzeugen eines dichten, breiigen Sounds sind die Folge. Ein Limiter begrenzt dann alles auf -3 dB. Zumindest hat der Mastering-Ingenieur ein Inter Sample Clipping verhindert.
Die Beatles-Single ist ein Beispiel für eine irregeleitete Musikproduktion. Das Lied hat Gattungsbedingt schon weniger Dynamik als andere Werkgattungen. Dieses Stilmittel dann noch künstlich zu reduzieren, ist fragwürdig, ist aber im Mainstream eine allgegenwärtige Praxis. Wenn dann die Akteure in diesem Business auf YouTube noch episch Videos über die Hörbarkeit von ISP diskutieren – ohne technische Notwendigkeit, denn selbst das 16-Bit-Format bietet genügend Spielraum –, dann muss man sich fragen, ob diese Leute überhaupt etwas von Klangkultur und Klangfeinheiten verstehen.
Wir sind beim Thema «Loudness War»: lauter, lauter, immer lauter scheint die Devise. Das Beispiel Remaster zeigt dies.
Remaster – restaurativ oder destruktiv?
Das Aufbereiten älterer Einspielungen mit digitalen Reparaturtools eröffnet neue Möglichkeiten der Klangwertsteigerung. Im Ansatz kann ein Remaster restaurativ sein, das heisst, man versucht Feinheiten, Details herauszuschälen, Rauschen und Verzerrungen zu vermindern, die tonale Balance oder Abmischungen neu zu gestalten. Oft bedeutet Remaster aber einfach an den vermeintlichen Zeitgeschmack anpassen: die Dynamik komprimieren und auf laut trimmen.
Ein Beispiel für ein unnötiges und missratenes Remaster:

Grafik 12: Chris Isaak, «Baby Did a Bad, Bad Thing». Das Original war schon 5 dB lauter als der Referenzpegel. Die Dynamik wurde weiter reduziert, die Lautstärke erhöht.

Grafik 13: Chris Isaak, «Baby Did a Bad, Bad Thing». Die erste Bassnote des Originals. Das Stück hat einen guten Loudness-Range von 13.7 LU. Die Verzerrungen der E-Gitarre im zweiten Teil des Songs werden als Stilmittel eingesetzt.

Grafik 14: Chris Isaak, «Baby Did a Bad, Bad Thing». Die erste Bassnote hat jetzt ISP-Verzerrungen. Im linken Kanal folgen 3246 weitere ISP-Clippings und im rechten Kanal hat es fast 6000 ISP-Clippings.
Urteilen Sie selbst, ob Sie nun Geld für das Remaster ausgeben möchten.
Fazit
90 dB realisierbaren Dynamikumfang im Wohnraum genügt. Die Aufnahmen bleiben alle unter diesem Wert und ein Dynamikumfang von rund 60 dB lässt sich auch zu Hause hörbar erleben. Ob und wie gut der Nachbar mithört, hängt von der Bausubstanz und der Wohnsituation ab. Ob 60 dB Dynamikumfang auch ein erträgliches Hören bedeutet, hängt allerdings auch von der Güte der Aufnahme ab. Und ja, 24 Bit lassen sich trotzdem als Produktionsformat rechtfertigen, da hier viel Headroom von Nutzen ist und letztendlich der Qualität zugutekommt. Und auch für eine Distribution in diesem Format gibt es gute Gründe.
Teilen Sie uns mit, wenn Sie mehr darüber lesen möchten!