MAGAZIN
ARTIKEL
Publikationsdatum
14. Februar 2020
Themen
Drucken
Teilen mit Twitter

Ich ermuntere Sie, diesen Artikel vollständig zu lesen – auch wenn der Text ab und zu etwas «technisch» wird.

Zu Beginn machen wir einen Abstecher in die Nachrichtentechnik. In der Nachrichtentechnik spricht man von Quellencodierung und von Kanalcodierung. Die Quellencodierung definiert, wie das Nutzsignal (das Audiosignal in unserem Fall) an der Quelle aufbereitet wird. Die Kanalcodierung definiert, wie das Nutzsignal für die Übertragung aufbereitet wird, sodass etwaige Schwierigkeiten bei der Übertragung sich nicht zu stark auf das Nutzsignal auswirken, oder damit das Nutzsignal nicht zu viel Bandbreite zur Übertragung benötigt (Kostenfaktor).

Im Fall der Compact Disc ist die Quelle ein 16-Bit-PCM-Signal mit einer Abtastfrequenz von 44.1 kHz. Das heisst, die Quellencodierung ist genau das: PCM mit 16 Bit bei 44.1 kHz. Die Kanalcodierung bei der CD ist eine komplexe Angelegenheit, da die kleinen Strukturen der CD (Pits, die mit Laser gelesen werden) fehleranfällig sind. Ein kleiner Kratzer zerstört tausende von Bits des Nutzsignals. Daher werden bei der CD Algorithmen zur Kanalcodierung verwendet, welche die Daten auf der CD-Fläche verteilen. So werden viele redundante («überflüssige») Daten hinzugefügt, damit selbst grosse Mengen von Fehlern exakt eliminiert werden können (Fehlerkorrektur). Das heisst, das Nutzsignal lässt sich exakt rekonstruieren. Falls zu viele Fehler anstehen, wird versucht, das Signal wenigstens zu schätzen und zu interpolieren (sogenanntes «error concealment» = Fehler-Verstecken). Schlimmstenfalls wird das Signal stumm geschaltet.

Bei einer Übersicht zu Audio-Datenformaten müssen wir also Quelle und Übertragungskanal betrachten, um das Signal, welches bei der Hörerin ankommt, beurteilen zu können. Auch bei modernen Übertragungskanälen kann das Signal dem Kanal angepasst werden. Beim DAB-Radio zum Beispiel wird das Nutzsignal für eine effiziente Übertragung in der Datenrate reduziert, das heisst verschlechtert. Bei gewissen Streaming-Diensten geschieht dies ebenfalls, und auch gewisse File-Formate beinhalten datenreduzierte Audiosignale (Stichwort MP3).

Quellencodierungen

In der heute gebräuchlichen Technik werden die analogen Musiksignale über einen Analog-Digital-Wandler (A/D Wandler) in ein digitales Signal transformiert. Dabei kommt meistens die sogenannte Pulse Code Modulation (PCM) zur Anwendung. Mitunter kommt auch das vergleichsweise sehr selten verwendete Verfahren Direct Stream Digital (DSD) zum Zug (1-Bit-Codierung wie auf der SACD verwendet). Denkbar wären weitere Modulationsarten, wie z. B. PWM (Pulse Width Modulation). Diese haben jedoch gewisse Nachteile gegenüber PCM.

Bei PCM werden einige Standard-Abtastfrequenzen und Standard-Wortlängen verwendet. Die Wahl hat praktische Gründe:

44.1 kHz: Kommt aus der Videotechnik, da früher Videorekorder zur Speicherung von PCM-Daten verwendet wurden.

48 kHz: Kommt aus der Studiotechnik – man wollte eine Abtastfrequenz, welche nicht gar so steile Filter benötigt, verglichen mit 44.1 kHz.

88.2 oder 96 kHz: Erleichtert A/D- und D/A-Wandlung, da die analogen Filter dazu weniger anspruchsvoll sind. Kann in der digitalen Signalverarbeitung von Vorteil sein.

176.4 oder 192 kHz: Vom klanglichen Resultat her nicht sehr sinnvoll. Bringt kaum Vorteile gegenüber 88.2 / 96 kHz.

352.8 kHz und höher: Marketing für uns Audiophile ... Zu sagen ist, dass in der Studiotechnik meistens 44.1 oder 48 kHz verwendet werden. 88.2 oder 96 kHz ebenfalls. Höher kaum.

16 Bit: War mit frühen A/D- und D/A-Wandlern (knapp) machbar. Die Verwendung eines Vielfachen von 8 Bit ist praktisch im Umgang mit Computern.

24 Bit: Heute ein Quasi-Standard, nicht ganz erreichbar mit den heutigen A/D- und D/A-Wandlern*.

32 Bit: Sinnvoll im Datenaustausch zwischen Computern, wenig sinnvoll im Zusammenhang mit A/D- und D/A-Wandlern, da diese kaum je besser als 24 Bit leisten werden.

DSD, welches auf der SACD Verwendung findet, ist ein Kind der dannzumal (1999) aktuellen Technik der 1-Bit-A/D- und D/A-Wandler. Die 1-Bit-Wandler sind inzwischen wieder verschwunden – und dies mit guten Gründen. Nur DSD bleibt gekoppelt an die 1-Bit-Technik. Ursprünglich wurde die SACD als Nachfolgerin der CD vorgesehen.

Das DSD-Format war für die Distribution gedacht, nicht für die Aufnahme und die Produktion. Leider begann man aber in DSD aufzunehmen. Für die Nachbearbeitung (Pegel, Klang usw.) musste man danach das Signal nach PCM konvertieren und dann wieder zurück nach DSD. Da war nichts mehr von «purem» DSD, wie es sich die SACD-Fans eigentlich wünschten.

avguide.ch meint

In der Studiotechnik wird meistens 24 Bit und 44.1 oder 48 kHz verwendet. 88.2 oder 96 kHz ebenfalls. Höher kaum!

Kanalcodierungen

So viel zu den Nutzsignalen. Diese Signale lassen sich nun in verschiedenen File-Formaten speichern und übertragen. Diese Formate lassen sich der Kanalcodierung zuordnen. Dabei sind drei grundsätzlich unterschiedliche Kategorien zu unterscheiden:

1. Unkomprimierte Audiodaten
2. Verlustfrei komprimierte Audiodaten
3. Verlustbehaftet komprimierte Audiodaten

Hier die gebräuchlichsten File-Formate für die drei Kategorien. Alle aufzuführen, würde den Rahmen dieses Beitrags sprengen.
Unkomprimiert: Die Quelldaten werden 1:1 im File gespeichert, was viel Speicherplatz benötigt und bei der Übertragung eine grosse Bandbreite verlangt:

- WAV in verschiedenen Varianten
- AIFF (Audio Interchange File Format, WAV-Variante von Apple)
- DSF für DSD-Signale
- DFF für DSD-Signale

Verlustfrei komprimiert: Die Quelldaten lassen sich exakt wieder rekonstruieren.

- FLAC (Free Lossless Audio Codec)
- ALAC (Apple Lossless Audio Codec, Apples Variante von FLAC)
- M4A (falls das darin enthaltene Format ALAC ist)

Verlustbehaftet komprimiert: Die Quelldaten werden so reduziert, dass die Reduktion hörmässig (psychoakustisch) nicht feststellbar ist – dies allerdings in Grenzen …

- MP3 (MPEG-1 Audio Layer III oder MPEG-2 Audio Layer III, Codierung in unterschiedlichen Datenraten, welche sich stark in der Qualität unterscheiden.)
- AAC (Advanced Audio Coding, bessere Effizienz als MP3)
- M4A (falls das darin enthaltene Format MPEG-4 oder AAC ist)
- MQA (Master Quality Authenticated, dazu mehr im 2. Teil)

Wenn wir Audiofiles bei den einschlägigen Anbietern kaufen, sind die Formate jeweils wohldefiniert, inklusive Abtastfrequenz, Wortlänge und File-Format. Der Preis orientiert sich dabei oft an der Qualität: Files mit höherer Abtastfrequenz sind teurer, unkomprimierte Files sind teurer. Dies motiviert die Anbieter, auch Files in höherer Qualität anzubieten, was wiederum uns Konsumenten und den Musikproduzenten und MusikernInnen zugute kommt.

Bei Streaming-Anbietern ist es nicht immer klar, was die technische Qualität eines Streams ist.

Mehr zu diesem Thema folgt im 2. Teil dieses Beitags.

*Anmerkungen zu Erreichbarkeit von 24 Bit

Für eine 24-Bit-Qualität müsste ein D/A-Konverter einen maximalen Signal-zu-Rauschen-Abstand (SNR = Signal to Noise Ratio) von 144 dB haben (24 x 6 dB). Und wenn man es sehr genau nimmt, müsste auch die THD+N-Zahl -144 dB betragen. THD+N heisst Total Harmonic Distortion plus Noise, zu Deutsch: die Gesamtheit der Verzerrungen und des Rauschens. Verzerrungen entstehen bei hoher Aussteuerung des D/A-Konverters, das heisst: Verzerrungen sind signalabhängig. Sie entstehen, wenn der D/A-Konverter nicht exakt linear ist.

Die heute besten Audio-D/A-Konverter erreichen gut 130 dB SNR und gut -120 dB THD+N. Sie sind also noch ein gutes Stück von 144 dB entfernt. Ganz zu schweigen von 32 Bit mit ihren 192 dB Umfang.

Man kann den SNR durch Parallelschalten von D/A-Konvertern erhöhen. Jede Verdoppelung der Anzahl Konverter kann den SNR um 3 dB erhöhen. Ausgehend von 130 dB würde man damit 133 dB mit zwei parallelen Konvertern erreichen. 136 dB mit vier Konvertern usw.

Was sind eigentlich Dezibel (dB)? Wikipedia erklärt das alles ausführlich, hier nur das Wichtigste für uns Audioleute: dB ist eine logarithmische Verhältniszahl. Eine Erhöhung von 6 dB bedeutet eine Verdoppelung. Eine Erhöhung um 20 dB eine Verzehnfachung.

Beispiel: Ein SNR von 20 dB heisst, dass das Rauschen 1/10 des Signals beträgt. 40 dB heisst 1/100, 60 dB entsprechen 1/1000, 80 dB entsprechen 1/10’000, 100 dB entsprechen 1/100'000, 120 dB entsprechen 1/1'000'000. Das heisst, mit den oben genannten 120 dB ist das Störsignal ein Millionstel so gross wie das Nutzsignal. Ich denke, das sollte auch für kritische Ohren genügen.

Die Wortlänge in der Digitaltechnik lässt auf den maximal erreichbaren SNR schliessen. Pro Bit lassen sich 6 dB gewinnen. Jedes weitere Bit verdoppelt den Zahlenbereich (im Dezimalsystem verzehnfacht jede Dezimalstelle den Zahlenbereich). Daher: 24 Bit x 6 dB ergeben die erwähnten 144 dB.

Daniel Weiss Gastautor

Daniel Weiss ist Inhaber und Gründer von Weiss Engineering in Uster. Er gehört weltweit zu den kompetentesten Spezialisten der digitalen Musikwiedergabe bei Pro-Audio und HiFi.