Besuch im TVN-3DAudiostudio Hannover

Zukunftsmusik

Dieter Michel

Immersive visuelle Erfahrungen in 360°-Videos haben viele schon gemacht. Weniger verbreitet sind Installationen mit begleitendem dreidimensionalem Raumklang. In ihrem 3D-Audiostudio in Hannover setzt die TVN GOUP Film & TV Production genau hier ihren Schwerpunkt.

Mit der Inbetriebnahme ihres 3D-Audiostudios in Hannover steigt die TVN in ein neues Fachgebiet ein. Speziell im Bereich der professionellen Tonproduktion ist 3D-Audio gerade aktuell und verspricht aufgrund der vielfältigen Möglichkeiten, die diese neue Technik eröffnet, enormes Potenzial für die Zukunft nicht zuletzt in Verbindung mit 360˚-Videos

Der Autor hatte Gelegenheit, das TVN-3DAudiostudio in Hannover zu besuchen und mit Stephan Thyssen, Bereichsleiter Audio, ausführlich über Zielsetzungen und Potenziale zu sprechen. Beim Termin ebenfalls anwesend war Ralph Kessler vom Hamburger Ingenieurbüro Pinguin, der sich mit 3D-Audioproduktionen befasst und mit TVN in Kontakt steht.

3D-Audio ist dem einen oder anderen Leser eventuell aus der Kinotontechnik ein Begriff – hier sind unter anderem die Stichworte Dolby Atmos und Auro 3D bekannt. Diese Techniken sind auch im 3D-Audiostudio von TVN vorhanden, und ihre Bedeutung geht über Kinoton-Anwendungen deutlich hinaus.

David Bowie als Ideengeber

Die Initialzündung für die Beschäftigung mit 3D-Audiotechniken war ein Besuch von TVNs CEO Frank Hähnel in der David-Bowie-Ausstellung in Berlin im Jahr 2014, die als Hommage an den Künstler auf Audiotechniken der Firma Sennheiser zurückgriff, um Ton und Klang miteinander zu verschmelzen. Sennheiser beschäftigt sich schon seit Längerem mit 3D-Audio und hat unter dem Markennamen „AMBEO“ sein Programm für diese Technik zusammengefasst. Dessen Funktionen umfassen von Mixing und Processing bis hin zur Wiedergabe alle Aspekte der Audiosignalkette.

Für die David-Bowie-Ausstellung hatte Sennheiser unter der Federführung von Gregor Zielinsky, Diplom-Tonmeister und International Recording Applications Manager, eine 3D-Surround-Installation realisiert, die den Ausstellungsbesucher in die akustische Umgebung eines David-Bowie-Konzerts versetzen sollte. Das war keine einfache Aufgabe, denn die Originalaufnahmen waren natürlich nicht für eine Kompatibilität mit den aktuellen, damals noch nicht existierenden 3D-Audioformaten aufgezeichnet worden. Mithilfe ausgefeilter Upmix-Algorithmen sowie mit tonmeisterlichem Geschick und Erfahrung war es aber dennoch möglich, ein eindrucksvolles, immersives Klangerlebnis zu gestalten.

Wie viel mehr Potenzial, so die Überlegung von Frank Hähnel, würde eine 3D-Audioproduktion entfalten können, die von vornherein für ein solch intensives Audioerlebnis aufgezeichnet und produziert werden würde?

Die Gelegenheit zum Bau des 3D-Audiostudios ergab sich, weil das bestehende Tonstudio innerhalb der Räumlichkeiten von TVN in Hannover verlegt werden sollte. Dabei wollte der CEO möglichst früh auf den 3D-Audio-Zug aufspringen, um so einerseits die Potenziale ausloten zu können, die diese neue Technik bietet, und zum anderen durch sein Engagement einen gewissen Einfluss darauf auszuüben, wohin – um im Bild zu bleiben – der Zug fährt, was also im Bereich 3D-Audio an Produktionen und Konzepten realisiert werden kann beziehungsweise tragfähig ist.

Potenziale ausloten und Einfluss nehmen

Hausintern überlegte man zunächst, in welchen Bereichen der TVN-Projekte das Thema 3D-Audio in Zukunft eine Rolle spielen könnte beziehungsweise welche neuen Arbeitsbereiche zu erschließen sein würden. Dazu gehören unter anderem:

– Audioproduktion für lokale Kinowerbung vor dem Hauptfilm. Diese wird bisher in Stereo produziert, fällt aber gegenüber 3D-Audio-Filmen, die in Dolby Atmos oder Auro 3D produziert sind, wegen ihrer viel eingeschränkteren Räumlichkeit qualitativ hörbar ab.

3D-Kino und 3D-Kinoton

Im Kino gibt es 3D schon seit vielen Jahren. Genau genommen ist das Kinobild gar nicht dreidimensional, denn es werden nach wie vor zweidimensionale Bilder auf die Leinwand projiziert. Der 3D-Effekt ist also eigentlich eine Wahrnehmungstäuschung, die dadurch entsteht, dass man dem linken und dem rechten Auge des Betrachters jeweils etwas unterschiedliche Bilder präsentiert, wobei die menschliche visuelle Wahrnehmung aus diesen Unterschieden (Disparität) Informationen über die Tiefenstruktur der betrachteten Szene ableiten kann.

In der 9.1-Konfiguration ermöglicht Auro 3D den Zuhörern, über vier zusätzliche Lautsprecher in der oberen Ebene Höhenunterschiede auch akustisch wahrzunehmen (Abb. 1).

Ein gewisses Maß an Inkonsistenzen lässt sich bei dieser Art der Generierung einer 3D-Szene nicht vermeiden. Beispielsweise bleibt die Fokusdistanz des betrachtenden Auges für alle im Bild sichtbaren Objekte konstant, auch wenn die Disparität der beiden Teilbilder zu suggerieren scheint, dass diese unterschiedlich weit vom Betrachter entfernt liegen.

Bewegte Objekte, die im Bild sichtbar sind, bewegen sich nicht wirklich. Vielmehr entsteht der Eindruck von Bewegung durch eine hinreichend schnell aufeinanderfolgende Projektion von Einzelbildern, die die verschiedenen Bewegungsphasen zeigen. So weit, so bekannt.

Auch bei den 3D-Kinotonsystemen – die bekanntesten sind hier Auro 3D und Dolby Atmos – gibt es nicht für jede im Bild sichtbare oder außerhalb des Bildes befindliche Tonquelle einen eigenen Lautsprecher. Vielmehr nutzt man psychoakustische Effekte aus, um eine dreidimensionale akustische Szene entstehen zu lassen, die den Zuhörer umhüllt und gegebenenfalls einzelne, dominante Schallquellen lokalisierbar macht.

Der schon längere Zeit bekannte Surround-Kinoton kann zwar auch Hörereignisse erzeugen, die von der Seite oder von hinten zu kommen scheinen, ist aber eigentlich ebenfalls zweidimensional. Alle Hörereignisse, die der klassische Surround-Sound produzieren kann, befinden sich auf einer Ebene, die im Kino normalerweise etwas oberhalb der Ohrhöhe der Zuschauer liegt. Mit den neuen Kinotonsystemen Auro 3D und Dolby Atmos kommt als dritte Dimension eine Höheninformation hinzu.

Möchte man, dass die Zuhörer Höhenunterschiede bei der Lokalisation wahrnehmen können oder sogar Quellen direkt von oben hören sollen, muss man gewährleisten, dass es Schallquellen oberhalb der zuvor erwähnten Lokalisationsebene gibt. Die derzeit gängigen Kinotonsysteme Auro 3D und Dolby Atmos führen daher auch Lautsprecher oberhalb der Ebene der Front- und Surround-Lautsprecher ein. Auro 3D verfügt in der einfachsten Konfiguration über vier zusätzliche Lautsprecher, die oberhalb der Lautsprecher für Front links/rechts und Surround links/rechts installiert sind (siehe Abbildung 1).

Dolby Atmos und die Raumgröße

Bei Dolby Atmos gibt es keine feste Lautsprecherkonfiguration für die Höheninformationen, die Lautsprecherausstattung richtet sich vielmehr nach der Größe des Raums. Normalerweise werden für eine Dolby-Atmos-Kinoinstallation zwei Reihen von Deckenlautsprechern parallel zu den Seitenwänden eingeplant, die die Decke in drei etwa gleich breite Streifen teilen (Abbildung 2). Je nach Größe des Kinosaals kann hier eine mehr oder weniger große Anzahl von Lautsprechern installiert sein. Für Heimkinoinstallationen, die Dolby-Atmos-Produktionen wiedergeben sollen, kann es bei reduzierten Ansprüchen sein, dass die Deckeninstallation komplett entfällt.

– Dokumentation und Übertragung von Veranstaltungen und Konzerten (Beispiel: Wacken Open Air in 3D-Audio). In der Folge weitergedacht, wäre ein immersives Public Viewing mit Übertragungen von Konzerten oder Sportveranstaltungen vorstellbar. Dabei gibt es aus technischen Gründen einen deutlichen Unterschied zwischen Liveübertragung und Dokumentation, bei der noch eine Postproduktion möglich ist. In beiden Fällen stellt sich die Frage, wie man einen 3D-Sound mit der Bilddramaturgie verbinden sollte.

– Plattformen wie YouTube und Facebook stellen bereits 3D-Audioformate zur Verfügung, in der Regel vier Audiokanäle entsprechend den Ausgangssignalen von Ambisonics-Mikrofonen erster Ordnung. Dabei ist zunächst nichts in einer Postproduktion nachbearbeitet, und aufseiten der Produktion findet keine binaurale Virtualisierung eines Surround-, Dolby-Atmos-, oder Auro-3D-Setups statt. (Zu Erläuterungen der Fachbegriffe siehe den früheren iX-Artikel zu 3D-Audio [1] und den Kasten „3D-Kino und 3D-Kinoton“.) Die Möglichkeit, die 3D-Audioszene nachträglich mit der Kopfbewegung zu koppeln, ist ein inhärentes Feature des Ambisonics-Formats. Aus den Ambisonics-Mikrofonsignalen lässt sich ein virtuelles XY-Mikrofonarray berechnen und synchron mit der Kopfbewegung verdrehen beziehungsweise verschwenken.

Fortsetzung: 3D-Kino und 3D-Kinoton

In einer Kinoinstallation mit Dolby Atmos vermitteln in der Regel zwei Reihen zusätzlicher Lautsprecher an der Decke akustische Höheninformationen (Abb. 2).

Ein generelles Merkmal der Höhenlokalisation ist, dass die räumlich getrennten Schallquellen bei der Oben-unten-Ortung leider nicht wie bei der Links-rechts-Ortung zu einem resultierenden Hörereignis (Summenlokalisation) zusammengefasst werden können. Bei der klassischen Zweikanal-Stereofonie kann man durch die Summenlokalisation Phantomschallquellen zwischen den beiden Lautsprechern erzeugen und die Positionen einer solchen Schallquelle durch die Panoramaeinstellung relativ feinfühlig vorgeben. Für das Erkennen von oben/unten ist dies ebenso schwierig wie für das Wahrnehmen von vorn/hinten. Hörversuche zeigen, dass die Lokalisationskurve sehr steil verläuft, Menschen Klang vorwiegend in Richtung der jeweiligen Lautsprecherpositionen wahrnehmen und die Quellen daher nicht feinfühlig in der Höhe positioniert werden können. Daher tut man gut daran, für alle Quellen, die präzise an einer bestimmten Position geortet werden sollen, möglichst einen realen Lautsprecher in der Nähe zu haben.

Objektorientierung in der Filmtonmischung

Das ist aber nicht unbedingt so notwendig, wie es hier klingt. Denn einer der großen Vorteile einer 3D-Audiowiedergabe ist es, die Zuhörer mit einer akustischen dreidimensionalen Szene zu umhüllen und ihnen so das Gefühl zu vermitteln, in die Szene eingebettet zu sein. Das hat oft eher mit 3D-Atmo zu tun – also dem Eindruck, von einer Vielzahl von Schallquellen umgeben zu sein, die man nicht einzeln orten kann – als damit, eine präzise Lokalisation für wenige individuelle Schallquellen zu ermöglichen.

Bei Kinoanwendungen kann das in Einzelfällen durchaus erwünscht sein. Beliebtes Beispiel ist der Hubschrauber, der im Filmbild sichtbar startet und dann gut lokalisierbar über die Köpfe der Zuschauerschar hinwegfliegt. Dolby Atmos sieht daher eine größere Anzahl an der Decke installierter Lautsprecher vor und codiert das Tonsignal nicht für einzelne Lautsprecherkanäle, sondern objektorientiert. Bei der Filmtonmischung kann die Tonmeisterin dann bestimmen, ob einer Schallquelle – wie hier dem Hubschrauber – ein Audioobjekt zugewiesen werden soll. Dieses Audioobjekt bekommt bei der Tonproduktion eine dreidimensionale Trajektorie (zeitliche Abfolge von 3D-Raumkoordinaten) zugeordnet. Der Dolby-Atmos-Decoder rendert dann die Audiosignale für die jeweils lokal vorliegende Lautsprecherkonfiguration so, dass sich im Idealfall der gewünschte Höreindruck ergibt.

Der Vorteil dieses objektorientierten Verfahrens ist, dass man individuelle Schallquellen im 3D-Raum beliebig und beweglich platzieren und im Rahmen der jeweiligen Lautsprecherkonstellation entsprechend hörbar machen kann. Der Nachteil für die Tonproduktion besteht darin, dass man nicht sicher wissen kann, wie sich die Filmtonmischung für den Endverbraucher anhören wird, weil man dessen Lautsprecherkonfiguration im Allgemeinen nicht kennt. Darüber hinaus benötigt jedes definierte Audioobjekt eine eigene Tonspur zusätzlich zu den existierenden Surround-Kanälen (sogenannte Audio-Beds, normalerweise 9.1). Daher ist die Anzahl realisierbarer Audioobjekte begrenzt, und zwar weniger durch den Dolby-Atmos-Decoder – der kann bis zu 118 Audioobjekte verarbeiten –, sondern vielmehr durch das Speicher- beziehungsweise Übertragungsmedium, das die passende Anzahl von Tonspuren bereitstellen muss.

Auro 3D und die „Stimme Gottes“

Auro 3D ist ein von Wilfried Van Baelen, Gründer und Mitinhaber der Galaxy Studios in Mol/Belgien, entwickeltes Kinotonformat. Es setzt auf einem normalen 5.1-Kinotonsystem auf und fügt in der Höhe eine weitere Ebene hinzu. In der Ebene oberhalb der „normalen“, etwa ohrhohen Lokalisationsebene wird eine weitere 4.0- oder 5.0-Ebene eingezogen, indem im Kinosaal zusätzliche Lautsprecher einige Meter oberhalb der existierenden Systeme installiert werden. Damit kann man bereits Höheninformationen darstellen, aber eine Schallquellenrichtung „oben“, wie man sie beispielsweise bei besagtem Hubschrauberflug gern hätte, ist so noch nicht zu erreichen. Im Auro-3D-Format kann dafür aber ein weiterer Kanal spendiert werden, der im Kinojargon auch „Voice of God“ heißt.

Zusammen mit dem LFE-Kanal (Low Frequency Effect) ist Auro 3D in dieser Konstellation also ein 10.1-System. Die Konfigurationsbreite reicht jedoch von 9.1 (vier zusätzliche Höhenlautsprecher an den Saalecken) bis zu 13.1 (5.1 plus Surround-Mitte sowie 5.0-oben, Surround-Mitte-oben und Voice of God).

Das Mischverfahren ist bei Auro 3D kanalbasiert und die Codierung so gelöst, dass der Kinotonprozessor aus dem digitalen PCM-Audiodatenstrom (Puls-Code-Modulation) die passenden Kanäle für das Auro-3D-Format decodieren kann. Das Format selbst ist so angelegt, dass sich ein in Auro 3D gemischter Film auch auf einer normalen 5.1-Kinotonanlage ohne Auro-3D-Decoder wiedergeben lässt.

– Home Entertainment: Auch bei Heimkino-Tonanlagen gibt es im Prinzip Dolby-Atmos-Setups. Dolby garantiert jedoch keine Mindestanzahl von Deckenlautsprechern für die Höheninformation. Bei preisgünstigen Anlagen kann es sein, dass die Deckenlautsprecher nur simuliert werden, indem schräg nach oben strahlende Lautsprecher auf den unteren Frontsystemen Reflexionen an der Zimmerdecke erzeugen, die ähnlich wie oben installierte Lautsprecher gehört werden. Das Absorptionsverhalten der Decke führt gegebenenfalls dazu, dass der höhere Frequenzbereich je nach akustischer Beschaffenheit der Decke mehr oder weniger deutlich abgeschwächt wird. Selbst eine so eingeschränkte Lautsprecherkonfiguration kann jedoch ein wahrnehmbar besseres Hörerlebnis bieten als die klassische (2D-)Surround-Anlage.

Kompatibel in alle Richtungen

Bei einem Studio für 3D-Audioproduktionen muss man den bei den Endanwendern einsetzbaren Wiedergabeformaten natürlich gerecht werden, speziell wenn es darum geht, Tonproduktionen für verschiedene Anwendungen anzubieten. Im TVN-Studio in Hannover gibt es daher eine Lautsprecherkonfiguration auf der Basis von Neumann-Abhörlautsprechern aus der KH-Serie, die Tonproduktionen sowohl in Dolby Atmos als auch in Auro 3D ermöglicht. Dabei geht es weniger um regelrechte Kinofilm-Tonproduktionen – dafür gibt es bereits zertifizierte Filmtonstudios –, sondern vielmehr darum, kompatibel zu den existierenden Formaten zu produzieren, etwa für Kinowerbung oder für Veranstaltungsdokumentationen, die auf Kinoton- und Heimkinoanlagen laufen sollen.

Um kompatibel mit den gängigen Formaten zu sein, haben die TVN-Mitarbeiter im 3D-Studio zunächst ein 7.1-Surround-Abhörsystem in der Standardkonfiguration installiert. Es besteht aus den drei Frontsystemen (Left, Center, Right), zwei Side Surround und zwei Back Surround. Für die Höheninformation wurden zwei weitere Teilsysteme installiert. Über den Lautsprechern Front L/R und Surround hinten L/R als den Ecken eines gedachten Rechtecks sind die vier Lautsprechersysteme für die Höheninformation des Auro-3D-Formats angebracht. Darüber hinaus gibt es zwei Reihen aus je zwei Deckenlautsprechern für Dolby Atmos (Abbildung 3).

Auf diese Weise ist das Abhörsystem des Audiostudios sowohl kompatibel zu den klassischen (Nicht-3D-)Surround-Produktionen als auch zu den beiden gängigen 3D-Kinotonformaten Auro 3D und Dolby Atmos. Um für das objektorientierte Dolby-Atmos-Format produzieren zu können, benötigt man eine Dolby-RMU (Rendering and Mastering Unit). Das ist im Prinzip ein leistungsfähiger Rechner, der die Tonspuren via MADI (Multichannel Audio Digital Interface) aus einem Pro-Tools-Produktionssystem bekommt und daraus die Lautsprechersignale (für die Studioabhöre), 7.1- und 5.1-Downmixe für traditionelle Kinotonanlagen sowie den Dolby Atmos Stream. Eine solche Dolby-RMU ist im TVN-Studio vorhanden.

Speziell für Consumer-Anwendungen verlockend ist die Möglichkeit, 3D-Audioproduktionen über Kopfhörer wiederzugeben. Das ist speziell dann interessant, wenn man die Bildinformation als Kugelpanorama über eine VR-Brille präsentiert. In einem solchen Wiedergabeszenario sollte die akustische Szene mit der sichtbaren verkoppelt sein, das heißt, der Rezipient muss Schallquellen unabhängig von seinen Kopfbewegungen dort hören, wo sie im Panoramavideo sichtbar sind.

Virtualisierte Lautsprecherkonfiguration

Im einfachsten Fall greift man zu einem Ambisonics-Mikrofon erster Ordnung, das im A-Format vier Audiospuren benötigt. Geeignet wäre beispielsweise das kürzlich von Sennheiser vorgestellte Ambeo-VR-Mikrofon. Vorteil des Formats ist, dass man auf der Basis der vier AA-Formatsignale ein virtuelles Mikrofonarray berechnen kann, das sich bei der Wiedergabe synchron mit der Kopfbewegung drehen und schwenken lässt.

Durch binaurales Rendering kann man aus einer virtuellen Lautsprecherkonfiguration auf der Basis gemessener Außenohrübertragungsfunktionen zwei Ohrsignale berechnen, die letztendlich eine Art Kunstkopfaufnahme in einem virtuellen Raum darstellen. Dieses binaurale Rendering kann Kopfbewegungen berücksichtigen, indem es die zur Berechnung verwendeten Außenohrübertragungsfunktionen gleitend an die jeweilige Kopfposition anpasst.

Ansicht der Traversenkonstruktion an der Studiodecke: Vorn ist in diesem Foto oben – siehe Aufmacher. Gut zu erkennen sind die vier Höhenlautsprecher der Auro-3D-Konfiguration (an den Ecken außen) sowie die zwei Reihen zu je zwei Lautsprechern der Dolby-Atmos-Konfiguration (Abb. 3).

Für die Wiedergabe von 3D-Audioproduktionen beim Endverbraucher wäre für diesen Zweck ein Codec erforderlich, der – beispielsweise in einer Set-Top-Box untergebracht – die 3D-Lautsprechersignale binauralisiert. So etwas ist derzeit im Consumer-Markt noch nicht verfügbar. TVN sammelt auch mit dieser Technik Erfahrungen und sucht in Zusammenarbeit mit seinen Kunden nach Wegen, wie entsprechender Content bis zum Endanwender transportiert werden kann. Hier arbeitet die hausinterne VR-Abteilung zu, die ein 360°-Kamera-Rig für 12K-Aufnahmen entwickelt hat (Abbildung 4) und Interesse an einer dazu passenden Tontechnik bekundet. Im Prinzip würde sich eine solche Konstellation auch für die Liveübertragung einer Veranstaltung eignen. Allerdings ist die Videobildqualität der gegenwärtig gängigen 360°-Kameras in den meisten Fällen noch deutlich verbesserungswürdig.

Es wäre aber durchaus vorstellbar, so Stephan Thyssen, parallel zu der klassischen Videoübertragung eines Live-Events – etwa eines Konzerts oder einer Sportveranstaltung – als Second Screen eine 360°-Kamera im Zugriff zu haben, mit der man sich zusätzlich einen Überblick über das Geschehen verschaffen kann.

3D-Tonmischung für Videoproduktionen

Verwendet man eine 360°-Kamera im Wesentlichen für eine solche Überblicksfunktion über einen zusätzlichen Kanal, kann man die zugehörigen akustischen Signale über die vier Kanäle eines Ambisonics-Mikrofons erster Ordnung senden. Eine Veranstaltungsdokumentation mit Postproduktion, etwa für eine Konzertveranstaltung, ist da deutlich aufwendiger. Selbst eine 360°-Kamera, die ein Kugelpanorama liefert, in dem sich die Zuschauer mit einer VR-Brille interaktiv umsehen können, bietet ihnen nicht die Möglichkeit, sich nach Wunsch in der übertragenen Szene zu bewegen.

Deshalb werden Produzenten in der Regel verschiedene Schnitttechniken und gegebenenfalls mehrere Kameras einsetzen, um den Veranstaltungsmitschnitt für die Zuschauer interessanter und lebendiger zu gestalten. Für eine 3D-Tonproduktion stellt sich dann die Frage: Soll der Ton etwaige Wechsel der Kamerastandorte oder Schnitte auf Nahaufnahmen beispielsweise einzelner Künstler mitmachen oder dem Zuhörer eine relativ konstante akustische Umgebung anbieten? Das letzte Wort ist an dieser Stelle sicherlich noch nicht gesprochen, die Tonschaffenden müssen da erst noch Erfahrungen sammeln und die Rückmeldungen der Zuschauer/Zuhörer auswerten.

Beim Ortstermin in Hannover präsentierten die TVN-Mitarbeiter Demos aus einem Mitschnitt des Open-Air-Festivals in Wacken und der Dokumentation eines Bundesligaspiels. Darüber hinaus zeigte Ralph Kessler eine Pre-Release-Version der Dokumentation einer Konzerttour von Kohar, einem armenischen Symphonieorchester mit Chor. In allen Beispielproduktionen war die deutlich verbesserte Einbettung des Zuschauers in die akustische Szene gut wahrnehmbar.