ORTF 3D Spatial Audio
Overview

Ultimative Immersive Audio Guide – Berufsbild für XR Spatial 3D Sound

Inhalt

    Ein Text von Martin Rieger mit freundlicher Unterstützung von Ana Monte und der Berufsvereinigung Filmton (BVFT)

    Virtual Reality Sound stellt an den Ton ganz neue Anforderungen, sei es aus technischer oder kreativer Sicht. Vereinfacht lässt sich sagen, dass der Sound in VR einen dreidimensionalen Höreindruck erzeugen soll, mit oder ohne Headtracking. Was immersive audio überhaupt ist, wie das funktioniert und was man damit machen kann, kommt hier:

    Was ist XR (Extended Reality)?

    Extended Reality ist der Oberbegriff für Virtual Reality (VR), Augmented Reality (AR) und Mixed Reality (MR). Spatial Audio spielt in jedem dieser Bereiche eine ganz andere Rolle. Doch alles der Reihe nach, denn zu Beginn erst einmal ein großes „Achtung“: Die meisten Tonmeisterinnen reden von VR, meinen aber eigentlich 360° Videos.

    Solche Produktionen sind aber nur eine sehr kleine Nische von der ganzen virtuellen Realität Es gibt nämlich zwei große Einschränkungen: 360° Videos sind wie herkömmliche Filme zeitlich linear und ermöglichen zweitens nur eine Rotation der Blickrichtung um drei Achsen: X, Y und Z. Auch bekannt als drei Freiheitsgrade (3DoF, three degrees of freedom). Der Hype um solche Produktionen ist bereits abgeflaut und wird in Zukunft wohl nur eine untergeordnete Rolle spielen.

    Was ist immersive Audio?

    Soweit zum Thema XR. Kommen wir nun zum Hype-Thema "immersiv". Die Euphorie unter den Film Sound Tonmeisterinnen ist groß und das Thema auf den einschlägigen Tagungen ein Dauerbrenner. Dabei steht "immersive Audio“ gerne als Synonym für "3D Audio".

    Aber wo und wann kann 3D Audio überhaupt einen Mehrwert bieten? Es gilt herauszufiltern, wo die neue Technologie bestmöglich funktioniert und was vielversprechende Anwendungsgebiete sein könnten.

    Die Möglichkeiten, mit 3D Audio zu arbeiten, sind schier unbegrenzt. Dabei denken die Meisten erst einmal an Dolby Atmos für immersive Film- oder Musikproduktionen. Doch das ist nur ein kleiner Teil der denkbaren Anwendungen, wir wollen uns aber auf die für den BVFT relevantesten fokussieren. Es entsteht gerade ein riesiger Urwald an neuen Formaten, Geräten, Plugins und Distributionswegen, von denen wir heute vielleicht noch nicht einmal wissen. Heißt es kann sich durchaus lohnen selber zu Abenteurer zu werden und in den Dschungel zu stürzen.

    Originalton Aufnahme

    Für die Aufnahmen unterwegs und im Studio müssen die Tonmeisterinnen einen guten Überblick über die existierenden mehrkanaligen, Microphone-Arrays haben. Diese eigenen sich meist als sogenannte Beds. Dabei sind aber kanalbasierte Formate wie 5.1, 7.1 und 7.1.2 eher zweitrangig. Sie sind zwar etabliert im Filmton Kontext, bilden den Ton aber nicht kugelförmig, aus allen Seiten gleichmäßig ab, wie es immersive Audio meist verlangt. Denn oft wird bei der späteren Wiedergabe der Ton noch um die Raumachsen rotiert.

    Spätestens hier stolpert man über den Begriff Ambisonics. Dieses Format existiert bereits seit einigen Jahrzehnten, schaffte aber erst in Kombination mit 360° Videos seine große Daseinsberechtigung. Es existieren bereits von verschiedensten Herstellern recht erschwingliche Mikrofone, welche vier tetraedisch angeordnete Kapseln verfügen. Diese Rohaufnahmen werden als A-Format bezeichnet und später software-seitig in das B-Format übertragen in dem mit Ambisonics gemischt wird.

    Vor- und Nachteile des Formats sollen hier nicht weiter diskutiert werden. Hier gibt es aber was zum Nachlesen. Es geht v.a. darum zu zeigen, dass während der Aufnahme manchmal noch nicht mal klar ist, auf welchem Endgerät oder Plattform die spätere Produktion einmal landet. Es können also genau so gut das ORTF-3D oder ein Omni-Binaurales Mikrofon die richtige Wahl sein.

    Der Wichtigste Unterschied zum klassischen Filmton ist, dass die Tonangel bei 360° Videos etwa komplett wegfällt. Sonst wäre der Tonmensch samt Boom im VR Bild zu sehen. Daher ist auch hier eine solide Funkanlage notwendig. Es gilt also einerseits darum ein 3D Bed aufzunehmen, das den Ton möglichst gut aus allen Richtungen einfängt und andererseits ist es essentiell die Audio-Objekte zusätzlich möglichst isoliert aufzunehmen. Dabei gelten ganz andere Regeln als beim klassischen Film, da auf einmal kriegsentscheidend ist, wer aus welche Richtung spricht und wie die Szene räumlich aufgelöst wird.

    ambisonics microphone

    Sounddesign & Musik

    Mittlerweile sind viele Tools in den gängigen DAWs für ProTools und Nuendo verfügbar, aber eben nicht alle. Schnell stößt man an Grenzen in Form von Bus-Größen oder Lautsprecher Konfigurationen. Daher kann sich aktuell noch der Umweg über Reaper lohnen wo man quasi uneingeschränkt ist und im Zweifel eigene Skripte schreiben kann. Apropos Skripte, an die kommt man spätestens in Unity oder Unreal so gut wie nicht vorbei, doch dazu später mehr..

    Musik wird in den allermeisten Fällen in Stereo produziert. Im immersiven Bereich gibt es dafür eine dedizierte Head-Locked Stereo Spur. Dies ist ein Audio-Track, der sich nicht verändert, egal ob die Blickrichtung geändert wird. Problem daran ist, dass nun dieser statische Soundtrack gegen den immersiven Soundtrack arbeitet und dessen Lokalisation kaputt macht.

    Daher kann es Sinn machen, sich Effekte und Musik in objekt-basierten Formaten anliefern zu lassen. Leider wird oft aus Seiten der Produktion ein klassischer Ansatz mit Musik und Voice-Over gewählt. Damit bleibt für den eigentlich O-Ton so gut wie kein Platz mehr um zu wirken, da nun drei Tonebenen irgendwie miteinander harmonieren wissen, aber dabei irgendwo zwischen diegetisch und nicht-diegetisch hängen.

    Daher lieber den Ton einfacher denken und nicht von anfang an überfrachten. Meist kommen eh noch visuelle Elemente hinzu, die den Nutzer schon genug fordern, da braucht es vielleicht gar nicht noch epische Musik und einen Werbesprecher.

    Lineare / immersive Mischung

    Man darf sich nichts vormachen, es gibt nicht nur keine Format-Standards und eine bunte Auswahl aus Mikrofon-Möglichkeiten, genauso wenig gibt es Standards zu Messung von Lautheit. Hier haben AudioEase und die FB360 Workstation LUT-Ansätze, die versuchen das Schallfeld-Signal zu messen, zumindest für 360° Videos. Wichtig ist v.a. dass der Mix nicht zu laut ist und später im Decoder beim binauralisieren oder dem Verteilen auf Lautsprecher Probleme gibt. Klingt einfach gesagt, ist nur in vielen Fällen schwer vorauszuahnen, da man sich absolut nicht auf Pegel verlassen kann.

    Außerdem muss man sich von der Illusion verabschieden, dass mit 3D immersive Audio der Ton immer genau so klingt, wie man es sich vorstellt. So nutzen Facebook und YouTube andere HRTF-Modelle für die Binauralisierung, womit ein und dieselbe Mischung auf verschiedenen Plattformen deutlich unterschiedlich klingt. Das betrifft nicht nur das Timbre sondern auch die Lokalisation und Mischverhältnisse mit dem Head-Locked Anteil.

    Apropos Head-Locked, diese bereits erwähnte, optionale Stereospur wird meist für Musik genutzt, kann aber ebenso für Voice-Over verwendet werden. Durch die In-Kopf-Lokalisation wird dem Nutzer klar, dass die Person nicht lokalisierbar ist und damit nicht in der Szene zu verorten ist. Dennoch kann es für Leute irritierend sein eine Stimme zu hören und sie keiner Person zu Orten zu können.

    Bei klassischem Film lässt sich wohl kein normaler Zuschauerin dadurch irritieren. In VR gelten aber anderen Gesetze, weil man ja selber Teil der Szene ist. Man also auch hier mal wieder Mischentscheidungen hinterfragen, die man seit einer Ewigkeit beim Bewegtbild schon immer so gemacht hat. Kanalbasierte Workflows in Stereo oder Surround werden standardmäßig gelehrt, können aber so für kugelförmige Audiomischungen nicht übernommen werden.

    Außerdem spielen hier auch Hörgewohnheiten eine große Rolle. Mittlerweile wird der die Präsenz des Ansteckers ja fast der Natürlichkeit einer Angel vorgezogen. Genauso müssen sich Hörerinnen erst einmal an die Externalisierung (Gegenteil von In-Kopf-Lokalisation) gewöhnen, also das Gefühl zu haben mit Kopfhörern eine Person wirklich von außen zu hören. Dabei klingt Sprache wesentlich räumlicher, ebenso wie man es aus der Realität kennt, aber nicht so, wie man es aus dem Film kennt.

    Ganz im Gegenteil ist hier also der Stereo-Ton eigentlich als falscher Ton anzusehen, der die Immersion kaputt machen kann, welche man versucht hat, mit dem Bild aufzubauen. Es gibt sehr wenige gute Gründe, bei einem Virtual Reality Sound Erlebnis auf statischen Ton zurückzugreifen und zeigt sehr offensichtlich, dass hier das Potential des Medium bei weitem nicht ausgeschöpft wurde. Hier mehr Gedanken dazu.

    Interaktive Mischung

    Kommen wir nur zum Punkt, der das Thema XR eigentlich so mächtig macht. Und das ist etwas, was dem Fan vom linearen Bewegtbild wohl gar nicht schmecken wird: nämlich Interaktivität. Hier finden wir uns schnell in der Welt der 3D-Modellen und Game-Engines wieder.

    Doch hier kommt die gute Nachricht: es gibt ein Berufsbild, das hier sehr nah an den Anforderungen ist: Nämlich Game Audio Designerin. Das mag jetzt mit klassischem Filmton nicht mehr viel zu tun haben, aber die Grenzen verschwimmen immer mehr. Nur weil man Game Audio gelernt hat, heißt es nicht, dass man Computerspiele vertont. Und nur weil man Filmton gelernt hat, heißt es nicht, dass man auch Filme machen muss. Sound für XR befindet sich irgendwo in dieser Grauzone.

    Größter Unterschied zu klassischem Filmton ist, dass statt einem längeren Audiofile, das von Anfang bis Ende konstant durchläuft, nun sogenannte Audio Assets angeliefert werden. Diese werden einzeln in der Game-Engine and Game-Objekte geheftet. Das können, 3D-Modell im Raum sein, Charaktäre oder mit Ereignissen verknüpft werden. Im Filmton weiß man genau, wann etwa eine Person durch die Tür geht und wir können mit dem passenden Türsound und Hall vertonen.

    Bei interaktiven Anwendungen, weiß man aber leider selten, wann genau das Ereignis eintritt. Daher wird das Tür-Sound-Asset etwa mit der dem Game-Objekt Tür verknüpft. Sobald ein Charakter durch die Tür schreitet wird der hinterlegte Sound abgespielt. Klingt simpel, doch für Glaubwürdigkeit fehlen noch ein paar Schritte – nicht nur die des Charakters, sondern müssen auch vorab Hallräume für die zwei Räume definiert werden, die durch die Tür getrennt sind. Außerdem will man ja nicht jedes Mal den gleichen Türsound hören und hinterlegt daher meist direkt eine kleine Palette an Tönen. Oder schreibt ein Skript, das den Türsound etwa ja nach härte des Zuschlagens höher oder tiefer Pitcht.

    Man merkt also, hier ist nicht der perfekte Mix, wie bei linearen Audioproduktionen, sondern trial and error gefragt. Da die meisten Game-Engines in ihren Audiofunktion meist nur recht rudimentär ausgestattet sind, kommen hier Middlewares zur Hilfe. Diese erweitern den Funktionsumfang und ermöglichen eine Schnittstelle zum Projekt, ohne am Projekt selber Veränderungen vornehmen zu müssen, was die Programmierer freut die meist noch parallel am gleichen Projekt arbeiten müssen.

    Berufseinstieg immersives Audio

    Bei der Entwicklung einer XR-Geschichte mit räumlichem Ton sollte man sich überlegen, wie man den Ton einsetzen kann um die Geschichte voranzutreiben. Um anzufangen muss man also den Ton im Allgemeinen neu überdenken. Es gibt so viele Arbeitsabläufe, die man nur mit Mono- oder Stereoton durchführt, die bei XR mit Spatial Audio nicht funktionieren. Denn in XR schaut man nicht nur in eine Richtung und der Ton kann die Augen lenken.

    Es gibt nur eine überschaubare Anzahl an Fortbildungen. Immer mehr Hochschulen erkennen aber den Bedarf und arbeiten bereits an neuen Schwerpunkten mit immersive Audio und es werden Labore ausgebaut. Verwandte Vereinigungen wie die AES und VDT haben ähnlichen Angebote an Workshops und Webinaren.

    Es lohnt sich einen Überblick darüber zu verschaffen, was es bereits an Inhalten gibt. Welche XR-Erfahrungen es mit Spatial Audio gibt, die gut funktionieren. Und von dort aus kann man dann vielleicht anfangen, eigene Geschichten zu entwickeln oder über eigene Ideen nachzudenken. Denn die Chancen stehen sehr gut, dass man eine Vision hat, die im Bezug auf Sound noch niemand hatte sich damit die Einstiegshürde herunter setzt.

    Die Tongestaltung muss neu gedacht werden

    Da die Entwicklungen rasant voranschreiten ist es sehr schwierig die Zukunft vorauszusehen. Es lohnt sich aber unbedingt als Tonmensch nicht nur an sein Department zu denken. Das macht die Kommunikation mit anderen Kreativen oder Technikern einfacher und hilft auch den eigenen Horizont in Bezug auf Sound zu erweitern. Eine Ausbildung im Medientechnik-Bereich mit Schwerpunkt auf Ton kann hier also eine gute Grundlage sein. Es nutzt das ganze Spezialwissen über immersives Audio nicht, wenn man anderen Leuten nicht vermitteln kann wieso es für sie wichtig ist.

    Viele Tonkolleginnen überlegen gerade Lautsprecher an die Decke zu bauen und auf Dolby Atmos upzugraden in der Hoffnung neue Kunden zu gewinnen. Doch in Wahrheit wird das Werbeversprechen oder überhaupt ein “return of invest” eintreten. Wieso sollte ein Kunde auf einmal wesentlich mehr Geld für ein Audioprodukt ausgeben, das in Stereo wohl genau so gut funktioniert hätte? Und wenn jeder auf einmal 3D anbietet, ist ein Angebot auf dem Markt, von dem gar nicht klar ist, ob es durch Musik- und Filmanfragen überhaupt gedeckt werden kann.

    Genau das ist der Knackpunkt, die meisten Tonkolleginnen wollen einfach in ihrem Studio bleiben, weiterhin die Lieblings-DAW nutzen und dann kommen schon irgendwie die Jobs. Aber das funktioniert in der XR und immersiven Audiowelt so nicht. Zur oft steht der Mehraufwand bei der 3D Audio Produktion in keinem Verhältnis zu Stereo. Und auch hier wird natürlich lieber Budget für den visuellen Part als für den Sound ausgegeben. Man hat ja schließlich auch viel mit Datenbrillen zu tun. Daher heißt es den Spieß umdrehen: Aus der Ton-Komfortzone gehen und selber überlegen, was eine spannende Anwendung in Bezug auf XR sein kann – es lohnt sich.

    Daher ist vor allem ein anderes Mindset gefragt, wie es Neudeutsch so schön heißt.

    Entwicklung und Berufssituation

    Kinobesucher sind bereit sich ein Surround-Sound Erlebnis auch gut was kosten zu lassen. Doch ob Stereo oder Surround, am Ende des Tages ist es ein nettes Feature. Man braucht nicht erwarten, dass man auf einmal mehr Geld verlangen kann, nur weil man jetzt in 3D Mischt – für einen Film oder Musik, die auch in Stereo überwiegend gut funktioniert.

    Bedeutet das, dass 3D Audio keinen großen Stellenwert in Zukunft haben wird? Natürlich nicht! Daher möchte ich ein anderes Extrembeispiel nennen, das Unsereiner gerne belächelt, aber trotzdem hoffen lässt: 8D Audio. Hier ein Detaillierter Artikel dazu. Aber die Kurzfassung lautet: Jemand kam auf die Idee, einen Song durch einen Spatializer zu jagen und endlos um den Kopf kreisen zu lassen. Klingt absurd und das ist es für unsere geschulten Ohren auch.

    Und trotzdem: Hier wurden Millionen von Menschen mit 3D Audio Inhalten erreicht und die Klickzahlen sind im neunstelligen Bereich. Das zeigt, wie gut es sein kann, mal unkonventionell zu denken und Dinge zu tun, gegen die man sich unter Umständen sträubt. Es reicht nicht, sich ein 3D Spatializer zu kaufen und zu denken, man macht jetzt immersives Audio. Daher fehlen aktuell noch etliche Leute in der Branche die wirklich jahrelange Erfahrung vorweisen können.

    dearvr pro

    Man darf dabei nämlich nicht vergessen, für wen und warum wir eigentlich etwas mischen. Wollen wir eine 3D Mischung, die man seinen Kollegeninnen guten Gewissens zeigen kann (hier wäre wohl Dolby Atmos die Wahl), oder den Konsumenten erreichen (8D Audio zeigt, dass es geht). Die Wahrheit liegt wohl irgendwo dazwischen, es wird also Zeit, das Potential aus beiden Welten zu nutzen und den Mehrwert von 3D immersive Audio zu finden.

    Typische Herangehensweise ist es, 3D Audio dort zu verwenden, wo es auch schon mit Surround gut geklappt haben. Dass über tausend Kinofilme bereits immersive in Dolby Atmos gemischt wurden, ist wohl kein Geheimnis mehr. Allein diese Tatsache ist für den Sound schon beachtlich. Während man aktuell das Hörerlebnis fast ausschließlich in Kinos oder befreundeten Studios genießen kann, wird in Zukunft der dreidimensionale Mix über Soundbars bald auch im heimischen Wohnzimmer vermehrt Einzug finden. Clevere Algorithmen mit virtuellen Lautsprechern machen’s möglich.

    Oder noch einfacher: in quasi jedem Haushalt gibt es Kopfhörer, die eine dreidimensionale Audio-Wiedergabe in Form des binauralen Stereos für Konsumentinnen zugänglich machen. Man bekommt als Zuhörer immer mehr das Gefühl nicht nur einen Film zu schauen, sondern Teil des Geschehens zu sein. Mischtonmeisterinnen können sich außerdem über die bessere Transparenz freuen, da mit der spatialen Aufteilung der verschiedenen Klang Ebenen im Raum weniger Kompromisse eingegangen werden müssen, als bei Stereo.

    Historische Entwicklung und heutige Situation

    Kunstkopf-Stereofonie ist schon seit Jahrzehnten beliebtes Aufnahmeverfahren für die Wiedergabe auf Kopfhörern. Die Vision dahinter ist das möglichst realistische Abbilden der akustischen Umgebung für den Menschen.

    Vereinfacht gesagt, können damit Emotionen, Präsenzgefühle und Wahrnehmungen ausgelöst werden, die tief mit den eigenen Erfahrungen verknüpft sind – unmittelbarer, als es etwa Mono könnte, weil eine Abstraktionsebene wegfällt und für unser Gehirn leichter zu verarbeiten ist. Daher trifft es das Stichwort Immersion, also das Eintauchen in eine virtuelle Welt Umgebung, doch recht gut.

    Aktuell kommt aber wieder sehr viel Schwung in die Thematik, da Ton nun auch als dreidimensionales Ereignis für ein größeres Publikum mit Lautsprechern immer zugänglicher wird. Außerdem ploppen in den verschiedensten Bereichen zusätzliche Technologien wie Headtracker, Datenbrillen und Echtzeitrenderings auf, die uns immer realistischer den Höreindruck vermitteln, wie wir ihn aus unserer natürlichen Umwelt gewohnt sind.

    Zusammenfassung und Fazit

    Bei all dem immersiven Trubel darf man aber nicht den Blick für das große Thema immersive Film Sound verlieren. Schon jetzt schlagen die nächsten Hype-Themen auf: Künstliche Intelligenz, Blockchain, Voice Assistants, Smartspeaker etc. Was erstmal nach Buzzwords klingen, die fern von unserer Filmton-Welt liegen, handelt es sich eigentlich um ganz heiße Eisen, die man sich als Tonmeisterin mal genau anschauen sollte.

    Klingt etwas abstrakt, aber das Wunderbare am Ton ist, dass es sich um eine Querschnittstechnologie handelt, mit dem man quasi bei jedem anderen Thema andocken kann – und das geht weit über immersive Audio hinaus. Nun heißt es also, selber Macherin zu werden, seine Komfortzone zu verlassen und in ungeahntes Audio-Terrain vorzustoßen. Denn es liegt in unserer Hand, Zukunftsmusik zu gestalten und diese hat mehr als nur drei Dimensionen.

    Wie diese klingen, erfahren Sie hier! Also jetzt unverbindlich Kontakt mit Martin Rieger aufnehmen.

    Kontakt aufnehmen