Inhalt
Eines der Probleme, nachdem in der Facebook Spatial Audio Gruppe wohl am meisten gefragt wird, ist folgendes: Mischungen, die mit der FB360 Workstation erstellt wurden, haben eine obligatorische 8-kanalige Ambisonic wav-Datei im TBE-Format, sowie eine optionale Stereo-Spur für Musik, also ein sogenanntes head-locked Audio, das sich im Gegensatz zur Spatial Audio Datei bei einer Kopfbewegung nicht mit dreht.
Head-Tracking heißt also, dass sich der Ton zur Blickrichtung mitverändert, head-locked bleibt bei der Wiedergabe von der Blickrichtung unabhängig. Diese beiden Begriffe – head-locked und head-tracked audio – bezeichnen unterschiedliche Arten von Spatial Audio.
Die Unterschiede zwischen fixed (head-locked) und head tracked spatial audio liegen darin, dass fixed audio unabhängig von der Kopfbewegung bleibt, während head tracked spatial audio die Position der Ohren im 3D-Raum erfasst und das Klangbild dynamisch anpasst.
Die Wahl zwischen diesen Arten hängt von den individuellen Anforderungen und Präferenzen des Nutzers ab, da beide Ansätze unterschiedliche Vorteile bieten. Wer wen Ambisonics Neuland ist, dem rate ich zuerst meinen kleinen Artikel als Einführung zu lesen: Ambisonics für Virtual Reality Video.
Soweit so gut, bei Facebook mit seinem eigenen TBE-format zu Arbeiten kein Problem. Der eigene Audio 360 Encoder kann neben dem 360° Video, die mehrkanalige Spatial Sound Datei, sowie die statische head-locked als Input auswählen und er gibt ein finales Video-File mit den 8 + 2 Audiokanälen.
Für die Nutzung dieser Formate sind bestimmte Audiosysteme und passende Hardware erforderlich. Zu den unterstützten Produkten zählen beispielsweise AirPods Pro, AirPods Max oder Apple TV 4K, die speziell für Spatial Audio mit Headtracking entwickelt wurden.
Die Voraussetzungen für die Nutzung umfassen kompatible Geräte, aktuelle Betriebssysteme und unterstützte Audioformate. Nutzer haben zudem verschiedene Optionen, um die Einstellungen für 3D-Audio und Headtracking individuell anzupassen.
YouTube unterstütz aber schon etwas länger 360° Sound, aber als 4-kanaliges Audio, Ambisonics erster Ordnung im Format ambiX.
Wenn man nun beim Facebook-Encoder versucht, als Format nicht „Facebook 360 Video“, sondern „YouTube Video (with 1st order ambiX) auszuwählen“, wird die Option „Head-Locked Stereo“ ausgegraut.
Weil diese Tatsache sehr unbefriedend ist und im besagten Social mMedia Kanälen entsprechend für Forure sorgt, wollte ich mit diesem Artikel Abhilfe schaffen.
Zurück zum Thema, dass der Encoder hier den Dienst verweigert, ist gar nicht mal seine Schuld: YouTube unterstütz hybride Formate von Facebook einfach nicht. Man kann nun lediglich seine 8-kanalige tbe-Datei automatisch ins 4-kanalige

ambiX transcodieren lassen, das statische Stereo wird außen vorgelassen.
Ein wichtiger Fakt ist, dass head tracked spatial audio spezielle Geräte benötigt, die die Position der Ohren im 3D-Raum erfassen können. Die Wahl zwischen fixed und head tracked spatial audio sollte daher immer im Vergleich zu den eigenen Anforderungen und Präferenzen sowie der vorhandenen Hardware und den unterstützten Produkten erfolgen.
Doch was macht man nun mit Musik? Bevor ich eine Grundsatzdiskussion losbreche, ob Musik spatial oder statisch sein soll, das habe ich hier schon etwas diskutiert. Jetzt aber wirklich zu den Lösungsansätze:
Die wohl einfachste Lösung ist es, seine head-locked Stereo-Datei in eine summierte Mono-Datei umzuwandeln. Diese wird dann auf den ersten Kanal der Ambisonics-Datei geroutet. Dieser repräsentiert, unabhängig ob TBE oder ambiX, einen mono-kompatiblen, omnidirektionalen Stream.
Dieser Ansatz ist besonders für fixed spatial audio geeignet, da er eine grundlegende Richtungswahrnehmung (basic sense of directionality) ermöglicht.
Fixed spatial audio ist nicht dynamisch im 3D space, das heißt, der Sound bleibt immer aus derselben Richtung, unabhängig von Kopfbewegungen. Das ist zuverlässig für Nutzer, die stationär bleiben, zum Beispiel bei Anrufen oder während der Schreibtischarbeit.
Als Beispiel für geeignete Audiosysteme oder Soundstage Kopfhörer können klassische Studiokopfhörer wie die Sennheiser HD600 oder Audio-Technica ATH-M50x dienen, die für die Wiedergabe von festem räumlichem Audio geeignet sind.
Für diesen Workaround sind keine speziellen Headtracking-Funktionen erforderlich, sondern lediglich kompatible Hardware wie ein Standard-Audiointerface und entsprechende Produkte, etwa ein Mac, iPhone oder iPad mit unterstütztem Betriebssystem.
Nutzer haben verschiedene Optionen, um die Audioausgabe zu konfigurieren, etwa über die Systemeinstellungen oder Audio-Software.
Diese Lösung ist also für Voice-Overs am besten geeignet, welche meistens mono und als Im-Kopf-Lokalisation gewünscht sind.
Stereo Musik wird danach aber deutlich schlechter klingen, weil alle Seitenanteile verloren gehen. Generell sollte man hier aufpassen, dass der erste Kanal nicht zu laut wird, da selbst wenn der Pegel nicht 0dBFS ist, kann das beim späteren Decodieren der binaurale Wiedergabe zu Verzerrungen führen.
Eine ähnliche Herangehensweise, die aber die Seitenanteile beibehalten kann ist Folgende. Die head-locked Stereo-Spur, welche normalerweise zwei Spuren hat, also linker und rechter Kanal, wird jetzt MS-codiert.
Dabei entählt der erste Kanala alle Mono-Anteile (links+rechts)x0.5 und der zweite Kanal alle Seiten-Anteile (links-rechts)x0.5. Nun wird der erste Kanal, wie beim Mono-Workaround beschrieben auf den ersten Kanal der Spatial Audio Quelle geroutet.
Im Vergleich zu anderen Arten von Spatial Audio, wie etwa fixed audio und Spatial Audio mit headtracking, bestehen wichtige
Unterschiede: Während fixed spatial audio eine grundlegende Richtungswahrnehmung ermöglicht, erlaubt head tracked spatial audio eine dynamische Anpassung des Klangs an die Kopfbewegung des Nutzers.
Der beschriebene MS-Workaround bietet ebenfalls eine grundlegende Richtungswahrnehmung, ähnlich wie fixed spatial audio, jedoch ohne die volle Dynamik des Headtrackings.
Für diesen Workaround sind bestimmte Audiosysteme und Hardware erforderlich, zum Beispiel kompatible Headsets oder Lautsprecher, die MS-codierte Signale verarbeiten können.
Zu den unterstützten Produkten zählen etwa ausgewählte Apple-Produkte mit aktueller Software, die Spatial Audio unterstützen. Nutzer haben verschiedene Optionen, um die Audioeinstellungen individuell anzupassen, etwa über die Einstellungen auf Mac, iPhone oder iPad.
Ein Beispiel für eine Anwendung, die diesen Workaround unterstützt, ist die Nutzung von Apple Music auf einem iPhone mit AirPods Pro, wobei Spatial Audio aktiviert ist und die MS-codierte Spur korrekt wiedergegeben wird.
Der zweite Kanal kann nun beliebig auf eine der anderen Achsen verteilt werden. Dabei empfiehlt sich die Höhen-Achse, weil das die Achse ist, um die die meiste Rotation beim späteren Betrachten auf der VR-Brille geschehen wird.
Somit würde sich das Seitensignal nur ändern, wenn der Zuschauer seinen Kopf nach oben oder unten bewegt, bzw. seinen Kopf nach links oder rechts rollt, warum auch immer man das tun mag.
Abonniere die aktuellsten 3D-Audio-News

Eine andere Herangehensweise ist folgende. Hier werden die beiden Kanäle des head-locked Stereo tatsächlich im Raum platziert, z.B. bei +45 und -45° Azimuth.
Jetzt hätte man genau das erreicht, was man ja eigentlich nicht will – die Musik für sich merkbar mitdrehen – aber wir sind ja noch nicht fertig. Deswegen dupliziert man einfach die Musik und platziert die Kanäle 3 und 4 auf -135° und +135° Azimut.
Nun hat man quasi eine Quadrofonie geschaffen, vergleichbar eines 5.1 Set-Up ohne Center + LFE und symmetrischer Winkelverteilung von 90°. Es empfiehlt sich, mit den Parametern „Spread“ zu hantieren, um beim head-tracking zu meiden, dass die 4 Objekte im Raum wirklich verortbar sind, bei höherem Spread also diffuser werden und etwas ineinander über gehen.
Man kann noch mehr Feintunen und statt 4 Objekt insgesamt 6 nehmen und Winkel im Abstand von 60° wählen. Dabei wird das head-tracking, also das Mitbewegen der Musik weniger offensichtlich, dafür wird es mehr an den Klang des Mono-Workaround angenähert.
Ähnlich ist es mit dem Ansatz, die 4 Objekte nicht 100% je links, rechts, links, rechts zu routen, sondern jeweils noch z.B. 50% des jeweils anderen Kanals hinzuzumischen.
Auch mit diesem Ansatz wird eine grundlegende Richtungswahrnehmung wie bei fixed spatial audio erreicht.
Es gibt viele Möglichkeiten, Spatial Audio umzusetzen, wobei die Unterschiede zwischen fixed und head tracked spatial audio entscheidend für das Klangerlebnis sind.
Im Vergleich zu herkömmlichem Stereo bieten beide Ansätze eine deutlich größere Immersion, jedoch hängt die Wahl zwischen fixed und head tracked spatial audio stark von den individuellen Anforderungen und Präferenzen des Nutzers ab.
Zum Beispiel eignen sich Apple-Produkte wie die AirPods Pro oder AirPods Max besonders gut für head tracked spatial audio, da sie diese Funktion nativ unterstützen. Für die optimale Nutzung stehen auf Mac, iPhone und iPad verschiedene Optionen zur Verfügung, mit denen sich die 3D-Audio-Einstellungen und die Kopferfassung individuell anpassen lassen.
Stark abhängig ist eben, was nun auf der head-locked Spur für Inhalte sind, z.B. unterscheidet sich klassische Musik von elektronischer so stark, dass hier ein jeweils anderer Workaround Sinn macht.
In Kombination mit dem 3D Audio Stream kann es sein, dass der Unterschied kaum zu hören ist, etwa wenn es sich um typischen Filmton handelt. Bei sensiblen Musikanwendungen kann es aber schnell zu einem Problem werden.
Wünschenswert für den Audio 360 Encoder der FB360 Workstation wäre, einen der Workarounds automatisch zu implementieren, weil sonst jedes Mal eine neue Mischung erstellt werden muss mit Spatial Audio, das die Musik enthält.
Das kann fürs bloße Testen schnell lästig werden. Noch besser wäre es, wenn eine head-locked Stereo Spur zum Standard auf allen Virtual Reality Plattformen oder etwa von MPEG-H unterstützt wird.
Ich hoffe ich konnte mit meinem Artikel behilflich sein. Über Anregungen oder Vorschläge freue ich mich per Mail.