DE
EN

Ambisonics
für Virtual Reality Videos

Warum Ambisonics?

Eigentlich ist dieses Format ca. 40 Jahre alt und hat sich kaum durchgesetzt. Problematisch ist nämlich, dass der Ton meist erst in den Ambisonics-Raum encodiert und zur Wiedergabe decodiert werden muss. Darüber hinaus ist der Sweetspot bei Lautsprecheranwendungen sehr klein. Da aber 360° Videos bei einer VR-Brille fast ausschließlich zweikanalig über Kopfhörer wiedergegeben werden, können in den Software-Videoplayern bereits die nötigen Decoder implementiert werden. Dabei wird in Echtzeit aus dem Ambisonics-Signal über die HRTF (Head-Related Transfer Function) ein binaurales Stereo-signal berechnet, das sich je nach Blickrichtung des Zuschauers veränder kann.

Aufnahme

Für ein Ambisonics-Mikrofon hat sich eine kompakte Tetraeder-Anordnung bewährt, bei welcher vier Mikrofonkapseln mit Nierencharakteristik in alle Richtungen kugelförmig zeigen (siehe obiges Bild). Aufgezeichnet wird dieses Signal über einen mindestens vierkanaligen Recorder, der möglichst wenig Eigenrauschen und eine digitale Gain-Regelung besitzen sollte, um eine identische Vorverstärkung aller Mikrofone zu ermöglichen. Aufnahmegerät und Mikrofon werden möglichst nahe an der 360° Kamera platziert, da später das Kamera-Stativ aus dem Bild retouchiert wird und damit auch das Ton-Equipment. Diese Ambisonics-Aufnahme wird als A-Format bezeichnet und muss in der Post-Produktion später durch ein Encoder-Plugin ins B-Format übertragen werden, um weiter verarbeitet werden zu können.

Post-Produktion

Das Audiosignal bleibt bei der Umwandlung vom A- ins B-Format vierkanalig, doch anstatt der Mikrofonkapseln 1, 2, 3 und 4, werden die Signale im B-Format nun umgewandelt in die Kanäle W, X, Y und Z. Dabei sind X,Y und Z Raumachsen, während W ein monokompatibles Signal ist, das alle Signalanteile enthält und damit omnidirektional ist. Nachfolgende Abbildung soll die Anordnung der beschriebenen Kanäle verdeutlichen.

Die vierkanalige Auflösung ist dabei relativ diffus, eignet sich aber besonders für Atmos und O-Töne, die aufwendig in der Post-Produktion durch Foleys erstellt und im 3D Audio Raum platziert werden müssten. Da die Aufnahme vom Set meist aber komplett übernommen werden kann und das Headtracking so bereits funktioniert, bietet es in der Mischung eine gute Ausgangsbasis.

Vorteile/Nachteile

Vorteile

  • Ambisonics ist kugelförmig, kann damit im Gegensatz zu den meisten Surround- oder immersiven Audio-Formaten, welche eine Halbkugel darstellen, auch Höheninformationen "von unten" projezieren.
  • Patente sind bereits abgelaufen, damit ist die Technologie quasi frei zugänglich.
  • Ambisonics ist durch höherer Ordnungen mit mehr Kanälen beliebig erweiterbar, andersherum ist kein extra Downmix nötig, um z.B. von 16 Kanälen auf 4 zu kommen; lediglich die Auslösung wird geringer.
  • Mit First Order Ambisonics Ambix (ACN, SN3D) etabliert sich gerade ein Standard. (z.B. auf YouTube)

Nachteile

  • Kann nicht ohne Decoder richtig wiedergegeben werden, auf verschiedenen Plattformen kann ein und das selbe Audio unterschiedlich klingen.
  • Geringe Kompatibilität für statische Stereo-Sounds (z.B. Musik) -> Workaround nötig
  • Ambisonic ist Szenen-basiert. Ein Wegbewegen von der Ausgangsposition ist nur begrenzt möglich, für interaktivee VR-Anwendungen also weniger gut geeignet als objekt-basiert.
  • Higher Order Ambisonic ermöglicht zwar eine bessere Ortung, hat aber eine große Datenmenge und löst das ursprüngliche Problem nicht, an eine bestimmte Anzahl von Audio-Kanälen gebunden zu sein.

zurück zum Blog