audio hardware tools

Virtual Reality Audio Formate – Pro & Contra

Inhalt

    Sämtliche Technologien für die Wiedergabe von Virtual Reality Audio auf Kopfhörern oder Lautsprechern, kann man grob in drei Kategorien einteilen: Kanal-basiert, Objekt-basiert und Schallfeld-basiert.
    Hier ein paar Beispiele, bevor es später ins Detail geht:

    • Kanal-basiert: z.B. Stereo, 5.1 Surround etc.
    • Objekt-basiert: z.B. Dolby Atmos, G’Audio Lab
    • Schallfeld-basiert: z.B. Ambisonics

    Kanal-basiert

    Hier wird jedem Kanal einer Audio-Datei ein fester Wiedergabe-Platz zugewiesen. Bei Stereo ist es "links" und "rechts" und hat damit zwei Kanäle. 5.1 Surround hat sechs Kanäle, es kommen also noch zwei Lautsprecher hinter dem Zuschauer, sowie ein Center aus der Bildmitte und ein LFE-Kanal für den Subwoofer hinzu. Für Virtual Reality Audio also eher unüblich, hat aber durchaus seine Daseinsberechtigung.

    Binaurales Stereo

    Hierbei handelt es sich um einen Surround-Eindruck, der über Kopfhörer wiedergegeben werden kann, und damit nur zwei Kanäle benötigt.
    Dabei wird der menschliche Höreindruck simuliert, sei es durch die Aufnahme mit zwei Mikrofonen (-> Kunstkopf) oder eine Berechnung aus einem Surround-Format mittels HRTF (Head-Related Transfer Function).

    Pro Contra
    Kann wie jedes herkömmliche Stereo-File auf allen Plattformen wiedergegeben werden Keine Wiedergabe über Lautsprecher, prinzipiell möglich, aber klingt komisch
    Schnelle Möglichkeit den gesamten Klangeindruck einer Spatial Audio Mischung als Downmix wiederzugeben Kein Head-Tracking möglich, kann nur den Klang einer festen Blickrichtung wiedergeben

    5.1 Surround

    Pro Contra
    Auch für herkömmliche Surround-Anwendungen mit Lautsprecher nutzbar Positionen zwischen den Lautsprechern nur als Phantomschallquelle möglich
    Einfaches Setup, seit Jahren genutzt nur zweidimensional, kann keine Höheninformation von oben oder unten wiedergeben

    Objekt-Basiert

    Hierbei werden Töne als sogenannte Audio-Objekte im 3D Raum platziert werden, ohne an Lautsprecher-Anordnung oder Kanälen gebunden zu sein. Bei der späteren Wiedergabe wird die Position des Objekts im Raum auf die zur Verfügung stehenden Lautsprecher berechnet, somit ist eine Beschallung mit einer quasi unbegrenzten Zahl an Lautsprechern möglich und stellt in der Anordnung in etwa eine Halbkugel da.

    Dolby Atmos VR

    Ist eine Umwandlung der Dolby Atmos Tools für Virtual Reality. Aus dem Atmos-Masterfile wird ein ec3-File erzeugt, das später eine Wiedergabe über Head-Tracking ermöglicht.

    Pro Contra
    Wiedergabe als Stereo ohne weiteres decodieren möglich, erkennt womit es abgespielt wird und wandelt sich bei der Wiedergabe selber um Eingebackenes Format, wenig Möglichkeiten zur Distribution, selbst Preview der eigenen Videos kann kompliziert werden
    Objektbasierter Ansatz für VR, Wiedergabe während der Mischung auch über Surround-Lautsprecher möglich VR Transcoder ermöglicht den Output von Ambisonics, aber lediglich erster Ordnung und wird im direkten Vergleich zu ec3 schlechter klingen, als hätte man es künstlich verschlechtert

    G’Audio Lab

    Das Team dahinter hat 2005 bereits zur Entwicklung von MPEG-H beigetragen und war maßgeblich am binauralen Rendering beteiligt. Doch sie wussten, dass MPEG-H nicht einwandfrei für VR geeignet ist, da es nicht möglich ist, kanal-, objekt- und schallfeld-basiertes Audio gleichzeitig zu nutzen.

    Pro Contra
    Nutzt die jeweiligen Vorteile von kanal-, objekt- und schallfeld-basiertem Audio Auf Plattformen quasi nicht verbreitet, aber encodieren in Ambisonics erster Ordnung möglich
    Kann auch für interaktives VR genutzt werden, also eine Bewegung von der Kamera-Position weg (6 statt 3 Freiheitsgraden) aktuell Mac-Only

    Schallfeld-Basiert

    Ambisonics

    Diesem Format habe ich bereits einen [url id="263" text="ausführlicheren Artikel"] gewidmet. Das Arbeiten mit einer Ambisonics-Mischung für Virtual Reality Audio ist vergleichbar mit einer Objekt-basierten, die Technologien sind aber denkbar unterschiedlich.

    Ambix / FuMa (Furse-Malham)

    These two Ambisonics formats are pretty similar and compatible with each other, so I will not distinguish between them.

    Pro Contra
    High compatibility with other channel-based formats with decoder No playback without decoder possible but it’s implemented on most platforms
    Scalable with more channels, for 360° videos, four channels are already making fun Music is usually static and not supposed to rotate with the scene, but stereo is only supported with a workaround which is not lossless

    Two Big Ears (TBE)

    It’s its own ambisonics format, which company got bought by Facebook and got introduced as its standard. It’s a hybrid higher order Ambisonics, which uses eight channels, a well thought through concept, but also some flaws. More on that perhaps on my blog.

    Pro Contra
    Good compromise of channel number and possible resolution; it supports an additional static stereo-track which solves the ambisonics problem baked-in format, it is difficult to bring it to other formats, but it was recently improved
    complete pipeline from DAW to SDK, you won’t here big surprises throughout the process nontransparent: what do the channels stand for, what kind of HRTF is being used etc. Free to use, but not open source

    Quad-Binaural

    Is a format, that can be classified somewhere between channel-based and soundfield-based. It relies on four stereo-files which represent four lines of sight at 0°, 90°, 180°, and 270°. During playback, the audios are interpolated for angles in between these fixed numbers. Although in the future it will probably be used less, it still has its right to exist.

    Pro Contra
    When programming apps, there is no need to implement an HRTF with a decoder, which saves resources playback is mostly only a mix of the audio and therefore not very accurate
    the stereo track at 0° represents a downmix (see binaural stereo) which can be useful as a preview without head tracking It is possible to go e.g. from ambisonics to quad-binaural, but not vice versa, so it’s a dead end for post-production

    So, that was my little overview of cinematic virtual reality audio. If you have any questions, comments or feedback, feel free to write a mail.

    More on Audio Formats