audio hardware tools

Virtual Reality Audio Formate – Pros & Cons

Content

    Pretty much all technologies for playback of virtual reality audio on headphones can be put into three categories: channel-based, object-based and soundfield-based. Some examples, bevor we go into detail:

    • channel-based: e.g. stereo, 5.1 Surround
    • object-based: e.g. Dolby Atmos, G’Audio Lab
    • soundfield-based: e.g. Ambisonics

    Channel-based

    Every channel of an audio-file is routed to a fixed place for playback. For stereo, it is "left" and "right" and therefore has two channels. 5.1 Surround has six channels, which means there are two additional loudspeakers at the back of the listener, as well as a center between left and right, but also an LFE-channel for the subwoofer.

    Binaural Stereo

    Binaural basically means that you are able to get a surround experience, just via headphones and therefore only has two channels. It simulates how a human is hearing by recording with special microphones (a dummy head with two artificial ears) or it can be calculated as a downmix from a surround-formats with something called HRTF (Head-Related Transfer Function).

    Pro Contra
    Can be played back on every platform, just like a normal stereo-file No playback on loudspeaker – technically possible, but sounds weird
    Quick possibility to listen to the tone of a spatial audio mix No head-tracking possible, it can only deliver the sound of a fixed viewing direction

    5.1 Surround

    Pro Contra
    Can be played back not only on headphones for VR but on a conventional loudspeaker setup positions in between the loudspeakers are only realized as phantom sound source
    Easy setup, used and supported for ages only two dimensional, doesn’t support height information from above or below

    Object-Basiert

    Here, sounds are placed as so-called audio objects in 3D space without being bound to loudspeaker arrangements or channels. During the later playback, the position of the object in the room is calculated on the available loudspeakers, thus an acoustic irradiation with an almost unlimited number of loudspeakers is possible and represents in the arrangement in about a hemisphere.

    Dolby Atmos VR

    The Dolby Atmos tools got transformed to be used for virtual reality. The Atmos-master file is transcoded to an ec3-file, which later supports playback with head-tracking.

    Pro Contra
    It is possible to playback the file without further decoding since it recognizes, the current situation and converts itself from surround to stereo baked-in format, few possibilities for distribution, even Previewing your own video can be complicated
    object-based approach on VR, playback during mixing is easily possible on surround loudspeaker setups Its VR Transcoder can output ambisonics, but it is only first order and will sound worse than a Dolby’s ec3

    G’Audio Lab

    The team behind it already started working on MPEG-H in 2005 involved in its binaural rendering. But they knew that MPEG-H is not perfect for VR since it is not possible to use channel-, object-, and soundfield-based audio at the same time.

    Pro Contra
    Uses the benefits of channel-, object-, and soundfield-based audio each Not support on platforms, but encoding workaround to ambisonics possible
    Can also be used for interactive VR, so moving away from the camera (6 instead of 3 degrees of freedom) Mac-only at the moment

    Soundfield-based

    Ambisonics

    For this format, I already wrote a more detailed article, right here: https://www.vrtonung.de/ambisonics/ Mixing with ambisonics for virtual reality audio is relatable to working with object-based audio. But the technologies are way different.

    Ambix / FuMa (Furse-Malham)

    Diese beiden Ambisonics-Formate sind sehr ähnlich und untereinander gut kompatibel, weswegen sie hier nicht weiter unterschieden werden.

    Pro Contra
    Hohe Kompatibilität zu anderen kanalbasierten Formaten durch Decoder möglich Keine Wiedergabe ohne entsprechenden Decoder möglich, welcher aber auf den meisten Plattformen integriert ist
    Beliebig durch weitere Kanäle skalierbar. Für 360° Videos machen vier Kanäle bereits Spaß Musik (Stereo) kann nur über einen Work-Around als ein sich nicht-mitdrehendes Schallereignis eingebunden werden

    Two Big Ears (TBE)

    Ist ein eigenes Ambisonics-Format, dessen Firma von Facebook gekauft wurde und als dessen Standard eingeführt wurde. Es handelt sich um ein Hybrid Higher Order Ambisonics, das acht Kanäle besitzt und ein gut durchdachtes Konzept besitzt. Dazu bei Gelegenheit mehr auf meinem Blog.

    Pro Contra
    Guter Kompromiss aus Kanalzahl und möglicher Auflösung; hat zusätzliche, statische Stereo-Spur löst das Problem von Ambisonics Eingebackenes Format, schwierig in andere Formate zu bringen, wird aktuell verbessert
    Pipeline von der DAW bis ins SDK, wird klanglich keine großen Überraschungen geben Intransparente Verarbeitung (wofür stehen die Kanäle, mit welcher Kopfgröße wird gearbeitet etc.). Free to use, aber kein open source.

    Quad-Binaural

    Ist ein Format, das sich irgendwo zwischen Kanal-basiert und Schallfeld-basiert einordnen lassen kann. Hier werden vier Stereo-Files aus den Blickrichtungen 0°, 90°, 180° und 270° ausgespielt und später bei der Wiedergabe, je nach Blickrichtung, ineinander überblendet. Auch wenn es in Zukunft für Virtual Reality Audio wohl weniger genutzt wird, hat es durchaus noch seine Daseinsberechtigung:

    Pro Contra
    Beim Programmieren einer App muss keine HRTF mit Decoder implementiert werden und spart Prozessorleistung Wiedergabe ist lediglich eine Interpolation aus den verschiedenen Blickrichtungen, damit entsprechend ungenau
    Stereospur bei 0° stellt einen Downmix da (siehe oben: binaurales Stereo), der als Preview ohne Headtracking nützlich sein kann Keine Möglichkeiten, um von Quad-Binaural z.b. nach Ambisonics oder 5.1 zu kommen, was andersherum möglich ist

    Soweit mein kleiner Überblick, bei Fragen, Ergänzungen oder Feedback kann man mir gerne eine Mail schreiben.

    Noch mehr Audio Formate