Inhalt
Sämtliche Technologien für die Wiedergabe von Virtual Reality Audio auf Kopfhörern oder Lautsprechern, kann man grob in drei Kategorien einteilen: Kanal-basiert, Objekt-basiert und Schallfeld-basiert.
Hier ein paar Beispiele, bevor es später ins Detail geht:
Hier wird jedem Kanal einer Audio-Datei ein fester Wiedergabe-Platz zugewiesen. Bei Stereo ist es „links“ und „rechts“ und hat damit zwei Kanäle. 5.1 Surround hat sechs Kanäle, es kommen also noch zwei Lautsprecher hinter dem Zuschauer, sowie ein Center aus der Bildmitte und ein LFE-Kanal für den Subwoofer hinzu. Für Virtual Reality Audio also eher unüblich, hat aber durchaus seine Daseinsberechtigung.
Hierbei handelt es sich um einen Surround-Eindruck, der über Kopfhörer wiedergegeben werden kann, und damit nur zwei Kanäle benötigt.
Dabei wird der menschliche Höreindruck simuliert, sei es durch die Aufnahme mit zwei Mikrofonen (-> Kunstkopf) oder eine Berechnung aus einem Surround-Format mittels HRTF (Head-Related Transfer Function).
Pro | Contra |
---|---|
Kann wie jedes herkömmliche Stereo-File auf allen Plattformen wiedergegeben werden | Keine Wiedergabe über Lautsprecher, prinzipiell möglich, aber klingt komisch |
Schnelle Möglichkeit den gesamten Klangeindruck einer Spatial Audio Mischung als Downmix wiederzugeben | Kein Head-Tracking möglich, kann nur den Klang einer festen Blickrichtung wiedergeben |
Pro | Contra |
---|---|
Auch für herkömmliche Surround-Anwendungen mit Lautsprecher nutzbar | Positionen zwischen den Lautsprechern nur als Phantomschallquelle möglich |
Einfaches Setup, seit Jahren genutzt | nur zweidimensional, kann keine Höheninformation von oben oder unten wiedergeben |
Hierbei werden Töne als sogenannte Audio-Objekte im 3D Raum platziert werden, ohne an Lautsprecher-Anordnung oder Kanälen gebunden zu sein. Bei der späteren Wiedergabe wird die Position des Objekts im Raum auf die zur Verfügung stehenden Lautsprecher berechnet, somit ist eine Beschallung mit einer quasi unbegrenzten Zahl an Lautsprechern möglich und stellt in der Anordnung in etwa eine Halbkugel da.
Ist eine Umwandlung der Dolby Atmos Tools für Virtual Reality. Aus dem Atmos-Masterfile wird ein ec3-File erzeugt, das später eine Wiedergabe über Head-Tracking ermöglicht.
Pro | Contra |
---|---|
Wiedergabe als Stereo ohne weiteres decodieren möglich, erkennt womit es abgespielt wird und wandelt sich bei der Wiedergabe selber um | Eingebackenes Format, wenig Möglichkeiten zur Distribution, selbst Preview der eigenen Videos kann kompliziert werden |
Objektbasierter Ansatz für VR, Wiedergabe während der Mischung auch über Surround-Lautsprecher möglich | VR Transcoder ermöglicht den Output von Ambisonics, aber lediglich erster Ordnung und wird im direkten Vergleich zu ec3 schlechter klingen, als hätte man es künstlich verschlechtert |
Das Team dahinter hat 2005 bereits zur Entwicklung von MPEG-H beigetragen und war maßgeblich am binauralen Rendering beteiligt. Doch sie wussten, dass MPEG-H nicht einwandfrei für VR geeignet ist, da es nicht möglich ist, kanal-, objekt- und schallfeld-basiertes Audio gleichzeitig zu nutzen.
Pro | Contra |
---|---|
Nutzt die jeweiligen Vorteile von kanal-, objekt- und schallfeld-basiertem Audio | Auf Plattformen quasi nicht verbreitet, aber encodieren in Ambisonics erster Ordnung möglich |
Kann auch für interaktives VR genutzt werden, also eine Bewegung von der Kamera-Position weg (6 statt 3 Freiheitsgraden) | aktuell Mac-Only |
Diesem Format habe ich bereits einen ausführlichen Artikel gewidmet. Das Arbeiten mit einer Ambisonics-Mischung für Virtual Reality Audio ist vergleichbar mit einer Objekt-basierten, die Technologien sind aber denkbar unterschiedlich.
Diese beiden Ambisonics-Formate sind sehr ähnlich und untereinander gut kompatibel, weswegen sie hier nicht weiter unterschieden werden.
Pro | Contra |
---|---|
Hohe Kompatibilität zu anderen kanalbasierten Formaten durch Decoder möglich | Keine Wiedergabe ohne entsprechenden Decoder möglich, welcher aber auf den meisten Plattformen integriert ist |
Beliebig durch verschiedene Ordnung skalierbar. Für 360° Videos sind bereits vier Kanäle sehr effizienten | Musik (Stereo) kann nur über einen Work-Around als ein sich nicht-mitdrehendes Schallereignis eingebunden werden (head-locked) |
Ist ein eigenes Ambisonics-Format, dessen Firma von Facebook gekauft wurde und als dessen Standard eingeführt wurde. Es handelt sich um ein Hybrid Higher Order Ambisonics, das acht Kanäle besitzt und ein gut durchdachtes Konzept besitzt. Dazu bei Gelegenheit mehr auf meinem Blog.
Pro | Contra |
---|---|
Guter Kompromiss aus Kanalzahl und möglicher Auflösung; hat zusätzliche, statische Stereo-Spur löst das Problem von Ambisonics | Eingebackenes Format, schwierig in andere Formate zu bringen, wird aktuell verbessert |
Pipeline von der DAW bis ins SDK, wird klanglich keine großen Überraschungen geben | Intransparente Verarbeitung (wofür stehen die Kanäle, mit welcher Kopfgröße wird gearbeitet etc.). Free to use, aber kein open source. |
Ist ein Format, das sich irgendwo zwischen Kanal-basiert und Schallfeld-basiert einordnen lassen kann. Hier werden vier Stereo-Files aus den Blickrichtungen 0°, 90°, 180° und 270° ausgespielt und später bei der Wiedergabe, je nach Blickrichtung, ineinander überblendet. Auch wenn es in Zukunft für Virtual Reality Audio wohl weniger genutzt wird, hat es durchaus noch seine Daseinsberechtigung:
Pro | Contra |
---|---|
Beim Programmieren einer App muss keine HRTF mit Decoder implementiert werden und spart Prozessorleistung | Wiedergabe ist lediglich eine Interpolation aus den verschiedenen Blickrichtungen, damit entsprechend ungenau |
Stereospur bei 0° stellt einen Downmix da (siehe oben: binaurales Stereo), der als Preview ohne Headtracking nützlich sein kann | Keine Möglichkeiten, um von Quad-Binaural z.b. nach Ambisonics oder 5.1 zu kommen, was andersherum möglich ist |
Soweit mein kleiner Überblick, bei Fragen, Ergänzungen oder Feedback kann man mir gerne eine Mail schreiben.
Noch mehr Audio Formate