How Spatial Computing and Spatial Audio will
revolutionize our consumption of digital media

Spatial Computing und Spatial Audio – das Dreamteam

Inhalt

Sind die Versprechungen der „immersiven Technologie“ zu verlockend für dich, um sie zu ignorieren und nicht zu erforschen? Begleite zwei Pioniere der Branche, Ben Chon von Gaudio Lab und Martin Rieger, bei ihrer Diskussion darüber, wie Spatial Computing und Spatial Audio unseren Umgang mit Medien revolutioniert. Ließ hier Teil 1, wie man Mit Vision Pro und Spatial Audio von Apple der Zeit voraus ist.

Die kürzliche Einführung von Apples Vision Pro bringt uns näher daran das wahre Potenzial von Virtual Reality (VR) und Augmented Reality (AR) Erlebnissen mit Hilfe von 360°-Immersive-Sound-Systemen zu erkennen als je zuvor. Es wird deine Wahrnehmung dessen, was möglich ist, wenn es um den Konsum von digitalen Inhalten geht, völlig verändern!

Entdecke was 3D-Audio alles zu bieten hat – Pass gut auf, denn diese Erfahrung könnte ein Game-Changer sein.

Die Bedeutung der Glaubhaftigkeit

Ben: Ich stimme Martins Idee aus dem vorherigen Beitrag absolut zu, dass echte Immersion eine sorgfältige räumliche Integration der Technologie und die Abstimmung von Ton und Bild erfordert. Jüngste Forschungen zu immersivem Audio betonen, wie entscheidend die Plausibilität für die Wahrnehmung der Qualität von immersivem Sound durch Kopfhörer ist. Im Wesentlichen bedeutet dies, dass ein und derselbe immersive Audiomix dem Hörer je nach visuellen Hinweisen oder anderen Faktoren im Raum ein völlig anderes Erlebnis vermitteln kann. Stell dir zum Beispiel einen Streichquartett-Mix in einem 360°-Video vor – die Musik klingt fantastisch, wenn du ein Headset benutzt und das Video siehst, aber es hat nicht dieselbe Wirkung ohne die visuellen Eindrücke.

DEMO (Orchester-Session live)

Die nicht-diegetische Spur ist ein weiteres wichtiges Werkzeug für Toningenieure, um die Erfahrung der digitalen Welt glaubhafter zu machen. Der beliebteste Anwendungsfall ist das Hinzufügen von Nachhall als nicht-diegetisches Signal. Dies ermöglicht Toningenieuren kreativ zu werden bei der Gestaltung von Klangszenen, um die Schallwellen in der virtuellen Umgebung glaubhafter zu machen. Ich habe auch schon erlebt, dass Künstler absichtlich nicht-diegetischen Gesang eingesetzt haben, um eine Klangszene zu schaffen, bei der der Zuhörer das Gefühl hat, dass sich verschiedene Klänge von nicht gesungenen Instrumenten um ihn herum drehen, während der Gesang als Stimme im Kopf des Zuhörers bleibt.

Immersives Audio: Der Übergang von 360-Videos zu 2D-Bildschirmen

Als die Begeisterung für Virtual Reality (VR) im Jahr 2018 nachzulassen begann, suchten wir nach anderen Möglichkeiten, immersives Audio über 360-Videos hinaus zu nutzen, insbesondere für normale 2D-Bildschirme. Etwa zur gleichen Zeit gab es Experimente mit der Wiedergabe von binauralem Audio, um ein immersiveres Klangerlebnis zu schaffen. Das funktionierte jedoch nicht gut, weil der binaurale Surround-Sound nicht mit dem übereinstimmte, was im begleitenden Video geschah. Dieser Mangel an Synchronisation machte das Erlebnis weniger glaubwürdig für den Mensch.

Also beschlossen wir, ein völlig anderes binaurales Soundsystem für Streaming-Dienste zu entwickeln. Auf der Grundlage unserer Erfahrungen mit 360°-Videos haben wir BTRS (Being There Recreation System) entwickelt – ein innovatives System, das räumliches Audio mit der Kameraperspektive synchronisiert. Das System bietet auch einen Hallregler, um sicherzustellen, dass der Ton mit dem auf dem Bildschirm Gesehenen übereinstimmt, was die Glaubwürdigkeit erhöht. BTRS wurde bereits in über 200 Shows, einschließlich Live-Streams, von Plattformen wie Naver und Dingo eingesetzt. (Dingo, ein koreanisches Studio zur Erstellung von Inhalten, hat mehr als 44 Millionen Abonnenten).

Räumliche Technologie in Ohrstöpseln für Augmented Reality

Ab 2019 begann Gaudio, die Möglichkeit von immersivem Audio in Ohrhörern für Augmented Reality (AR) zu untersuchen. Wir waren der Meinung, dass das Hinzufügen von immersivem Audio die Plausibilität der AR-Erfahrung verbessern könnte. Der erste Prototyp, bei dem Bose Frames zum Einsatz kamen, wurde auf der AES (Audio Engineering Society) Convention in New York 2019 Audioprofis vorgestellt, weckte das Interesse verschiedener Tech-Giganten wie ByteDance, Tencent usw. und wurde von Einrichtungen wie Blackbird Studio und der Belmont University in Tennessee bewundert.

Das war noch bevor die AirPods Pro von Apple Spatial Audio unterstützten – ein Begriff, der sich zu dieser Zeit mehr durchzusetzen begann als „Immersive Audio“. Die Resonanz war überwältigend; alle, die ich traf, waren sich einig, dass dies das nächste große Ding ist!

Spatial Audio von Gaudio für True Wireless Stereo (TWS)

Bei der Entwicklung von Gaudio Spatial Audio für True Wireless Stereo (TWS)-Geräte liegt unser Hauptaugenmerk auf der Erzielung einer hervorragenden Klangqualität bei gleichzeitiger Optimierung der Implementierung. Diese Überlegung ist von entscheidender Bedeutung, da die Verarbeitungsleistung von TWS-Chips im Vergleich zu Systemen wie Smartphones oder Head-Mounted-Displays wesentlich eingeschränkter ist. Ein weiterer wichtiger Aspekt, dem wir Priorität einräumen, ist die Minimierung der „Motion-to-Sound“-Latenz, ein Faktor, der eng mit der allgemeinen Plausibilität und Natürlichkeit der AR-Erfahrung verbunden ist.

Als Ergebnis unserer Bemühungen kann ich mit Zuversicht sagen, dass Gaudios Spatial Audio-Implementierung auf der TWS eine bemerkenswerte Klangqualität und unter anderem einer extrem niedrigen Motion-to-Sound-Latenz von ca. 60 ms im Raum bietet – eine wesentliche Verbesserung der Performance im Vergleich zu bestehenden Lösungen weltweit. In unseren Blogs findest du ausführliche Analysen zur Latenzzeit und zur Bewertung der Klangqualität.

In diesem Zusammenhang wurde Spatial Audio von Gaudio mit den CES Innovation Awards 2023 ausgezeichnet, und mehrere Hersteller haben es für ihre neuen TWS-Produktlinien ausgewählt.

Spatial Audio in Vision PRO

Martin: Ich habe bereits einen ausführlichen Artikel über das Spatial Computing Device geschrieben. Hier sind die wichtigsten Aspekte:

Die Vision Pro Kamera von Apple nimmt räumliche Fotos und Videos auf und gibt Ihre Erinnerungen in 3D mit räumlichem Audio wieder.
Die Audio-Pods bieten ein beeindruckendes Klangerlebnis mit flexiblen Bändern, die sich an die einzigartige Form des Kopfes des Benutzers anpassen.
Dank der Zusammenarbeit zwischen Unity und Apple können Entwickler 3D Apps sowie AR Apps für Vision Pro erstellen, die nativ auf Apple-Hardware mit integriertem Spatial Audio ausgeführt werden.
Das Sensor-Array von Vision Pro bringt personalisierte Klangerlebnisse auf die nächste Stufe, indem es die Merkmale und Materialien der physischen Umgebung mit Hilfe der Audio-Raytracing-Technologie analysiert.

Spatial Audio kompatible Kopfhörer

Apple Spatial Audio

Tolle Inhalte für den Apple Vision Pro Spatial Computer

Der Apple Vision Pro ist ein faszinierendes Gerät, denn Apple ist sich selbst nicht ganz sicher, wie man seine Fähigkeiten voll ausschöpfen kann. Die Verwendung von Avataren für Facetime-Anrufe und das Anschauen von Filmen auf Disney+ macht zwar Spaß, bringt aber nicht unbedingt das volle Potenzial des Geräts zur Geltung. Diese Ungewissheit bietet jedoch eine einzigartige Gelegenheit für Innovationen und Technologien in der Welt der immersiven Audio- und Videoerlebnisse.

Ich denke, es gibt das Potenzial für eine Renaissance von 360- oder 180-Grad-Videos sowie für die Entwicklung von RealityKit-Anwendungen, die wir uns noch gar nicht vorstellen können. Bei so viel Ungewissheit darüber, was mit dem Vision Pro möglich ist, ist eines sicher: Es ist eine aufregende Zeit für die Unterstützung von räumlichem Audio und eine Gelegenheit, etwas wirklich Innovatives und Bahnbrechendes im Bereich der Erstellung immersiver Inhalte zu tun.

Für mich liegt der eigentliche Reiz der Apple Spatial Audio-Technologie darin, etwas zu kreieren, das nicht durch die traditionellen Grenzen von beispielsweise Stereo oder Hifi begrenzt ist. Ob es sich um ein Virtual-Reality-Erlebnis oder einen fesselnden Augmented- oder Mixed-Reality-Anwendungsfall (also eine erweiterte Realität) handelt, mit Spatial Audio kann ich etwas wirklich Außergewöhnliches schaffen. So wird Spatial Audio zu etwas Wertvollem, nicht zu einem Hype. Es ist an der Zeit, dieses aufregende neue Gebiet des Klangs zu erforschen.

Die Zukunft der Spatial-Computing-Revolution

Das neue HMD, Apple Vision Pro, ist ein großer Schritt in Richtung Apples Verpflichtung, in die Unterstützung von räumlichem Audio und Computing zu investieren. Obwohl es nicht explizit als Virtual oder Augmented Reality bezeichnet wird, ist es für mich das, was es ist: Ein immersives Gerät, das AR und VR kombiniert. Allerdings habe ich das Gefühl, dass die Zielgruppe derzeit die Entwickler sind, die sich Anwendungsfälle ausdenken, die von den räumlichen Berechnungsmöglichkeiten und Apple Spatial Audio Gebrauch machen.

Ich denke, es wird noch ein paar Jahre dauern, bis diese Art von Technologie zu einem Endverbraucherprodukt wird. Es könnte ein Produkt namens Apple Vision Air oder etwas Ähnliches sein. In der Zukunft, wenn ein Raumcomputer für den Massenmarkt auf den Markt kommt, wird es bereits eine Fülle von Anwendungen geben, die man nutzen kann, von professionellen Arbeitsanwendungen bis hin zu fesselnden Unterhaltungserlebnissen.

Apple hat bereits den Grundstein für diese Art von Infrastruktur gelegt, mit einer nahtlosen Integration von Software und Hardware, die über verschiedene Plattformen und mobile Geräte hinweg genutzt werden kann. Es ist aufregend über die Möglichkeiten und Aspekte nachzudenken, die ein räumlicher Computer mit sich bringen könnte. Er könnte die Art und Weise verändern, wie Menschen mit der virtuellen Umgebung um sich herum interagieren. Deshalb bin ich froh, dass ich in diesem iPhone-Moment über einen jahrelangen Erfahrungsvorsprung verfüge.

Apples Vision Pro und die Welt der 360-Grad-Videos

Ben: Für mich scheint Apple Vision Pro eher dem Konzept eines AR-Geräts zu entsprechen, da es einen großen Schwerpunkt auf die nahtlose Integration virtueller Objekte in die physische Umgebung des Benutzers legt, die die Umgebung des Benutzers und die Interaktion mit Personen in seiner Nähe umfasst. Inwieweit sich die Revolution der Spatial Computing Technologie auf das Leben der Menschen auswirken wird, ist jedoch noch ungewiss.

Eine überzeugende Anwendung, die sich durchsetzen könnte, sind 360/180-Videos, wie Martin bereits erwähnt hat. Wenn wir uns an den VR-Boom mit den im Jahr 2017 zurückerinnern, bestand die größte Herausforderung in den Kosten für die Erstellung von Inhalten. Um ein plausibles Erlebnis in der virtuellen Realität zu bieten, musste jedes Objekt innerhalb eines Mediums räumlich definiert werden, sowohl in Audio- als auch in visuellen Formaten. Diese Objekte mussten so gerendert werden, dass sie mit der Position und Ausrichtung des Nutzers interagieren. Dieser Prozess der Definition der virtuellen Szene, der Verpackung der Quellen und Metadaten und des interaktiven Renderings der Objekte verursachte erhebliche Kosten.

Aus diesem Grund erfreuten sich 360/180-Videos in VR-Anwendungen großer Beliebtheit für Unternehmen. Diese Formate boten eine kostengünstigere Lösung für die Erfassung der räumlichen Umgebung mit 360-Grad-Kameras und Ambisonic-Mikrofonen. Außerdem konnten Toningenieure räumliche Audio-Plugins wie Gaudio Works auf ihren Computern verwenden, anstatt sich mit der Unity-Programmierung für die Postproduktion von 360-Videos zu befassen. Dadurch wurde der gesamte Prozess für die Ersteller von Inhalten zugänglicher und praktikabler, und das wird auch in der kommenden Vision Pro-Ära so sein.

Audiotechnologien in Vision Pro

Im Hinblick auf die Audiotechnologie von Vision Pro sind einige wichtige Punkte hervorzuheben:

Spatial Audio Capture:

Die Erfassung von Spatial Audio wird einfacher, wenn ein Gerät mit einem ausreichenden Mikrofon-Array ausgestattet ist. In diesem Bereich gibt es mehrere Technologieunternehmen mit Fachwissen, wie z. B. Schoeps und Zylia, die sich auf die Erfassung von Mikrofonen spezialisiert haben, sowie Gaudio und Nokia, die sich auf die Verarbeitung von räumlichen Audiosignalen spezialisiert haben.

Offenes Lautsprecher-Array-Design:

Vision Pro hat sich für ein offenes Lautsprechersystem entschieden, im Gegensatz zu geschlossenen AirPod-ähnlichen Ohrhörern. Diese Entscheidung für offene Ohren verbessert die Natürlichkeit der physikalischen Eigenschaften des Gehörgangs und beseitigt den Okklusionseffekt. Ein weiterer Vorteil ist, dass die Notwendigkeit einer Personalisierung, die benutzerspezifische Unterschiede in der Ohrform simuliert, entfällt, da sich die Ohrmuschel im Schallausbreitungsweg befindet. Diese Entscheidung verbessert die Natürlichkeit von Spatial Audio in Bezug auf Räumlichkeit und Klangfarbe, was zu einer sanfteren Verschmelzung von Klang aus der realen Welt und dem von Vision Pro gelieferten Audio führt.

Unity-Zusammenarbeit und Integration der Spatial Audio Engine:

Die Zusammenarbeit mit Unity liegt nahe, da Unity die beliebteste Plattform für Augmented-Reality-Anwendungen ist. Die Entscheidung, Apple’s hauseigene Spatial Audio Engine anstelle einer Drittanbieterlösung in Vision Pro zu integrieren, soll sicherstellen, dass Apple die Kontrolle über das Audioerlebnis hat. Ich denke, dass die meisten Postproduktions-Tools für 360-Videos die räumliche Audio-Engine von Apple implementieren werden, um eine konsistente Klangwiedergabe über Vision Pro zu gewährleisten.

Schätzung der akustischen Raumeigenschaften:

In Augmented-Reality-Szenarien ist es für die Glaubwürdigkeit entscheidend, die akustischen Eigenschaften des physischen Raums, in dem sich der Benutzer befindet, genau zu bestimmen und während des binauralen Rendering-Prozesses nachzubilden, was in der Regel auf die Raumimpulsantwort (RIR) hinausläuft. Apple hat sich für die Raytracing-Technologie entschieden und nutzt dabei vorhandene visuelle Informationen. Da das Ray-Tracing als eine sehr komplexe Methode für Echtzeitanwendungen gilt, bin ich sehr neugierig, wie Apple diese Technologie annähert und optimiert. Gleichzeitig gibt es viele andere Technologien zur Schätzung der Raumimpulsantwort. Ein Beispiel dafür ist die jüngste KI-basierte Forschung von Gaudio, die unter dem Titel „Room Impulse Response Estimation in a Multiple Source Environment“ auf der AES 2023 International Conference on Spatial and Immersive Audio vorgestellt wurde. Ich bin zuversichtlich, dass die Industrie mit dem Erscheinen von Vision Pro die wertvollen Forschungsergebnisse der Audio-Community aufgreifen und umsetzen wird, um das Gesamterlebnis der Produkte für die Nutzer zu verbessern.

Outro Spatial Computing trifft auf Spatial Audio:

Zusammenfassend lässt sich sagen, dass mit der Einführung von Apples Vision Pro die Schwelle zum Spatial Computing immer näher rückt. Es ist erwähnenswert, dass diese Art von Technologie die Art und Weise revolutionieren könnte, wie Menschen mit ihrem realen Leben und der virtuellen Welt interagieren. Auch wenn die Realisierung eines Produkts für den Massenmarkt noch etwas Geduld erfordert, ist es offensichtlich, dass die Branche und Unternehmen nachziehen, wenn Apple einen Schritt nach vorne macht.

Wir sind gespannt auf die vor uns liegende Reise und freuen uns darauf, zu sehen, welche Art von Produkten und Anwendungsfällen aus dieser nächsten Ära hervorgehen werden für Endverbraucher. Wenn du mehr erfahren möchten oder Fragen zu diesem Thema hast, zögere nicht, uns zu kontaktieren!

Kontakt aufnehmen

Verwandte Blogartikel

"Immersive Audio" ist mehr als nur "3D Musik" - Tauche ein!

3D Audio Wiki: Ein Aufruf an die Community fürs Glossar

3D Audio - der Raumklang mit Sound aus allen Richtungen

8D Audio – Die immersive Musik der Zukunft?!

3D-Audio Kommunikation im Metaverse und virtuelle Meeting-Plattformen