3D-Audio Kommunikation im Metaverse und virtuelle Meeting-Plattformen

Inhalt

Plattformen für Online-Meetings haben sich seit dem Beginn der Corona Pandemie radikal verbessert. MS Teams-Meetings und Zoom-Anrufe sind zur Routine geworden. Außerdem gibt es einen Hype um das sogenannte Metaverse. Dieses wird selten auch aus der Ton Sicht betrachtet.

Aber trotz des Anstiegs der virtuellen Produktivität schränkt die Zusammenarbeit in Echtzeit immer noch ein und gestaltet sich oft unpraktisch. Räumliches Audio für virtuelle Meetings entwickelt sich zu einer der vielversprechendsten Alternativen zur traditionellen Konferenzmethoden. Denn dies ermöglicht – richtig geraten – 3D-Audio Kommunikation wie im echten Leben.

Die Vorteile von 3D-Audio in Kommunikationsplattformen wurden bereits in diesem Artikel beleuchtet. Hier soll es nun um die wichtigsten Bestandteile von 3D-Audio fähigen Meeting-Plattformen gehen. Denn hier wurde zuerst an den Ton gedacht.

Vielen Dank an Aïli Niimura, Daniela Rieger, Immersitech und Atmoky für die Unterstützung bei diesem Artikel.

Update 23

Dolby.io Virtual Worlds wurde hinzugefügt

Virtuelle Meeting-Plattformen mit 3D-Audio

3D-Audio basierte virtuelle Meeting-Plattformen lassen sich nur bedingt kategorisieren. Oftmals betritt man eine Website, auf der man mit anderen Personen in Echtzeit durch Sound interagiert. Man kann sehen, wie man sich mittels einer visuellen 2D- oder 3D-Darstellung durch einen virtuellen Raum bewegen. Als Avatar, wenn man so möchte.

Die Erfahrung fühlt sich ähnlich wie ein Zoom/MS Teams Meeting an, unterscheidet sich jedoch maßgeblich: Die 3D-Audio Kommunikation hebt diese Tools von Standard-Kommunikationsplattformen ab.

Während sich 3D-Audio basierte virtuelle Meeting-Plattformen individuell unterscheiden können, gibt es doch einige Gemeinsamkeiten:

Die 3D-Audio Kommunikation spielt eine große Rolle
Visuelle Darstellungen treten in den Hintergrund
Soziale Kommunikation, Interaktion, Verständlichkeit und Live-Performance stehen im Vordergrund

Was ist der Unterschied zwischen virtuellen 3D-Meetings und Plattformen wie Zoom?

Wie unterscheiden sie sich von sozialen VR-Plattformen wie AltspaceVR und Spatial? Oder von virtuellen Treffpunkten wie Virbela, Mozilla Hubs und reinen Audio-Plattformen wie Swell und Clubhouse?

3D-Audio Kommunikation kann vollwertige immersive Welten ergänzen und auch als eigenständige Kommunikationswerkzeuge ohne visuelle Darstellungen existieren.

Während bei den meisten sozialen 3D-Plattformen Grafiken und Avatare im Vordergrund stehen, sind diese klangbasierten Umgebungen weniger visuell geprägt. Anstatt mit Interaktionen zu arbeiten, die eher an ein Videospiel erinnern, erhalten wir visuelle Darstellungen zur Unterstützung akustischer Interaktionen.

Diese Plattformen verwenden räumliches Audio als primäres Mittel zur Wahrnehmung der eigenen Umgebung.

Einer der Hauptunterschiede von Zoom/MS Teams und Plattformen mit 3D-Audio Kommunikation ist, dass in 3D-Audio basierten Umgebungen die Grafiken nicht 3D sein müssen; das Audio schon.

2D Plattformen

Es scheint, dass diese Plattformen durchschnittlich einen viel geringeren kognitiven Anspruch erfordern als die erste Erfahrung mit Facebook Horizon oder AltspaceVR.

Während viele soziale VR-Welten eine 2D-Version für den PC haben, neigen sie dazu, einen etwas “schwerfälligeren” Look zu haben. Außerdem fehlen viele kleine Details, die für die Erfahrung notwendig sind. In diesen 2D-Top-Down-Umgebungen ist nur das Audio 3D, während die 2D-Visualisierung die 3D-Navigation auf einer horizontalen (2D-)Ebene darstellt.

Das 3D-Audio-Software-Unternehmen atmoky zeigt eine mögliche Realisierung dieses Ansatzes aus einer Kombination aus 2D Video und hochauflösendem 3D Audio in ihrem Web SDK Demo Demo-Video. Auf ihrer Homepage kann man das Tool auch direkt selber testen: atmoky - Spatial Audio Web SDK Demo.

Audiobasierte soziale Apps wie Swell oder Clubhouse bieten neuartige Netzwerke der Audiokommunikation. Das ganze Potential könnte aber durch die Verwendung von räumlichem Audio ausgeschöpft werden. Die Vorzüge des Richtungshörens würden virtuelle akustische Umgebungen deutlich aufwerten.

Aber wenn sie räumliches Audio verwenden würden, wären sie dann eine dieser virtuellen 3D-Audio-Konferenzplattformen? Einerseits sollten wir nicht zu pingelig sein und einfach sagen: Ja, sie wären es. Auf der anderen Seite würde unabhängig von der Integration von 3D-Audio die Möglichkeit fehlen, im Raum zu navigieren. Denn selbst mit 2D-Grafiken ist es möglich, Bewegung in einem 2D-Raum zu vermitteln. Die Verwendung von Head-Tracking wäre eine weitere Idee, die Plattformen zu verbessern. Hier ein Bild vom Ansatz der Firma Immersitech, auf den wir später eingehen werden.

3D Plattformen

AltspaceVR, Facebook Horizon und Mozilla Hubs sind allesamt soziale VR-Plattformen, die räumliche Audiokommunikation ermöglichen. Diese konzentrieren sich hauptsächlich auf die visuelle Umgebung und eine Benutzeroberfläche aus der Ich-Perspektive.

Obwohl sie als ausgefeilter als eine primär audio-basierte Lösung betrachtet werden könnten, bedeutet eine bessere Grafik nicht immer eine einfache und tiefgreifende soziale Kommunikation. Sie brauchen auf jeden Fall deutlich länger, um sich in die Umgebung ein- und wieder herauszufinden.

Das Gleiche gilt auch für andere webbasierte 3D-Treffpunkte wie Virbela. Eine 3D-Besprechungsplattform sollte keine zu komplexe Umgebung verwenden: Es geht schließlich um die Besprechungen, und nicht darum, ein kompliziertes System zu bedienen.

Was verwenden die meisten virtuellen Konferenzplattformen?

Virtuelle Kommunikationsplattformen müssen in der Regel Audio komprimieren, um es mit möglichst geringen Delays zu übertragen. Es wird oft Mono verwendet, um die Datenraten zu senken. Mit großen technologischen Verbesserungen gehen Plattformen wie Zoom und Microsoft Teams von Mono zu Stereo über – das ist ein Anfang, aber noch weit davon entfernt, das zu erreichen was möglich und nötig ist.

Es wird nicht viel benötigt, um räumliches Audio zu erstellen: Man kann jede Anzahl an Kanälen “verräumlichen”. Virtuelle Konferenzplattformen werden in Zukunft sehr wahrscheinlich Positionsdaten in der Audiowiedergabe berücksichtigen und so dreidimensionale Audioumgebungen für die Konferenzteilnehmenden erschaffen.

Die Vorteile liegen auf der Hand: eine natürlichere akustische Umgebung, bessere Verständlichkeit der sprechenden Personen auch bei gleichzeitigem Sprechen, geringere Ermüdung sowie Erhöhung der Produktivität.

Seit Corona gibt es einen enormen Anstieg solcher virtuellen Veranstaltungen. Deshalb habe ich weitere Einblicke gegeben, wie man sie mit Sound zum Erfolg machen kann.

Warum ist 3D-Audio so wichtig?

Räumliches Audio ist von grundlegender Bedeutung, um sich in einem virtuellen Raum wohlzufühlen. Abgesehen von besserer Sprachverständlichkeit hat die räumliche Audiokommunikation viele weitere direkte Vorteile. Wie z.B. verbesserte virtuelle Navigation und emotionale Resonanz.

Navigation im virtuellen Raum

Im realen Leben benutzen die meisten von uns mehr als nur unsere Augen, um zu navigieren. Wir nutzen permanent verschiedene Sinne, um uns durch die Welt zu bewegen. Das Navigieren in einer virtuellen 3D-Welt sollte genauso sein: Es wird mehr als ein Sinnesmodus benötigt, um uns wohlzufühlen und um uns zurechtzufinden.

Spatial Audio ermöglicht es, virtuelle Räume leichter zu machen.

Es reduziert den Grad der tatsächlich notwendigen Interaktionen, was zu weniger manueller Arbeit und natürlicherer Kommunikation führt.

3D-Audio sorgt dafür, dass virtuelle Räume weniger arbeiten müssen, um die Arten von Interaktionen zu fördern, für die sie gebaut wurden. Wir können:

schneller denken, indem wir unsere Instinkte statt kognitiver Überlegungen nutzen.
weniger Zeit mit manueller Arbeit und dem Aufschreiben unserer Gedanken verschwenden
stattdessen für längere Zeit uns an einer natürlichen Kommunikation beteiligen.

Viele von uns haben unterschiedliche Produktivitäts- und Kommunikationsstile, aber eine Stimme zu hören ist natürlicher, persönlicher und dabei so viel weniger invasiv. Vielleicht ist das der Grund für die Zunahme von 3D-Audiokonferenzplattformen – es gibt einen offensichtlichen Bedarf an natürlicherer Kommunikation.

Kann räumliches Audio die Qualität unserer Kommunikation verbessern?

Die Nutzung dieser Instinktebene erhöht nicht nur die Aufmerksamkeit und Produktivität, sondern verleiht unseren Interaktionen auch Emotionen. Mit natürlichem Raumklang können wir unserer virtuellen Sprachkommunikation mehr Gedanken, Tiefe und emotionale Bindung verleihen.

Jedes System hat eine Anpassungszeit. Wenn man in ein neues Land zieht, muss man sich an die Kultur anpassen, und wenn man einen anderen Laptop benutzt, fühlen sich die Tasten einfach anders an. Das Gleiche gilt für virtuelle Umgebungen! Je natürlicher und vertrauter, desto besser.

Warum diese 3D-Audiowelten anstelle von Zoom Calls verwenden?

Sie sind besser für die natürliche Bildung von Gruppen geeignet
Es ist möglich, Einzelpersonen im Raum zu trennen und trotzdem das Gefühl zu haben, dass man zusammen ist
Man kann jeden sehen und hören
Man kann mehrere Klangereignisse gleichzeitig ablaufen lassen – Vorträge, Konzerte, etc.

Die Raumklang-Kommunikation ist die treibende Kraft hinter all den oben genannten Möglichkeiten. Was für ein mächtiges Werkzeug!

Wofür können 3D-Audiowelten verwendet werden? Nun, Online-Konferenzen sind ein einfacher Anwendungsfall, aber auch Spiele würden zum Beispiel erheblich verbessert werden, wenn man die Stimmen seiner Freunde aus deren Avataren hören könnte. Die Anwendungsfälle sind wirklich sehr breit gefächert, da unsere Stimmen uns so viel über uns selbst und unsere Umgebung verraten.

Raumklang ist nicht gleich Raumklang. Um den vollen Effekt von 3D Audio in virtuellen Umgebungen ausspielen zu können, ist es unerlässlich neben der korrekten Wiedergabe der Richtungen der Schallquellen auch für einen hohen Grad an Externalisierung bei der Wiedergabe über Kopfhörer zu sorgen. Denn erst wenn es zur sogenannten out-of-the-head-Wahrnehmung kommt, können wir von einer echten 3D Audio Erfahrung sprechen.

Dieses Ziel verfolgt das 3D-Audio Softwareunternehmen atmoky mit ihrem neuen Produkt atmoky Ears. Laut eigenen Angaben handelt es sich dabei um ein Tool zum binauralen Rendern von 3D Audio Inhalten für Kopfhörer. Mit dabei ein 3D-Audio Externalizer, eine HRTF-Personalisierung für verschiedene Altersgruppen und ein Performance Mode.

Was ist High Fidelity?

High Fidelity ist eine räumliche Echtzeit-Audio-API für Gruppenchats. Von den Leuten, die auch Second Life geschaffen haben, wer kennts nicht?

High Fidelity gibt es schon seit langer Zeit. Ihre erste Demo zeigte, wie man mehreren DJ-Sets zuhören konnte, ohne dass der Sound eines DJs mit dem eines anderen in Konflikt geriet.

Durch Bewegung oder Drehung verändert sich der Sound um einen herum entsprechend, genau wie im echten Leben. High Fidelity hat seine Stärken bei vernetztem Audio mit niedriger Latenz, ausgereifter Audio-Spatialisierung und De-Noising genutzt und ein Tool entwickelt, mit dem sich diese Fähigkeiten auf jeder online Plattform nutzen lassen.

Das bedeutet, dass sie eine online API (Anwendungsprogrammierschnittstelle) für Entwickler erstellt haben, die man in seinen eigenen bestehenden oder angehenden Tools integrieren kann. Sie ist einfach zu implementieren und funktioniert gut. Das Tolle an dieser Initiative ist, dass sie (hoffentlich) einen Anreiz für weitere soziale Online-Plattformen bietet, in die 3D-Audio-Kommunikation einzusteigen, ohne weitere Ressourcen für die Entwicklung einer eigenen 3D-Audio-Engine aufwenden zu müssen.

Gibt es andere Tools zur Integration von Spatial Audio?

Unternehmen wie Dirac, Immersitech und Atmoky haben ebenfalls 3D-Audio-Integrationen für Sprachanrufe und Webmeetings entwickelt.

Diese Integrationen ermöglichen es unter anderem, die Stimme der GesprächspartnerInnen so zu hören, als käme sie von deren Positionen am Videobildschirm. Eine Sprecherin, die am Bildschirm rechts oben zu sehen ist, wird also auch akustisch aus dieser Position wahrgenommen was eine zusätzliche Ebene an Komfort und Realismus darstellt.

Diese Tools sind besonders interessant, da die Konkurrenz für räumliche Audio-Interaktionen in unseren eingebetteten Geräten entsteht. Es ist eine neue Nische von räumlichem Audio, die noch nicht genug Aufmerksamkeit bekommt. Im Moment ist es bereits nützlich, aber wir werden auf lange Sicht sehen, wie notwendig Integrationstools von Drittanbietern werden.

Der Ansturm der Konkurrenten in diesem Bereich ist groß, die weitere Entwicklung bleibt spannend. Besonders, wenn unsere mobilen Geräte diese Leistungen als eingebaute Features erhalten (wie von Apple in iOS 15 angekündigt). Hier das Beispiel von Atmoky.

Gathertown & Mozilla Hubs

Gathertown ist eine 2D-Videoplattform, in der mehrere Personen parallel getrennte Unterhaltungen führen können, in die sie genauso einfach ein- und aussteigen können, wie sie es im echten Leben tun würden.

Es erinnert ein wenig an den virtuellen 3D-Raum Mozilla Hubs. Innerhalb dieser Umgebungen kann kommuniziert, Videos wiedergegeben oder mit 3D-Objekten gespielt werden. Außerdem gibt es die Möglichkeit, eigene Umgebungen zu erstellen. Es gibt beispielsweise ein Startup, das während der Pandemie seine Büroräume nachgebaut hat. Es war eine lustige Art und Weise, in virtuellen Räumen während der Home-Office-Zeit zusammenzukommen.

Obwohl Gathertown eine visuelle 2D-Umgebung ist und Mozilla Hubs vollständig in 3D und plattformübergreifend ist, teilen sie ähnliche Qualitäten wie Einfachheit und Anpassbarkeit.

Gathertown kann als “niedlich” beschrieben werden – manchmal sehr pfiffig, manchmal eher unpraktisch. Das Tutorial erschien nicht sehr effizient, und es ist fraglich, ob ich jemandem virtuell eine Notiz am Schreibtisch hinterlassen würde.

In Gathertown konnten Klangobjekte im Raum positioniert werden, aber das Audio wurde nicht räumlich wiedergegeben. Mozilla Hubs bietet sich aufgrund der Räumlichkeit und der einfachen Schnittstelle als langfristige Lösung an. Gathertown scheint mehr als lustigen Spielplatz für eine Teambuilding-Aktivität geeignet – es könnte den Leuten aufgrund des Old-School-Videospiel-Stils vertrauter sein.

Degy World

Degy World ist eine PC-VR-Konferenzplattform.

Viele soziale PC-VR-Welten zeichnen sich durch räumliches Audio aus. Das liegt daran, dass die Game-Engines, mit denen diese Welten erstellt werden, es einfacher machen, es so klingen zu lassen, als käme eine Stimme vom Avatar. Natürlich geht hochwertiges 3D-Audio-Design über die eingebauten Qualitäten einer Spiel-Engine hinaus.

Die Welt von Degy war ein Beispiel für eine Konferenzplattform, bei der das Benutzererlebnis durch räumliches Audio verbessert wurde. Obwohl die Erfahrung ein wenig holprig war, konnten qualitativ hochwertige Verbindungen aufgebaut werden. Die Aufrechterhaltung dieser Verbindung wurde durch Direktnachrichten erleichtert. Das Versenden von schriftlichen Direktnachrichten ist immer ein Plus, auch wenn es sich um räumliche Audiokommunikation handelt. Wir wollen hybride Welten, keine monomodalen Welten.

Immersitech – Klarheit in Kommunikation bringen

Immersitech bietet fortschrittliche Geräuschunterdrückung, klare Stimmen und räumliches Audio. Für einheitliche Kommunikation, virtuelle Veranstaltungen und soziale Unterhaltungsanwendungen wie Spiele. Die SDKs von Immersitech bieten dramatische Audioverbesserungen mit einer einfachen Prämisse: Entfernen Sie unerwünschte Geräusche und verbessern Sie die Audiosignale, die der Benutzer hören möchte. Wie z. B. Stimmen, und versetzen Sie den Benutzer dann in eine immersive, räumliche Umgebung. Das Ergebnis ist eine Erfahrung, die besser als die Realität ist.

Die SDKs von Immersitech sind so konzipiert, dass sie ein einfach zu integrierendes Paket für Dienstanbieter darstellen, die Cloud-, mobile Edge- oder standortbasierte Kommunikation anbieten. Es ermöglicht Anbietern, einzigartige Benutzerkonfigurationen einzurichten, die so positioniert werden können, dass die Nähe zu den Hauptrednern und/oder zum Sportgeschehen optimiert wird. Einschließlich der Stapelung, so dass jeder einen Platz in der ersten Reihe hat. Zu den vielen interessanten Funktionen gehören erweiterte Umgebungsoptionen, die es den Benutzern ermöglichen, aktiv andere Personen auszuwählen, mit denen sie sich privat unterhalten möchten (z. B. Flüstern). Während sie die Hauptsitzung weiterhin hören, oder im Fall von Sidebar eine Subkonferenz für private Diskussionen zu schaffen.

Mit Immersive Spatial Audio haben die Teilnehmer eines virtuellen Meetings, einer Veranstaltung oder anderer virtueller sozialer Interaktionen den Vorteil, dass sie ein natürlicheres Audioerlebnis haben, da der Ton scheinbar aus allen Richtungen kommt. Spatial Audio steigert nicht nur den Genuss des Audioerlebnisses, sondern erhöht auch das Engagement der Benutzer und verringert die Ermüdung.

Dolby.io Virtual Worlds

Dolby.io Virtual Worlds will die Art und Weise revolutionieren, wie Menschen virtuelle Welten erleben. Durch den Einsatz der Dolby Atmos-Technologie können Personen deutlicher gehört und ihre Stimmen räumlich positioniert werden. Dies schafft ein intensiveres Erlebnis und erleichtert die Kommunikation zwischen den Nutzern.

Mit Hilfe von Unreal Engine- und Unity-Plugins steht Entwicklern eine einfach zu implementierende Lösung zur Verfügung, um räumliches Audio in ihre Projekte einzubauen. Darüber hinaus bieten Funktionen wie räumliches Mischen, Platzierung, KI-Rauschunterdrückung, Echounterdrückung, dynamisches Audio-Leveling und Echtzeit-Streaming von Live-Audio/Video in die virtuelle Welt den Entwicklern maximale Flexibilität bei der Anwendung von Dolby.io Spatial Audio.

Fazit

Es gibt einen Anstieg an gemeinsam genutzten virtuellen Welten, die sich auf räumliche Audiokommunikation stützen. Diese Kommunikationsplattformen sollen durch effiziente Übertragung von Klang eine Räumlichkeit vermitteln, und die Wahrnehmung sowie Sprachverständlichkeit von Kommunikationspartnern verbessern. Diese Plattformen benötigen keine ausgeklügelten 3D-Grafiken und haben oft eine einfache 2D-Benutzeroberfläche.

Diese Plattformen versprechen eine Zukunft, in der virtuelle Verbindungen im Extremfall gar nicht mehr existieren. Räumliche Audiokonferenzplattformen werden im Idealfall einfach ein natürlicher Bestandteil bestehender Konferenztools werden, während sie gleichzeitig neue Technologien unterstützen.

Hoffentlich kann damit eine Veränderung in Bezug auf Meeting-Software einhergehen: Diese Tools sollten nicht erst nachträglich mit hochwertigem Audio und Raumklang ausgestattet werden, sondern von Anfang an implementiert werden. Raumklang für die virtuelle Kommunikation kann einen großen Mehrwert bringen, und eine Vielzahl neuer und bestehender Tools ist entschlossen, dies zu beweisen.

Die Werkzeuge, die einige dieser Lösungen anbieten, laden dazu ein, zu hinterfragen, wie 3D-Audio in Ihre bestehenden Erfahrungen, Plattformen und Tools integriert werden kann. In den kommenden Monaten und Jahren ist es entscheidend, diesem Audio-Framework gegenüber aufgeschlossen zu sein und die Head-Tracking-Fähigkeiten in technischen Geräten zu implementieren, die notwendig sind, um diese Revolution noch weiter voranzutreiben.

Eine Menge zu verdauen? Keine Sorge, jetzt wissen Sie, an wen Sie sich wenden können. Fragen Sie mich alles!

Jetzt Kontakt aufnehmen

Verwandte Blogartikel

Treibstoff für das virtuelle Event: Räumlicher Ton (Teil 1/2)

Vorteile Virtuelle Events: Konferenz und Ideen für Audio Events (Teil 2/2)

Der Video Anruf aus der Zukunft - Spatial Audio für Zoom, MS Teams, Telefon

Wie binaurales Hören funktioniert um 3D Sound zu lokalisieren

Diese Webseite verwendet Cookies. Wenn Sie diese Webseite weiterhin besuchen, stimmen Sie der Nutzung von Cookies zu. Mehr dazu finden Sie in meiner Datenschutzerklärung.

Notwendige Cookies

Tracking

Alles akzeptieren

oder Auswahl speichern