video call
NewsOverview

Der Video Anruf aus der Zukunft – Spatial Audio für Zoom, Skype und Telefon

Inhalt

    Wer hat anlässlich unserer globalen Gesamtsituation noch keinen Video Call geführt, keine Videokonferenz abgehalten, keinem Online Meeting beigewohnt? Oder wie auch immer man es nennen will. Innerhalb des letzten Jahres ist der Austausch über Videotelefonie aus offensichtlichen Pandemie Gründen Teil des Alltags vieler Menschen geworden.

    Obwohl Skype und Co. mittlerweile so verbreitet sind, ist in der technischen Entwicklung bezüglich Audio, gefühlt recht wenig passiert. Doch natürlich gibt es schon einige Bestrebungen die großen Dienste auditiv weiterzuentwickeln. Man könnte es bereits ahnen: Der effektivste Schritt einen Video Call (auditiv) zu verbessern, ist wohl die Einführung von Spatial Audio. Der Folgende Beitrag soll die Vorteile von immersivem Audio gegenüber dem jetzigen Mono Standard bei Videokonferenzen näher bringen.

    Zoom, Skype, Teams, und Co. visuelle Kommunikation

    Vermutlich hat jede/r NutzerIn nicht nur einen der besagten Videotelefonie-Dienste in Verwendung. So werden die meisten schon einen Überblick über die Stärken und Schwächen der jeweiligen Anbieter haben: Manche können mehr Personen anzeigen, manche sind übersichtlicher, andere haben jene Hintergrundfunktion, usw..

    Tatsache ist jedenfalls, dass die Unterschiede fast ausschließlich auf der visuellen Ebene liegen, auditiv muss man sich meist mit spärlichen Audioeinstellungen und Mono-Format begnügen.

    Ausnahme Zoom

    Zoom hat bereits einen Schritt getan und bietet eine Stereo- bzw. Hi-Fi-Funktion an. Dies erleichtert aufgrund der höheren Audioqualität die Sprachverständlichkeit und bringt die Möglichkeit Musik in stereo zu streamen. Die Stereofunktion ist beispielsweise auch sehr praktisch um binaurale Audiobeispiele zu streamen, wie etwa bei entsprechenden Events wie diesem hier.

    Wir sehen bei Zoom also schon einen Schritt in die richtige Richtung. Was aber der eigentliche Mehrwert von Spatial Audio in Bezug auf Video Calls ist, soll im folgenden geklärt werden.

    Mehrwert 1 – Differenzierbarkeit der Stimmen

    Abgesehen von der Audioqualität, was unterscheidet ein direktes Gespräch von einem Video Call? Auf auditiver Ebene vor allem der Richtungseindruck! Bei einer Videokonferenz mit mehreren Personen wird es mit dem derzeitigen Mono schnell chaotisch. Sobald mehr als eine Person spricht, wird es schnell unübersichtlich. Unser Gehirn tut sich schwer die Stimmen überhaupt auseinander zu halten, da sie alle aus der gleichen Richtung kommen.

    Bei Mono spricht man aus Audio Ingenieur Sicht auch von einer Im Kopf Lokalisation. Trägt man also Kopfhörer, hört man lauter fremde Stimmen in seinem Kopf. Klingt fast nach einem Fall für einen Psychiater. Die Lösung ist hier aber nicht der Besuch beim Arzt, sondern kann technisch über die sogenannte Externalisierung gelöst werden. Dazu später mehr.

    Verteilt man nämlich die Stimme jeder Person im 3D Audio Raum, so wie wir es in der Realität gewohnt sind, erleichtert das die Differenzierbarkeit schlagartig – Spatial Audio machts möglich. So wird eine Gesprächssituation räumlich nachempfinden, wie wir sie aus Meetings, Diskussionen oder dem gemütlichen Beisammensitzen kennen. Genau genommen reicht dazu sogar Stereo, wie dieses Video zeigt:

    Das Beispiel von Highfidelity Gründer Philip Rosedale macht schon mal hörbar in welche Richtung es gehen könnte. Hier fehlt aber vor allem die Räumlichkeit, wie sie auch in der Realität herrscht. Hier wird lediglich mit einem links-rechts Panning gearbeitet. Dadurch wirken die Stimmen sehr nah am Zuhörer. Zu nah, um natürlich zu sein.

    Doch es gibt noch mehr Details, die das Potential der Technologie entlocken würden. Also weiter gehts!

    Mehrwert 2 – Head-Tracking

    Für eine wirklich akkurate Schalllokalisation helfen kleine Kopfbewegungen. Wenn wir im Alltag mit unseren Ohren etwas genauer orten wollen, so bewegen wir meist unbewusst den Kopf. Durch die Änderung des Winkels zur Schallquelle und der damit einhergehenden Änderung der Laufzeit- und Pegelunterschiede zwischen den Ohren können wir Schallquellen noch genauer orten.

    Head-Tracking über Kopfhörer

    Um diese Bewegungen beim Video Call mit einzubeziehen, ist Head-Tracking nötig. Klingt nach einem technischen Aufwand. Doch auch diese Technologie ist im Anmarsch und mittlerweile schon verfügbar. Es gibt sogar mehrere Möglichkeiten die Kopfbewegungen zu messen:

    Apple hat mit den AirPods Pro und den AirPods Max, sowie Samsung mit den Galaxy Buds Pro bereits Head-Tracking-fähige Kopfhörer auf dem Markt – um zwei bekannte Vertreter zu nennen. Weiters gibt es die Möglichkeit externe Head-Tracker zu verwenden, die man an den Kopfhörern befestigt. An dieser Stelle möchte ich auf diesen Blogpost für mehr Informationen verweisen.

    Kopfdrehung über das Videobild der Webcam erfassen

    Nun ist aber nicht jeder im Besitz derartiger Audiogeräte. Die dritte Option ist das Head-Tracking mittels der Webcam und gerade für Desktop-Anwendungen spannend. So in etwa sieht die Gesichtserkennung aus, welche nötig ist, um das 3D Audio Schallfeld in Echtzeit an unsere Kopfbewegung anzupassen:

    video call

    Die Möglichkeit Kopfbewegungen über die Webcam zu ermitteln ist eine eindeutige Win-Win-Situation für spatialisierte Video Calls. Denn ein Video Call setzt eine Kamera voraus wodurch keine zusätzlichen Hardware-Anschaffungen anfallen. Und die nötige Technologie zur Audio-Spatialisierung kann sogar in den Browser integriert werden. Diesbezüglich sind die Kollegen von atmoky ganz vorne dabei und die richtigen Ansprechpartner.

    Video Call ohne Video?

    Etwas weiter gedacht ließe sich durch die Spatialisierung der Stimmen sogar der Videoaspekt vernachlässigen – zumindest wenn es um die Differenzierung der Personen geht. Zudem würde ein spatialisiertes Telefonat ein ganz anderes Präsenz Gefühl der anderen Person vermitteln, also auch auf psychologischer Ebene wirken.

    Es gibt mittlerweile eine Vielzahl von Anbietern solcher Bird View Meeting Places. z.B. gather town, spatial chat oder das bereits erwähnte High Fidelity. Wie das klingt, ist hier zu hören:

    Mehrwert 3 – Zoom Fatigue, Videokonferenz-Erschöpfung

    Personen die mehreren Videokonferenzen pro Tag beiwohnen, kennen das Gefühl wahrscheinlich. Man ist nach dem Video Call wie ausgelaugt, obwohl man vielleicht gar nicht so aktiv dabei war. Dieses Phänomen wird als Zoom Fatigue bezeichnet, also eine gewisse Müdigkeit nach Webmeetings. Dies muss nicht unbedingt etwas mit dem Inhalt des Meetings zu tun haben, sondern mit dem nicht zu ende gedachten Audio!

    Wie schon erwähnt, ist Mono der Standart beim Video-Telefonat und dies verlangt von unserem Gehirn mehr Leistung. Warum? Dadurch, dass alle Stimmen ohne Richtungseindrücke, eben über Mono, auf unsere Ohren treffen, ist das Gehirn damit beschäftigt diese zu differenzieren und zuzuordnen. Dieser Prozess passiert im realen Gespräch ohne diesen Mehraufwand fürs Gehirn – da wir Schallquellen lokalisieren können.

    Dies bestätigt beispielsweise dieses wissenschaftliche Paper. Durch Spatial Audio kann eine realistische richtungsabhängige Szenerie simuliert werden. Die Integration dieser Technologie beim Video Call würde unserem Gehirn also unnötige Denkarbeit ersparen. Demnach wären Meetings angenehmer und letztendlich auch effizienter durch steigende Produktivität.

    Diesen Ansatz zur True-To-Life Communication in Virtual Meetings verfolgt auch das Team von atmoky. Ihre Demo zeigt, wie Spatial Audio in Webmeetings eingesetzt werden kann. So wird eine natürliche akustische Szene zu erzeugt und die Sprachverständlichkeit erhöht. Das Potential des Cocktail-Party-Effektes und des sogenannten Spatial Unmasking sollen so voll ausgeschöpft werden..

    Herausforderungen

    Was man tatsächlich nicht braucht ist ein teures, fancy 3D Mikrophon – auch wenn es hier eine schöne Übersicht gibt 😉 . Es reicht ein ganz normales Mono-Mikrofon am Headset oder das ohnehin im Laptop eingebaute. Denn die Virtualisierung der Räumlichkeit passiert Software-seitig. Dabei werden dem Audiostream Meta-Daten zugeschrieben und das Programm berechnet in Echtzeit, wie das virtuelle Audio klingen muss.

    Ein Problem können dann hörbare Artefakte werden die bei der Datenreduktion als Mono während der Übertragung entstehen können. Doch langfristig ist auch das zu lösen: NVIDIA hat beispielsweise eine Möglichkeit gefunden, das Video anzuzeigen – ohne es überhaupt zu übertragen (siehe Video unten)! Künstliche Intelligenz macht es möglich.

    Ebenso hat NVIDIA mit der RTX Voice Applikation eine unfassbar gute Software zur Geräuschunterdrückung entwickelt. Dadurch können die Stimmen viel klarer ohne Störgeräusche übertragen werden. Das ist beim Einsatz von Spatial Audio natürlich auch vorteilhaft. Dann hört man nicht eine virtuelle Schallquelle mit Lärm des Laptop Gebläses und Tastaturgeklimper. Sondern eine schöne aufpolierte Sprache, wie wir sie aus der Realität kennen.

    Fazit und Lösungen

    Eigentlich ist es verwunderlich, dass bei Video Calls bis jetzt generell so wenig Aufmerksamkeit auf Audio gelegen ist. Auch unabhängig von Corona wäre es schon an der Zeit gewesen hier den nächsten Schritt zu tun. Doch angesichts der inflationär steigenden Stunden die mit Video-Telefonie “dank” der Pandemie verbracht werden, ist eine auditive Weiterentwicklung wohl schon längst überfällig. Man sieht also, dass hier Handlungsbedarf besteht. Die Integration von Spatial Audio in unseren Video-Meeting-Alltag würde sich positiv auf die Produktivität auswirken und am Ende des Tages hätten wir vermutlich mehr Energie und Motivation übrig. Außerdem verbessert es ungemein das Präsenzgefühl der anderen Menschen um noch kurz das Stichwort embodiment zu nennen.

    Daher wollte ich unbedingt auf dieses Alltagsthema aufmerksam machen, das mit dem richtigen Ansatz zur vollen Geltung kommt. Solche Lösungen kann ich mit meinen Kollegen von atmoky auch direkt für Webmeetings, Virtuelle Interaktion, Video Calls und Co anbieten. Also jetzt direkt die genannten Features implementieren – wir helfen bei der Umsetzung

    Kontakt aufnehmen

    Diese Webseite verwendet Cookies. Wenn Sie diese Webseite weiterhin besuchen, stimmen Sie der Nutzung von Cookies zu. Mehr dazu finden Sie in meiner Datenschutzerklärung.
    Notwendige Cookies
    Tracking
    Auswahl speichern Alles akzeptieren