Réalité augmentée: la nouvelle frontière de l’audio (partie 1)

Selon la personne à qui vous demandez, la réalité augmentée entre soit complètement, soit dans son cycle de battage médiatique. 2017 a vu Apple et Google arriver sur le marché avec des kits de développement d’applications AR. De nombreux membres du public apprécient les applications qui peuvent vous aider à mesurer des objets, à placer des meubles, à apprendre des choses, à faire des chasses au trésor et des applications et des jeux de mode / beauté se répandent également sur le marché.

S’engager avec ce type de contenu est aussi simple que de prendre votre téléphone et de le tenir au niveau des yeux. Mais lorsque nous posons inévitablement le téléphone après quelques minutes à nous demander pourquoi le contenu n’était pas très attrayant, il n’est pas toujours évident de savoir ce qui manque à l’expérience. Dans un monde où la plupart des joueurs mobiles ne jouent pas avec des écouteurs ou ne coupent pas le son de l’expérience, les joueurs qui interagissent avec le contenu de cette manière manquent beaucoup de la qualité immersive que l’audio apporte à une expérience.

La réponse pour débloquer la prochaine phase d’immersion et de présence au sein de la RA est en fait quelque chose que nous nous sommes entraînés à ignorer pendant de nombreuses décennies.


Cette série en deux parties se penchera sur les considérations initiales et les apprentissages que j’ai rencontrés dans mon temps de prototypage et de recherche Audio pour la réalité augmentée pendant mon temps avec OSSIC et autour d’OSSIC en 2017. Cette paire d’articles constituera une bonne introduction pour vous concernant les défis que nous pouvons rencontrer et les fonctionnalités que nous devrions exiger, car nous voyons de plus en plus d’applications et de jeux en cours de développement pour la RA mobile et la RA basée sur un casque.

Ce premier article se concentrera sur la définition de la technologie elle-même, les types d’appareils AR existants, les raisons pour lesquelles l’AR est si difficile et les choses qui, à mon avis, seront les plus difficiles à surmonter pour l’audio dans ce nouveau média.

Le deuxième article va approfondir certaines des recherches plus approfondies sur les avantages cognitifs que l’audio offre à la RA, où nos outils et technologies sont en termes de prise en charge de l’AR Audio, et quelles pratiques créatives nous devons développer pour offrir l’expérience audio “ ultime ” de l’AR. .


Pourquoi se soucier de l’audio en RA?

Placer un objet dans l’espace, c’est bien plus que simplement s’assurer qu’il est assis sur la ou bien éclairé. Visuellement, ce sont d’excellents points de départ. En considérant l’éclairage seul, les ombres et la luminosité d’un objet sont importantes pour cet objet appartenant visuellement à l’espace. Cependant, ces éléments ensemble peuvent toujours donner l’effet d’un hologramme 3D.

Culturellement, nous avons un grand nombre d’exemples et de plans pour les hologrammes. Des premières recherches en holographie effectuées par Dennis Gabor dans les années 1940 à Star Wars et au dernier Blade Runner, Holography nous a donné suffisamment de points de contact pour arrondir facilement l’AR aux expressions simples que nous avons vues dans les premiers films de science-fiction. Pour que l’AR reste fidèle, l’impact de l’objet projeté doit être si important qu’il suspend immédiatement l’incrédulité.

Notre sens de l’audition est quelque chose qui est traité inconsciemment et il est largement admis qu’il est traité plus rapidement que le stimulus visuel. Le cerveau est également incroyablement rapide pour déterminer si le contenu «convient» au «ton» de ce qui se passe dans les médias que nous consommons (il y a eu une vaste exploration dans ce domaine dans le domaine des neurosciences cognitives). Le fait de ne pas avoir d’audio en RA peut interrompre l’immersion (en défiant les attentes du participant quant à l’interaction de l’objet avec l’espace) et conduire à un temps de repos plus rapide.


Plonger plus profondément

Au-delà de l’avantage initial de l’idée générale d ‘«immersion», les «utilisations» de l’audio dans la technologie AR sont nombreuses et variées. Il y a des avantages cognitifs, de l’expérience utilisateur et de l’interface utilisateur à utiliser plus profondément l’audio dans la RA.

En règle générale, l’utilisation d’une plus grande variété de modalités (vue, haptique, son, etc.) pour présenter les informations de manière plus générale signifie que des choix plus délibérés peuvent être faits sur la façon dont les informations sont présentées, par opposition au choix d’une représentation visuelle. Éviter la surcharge cognitive d’un utilisateur peut être aussi simple que de présenter des informations dans une modalité non visuelle comme le son.

Nous pouvons considérer des avantages cognitifs spécifiques qui ont été prouvés par la recherche (et même mis en évidence dans d’autres technologies de divertissement telles que les jeux et la réalité virtuelle). L’inclusion de l’audio dans les signaux en mouvement (par exemple, les jeux basés sur les compétences ou les jeux de tir) peut réduire le temps de réaction jusqu’à 50% (Barde, Ward, Helton et Billinghurst (2016)). C’est pourquoi des jeux comme Raw Data et Space Pirate Trainer conçoivent des ennemis pour émettre des sons lorsqu’ils voyagent dans l’espace – que ce soit un moteur vrombissant, un pas brusque ou un son asservi fluide, ces signaux vous aident à comprendre le monde autour de vous avant d’avoir le temps pour tourner la tête dans la direction d’où vient le son.

Pour les mots prononcés, le positionnement (spatialisation) correct des sons augmente la compréhension et la qualité perçue de l’expérience dans des environnements comprenant plusieurs voix (ou sons). Les expériences qui ne spatialisent pas le son (c.-à-d. Utilisent simplement un son stéréo ou même mono) «compactent» en fait tout le son dans un champ condensé, ce qui peut rendre extrêmement difficile d’entendre des sons séparés et l’emplacement de ces sons (en particulier dans un Champ 3D).

AR Hardware ‘Flavours’

Nous avons principalement discuté de Mobile AR – AR que vous pouvez afficher avec un téléphone intelligent. Il existe quelques autres types de RA disponibles aujourd’hui, et chacun présente de subtiles différences en matière de technologie et de conception audio.

Mobile AR est l’exécution du smartphone sous forme de fenêtre. C’est le style de RA que nous avons vu se développer au cours des dernières années avec les projets Tango, Vuforia et Pokemon Go de Google comme premiers exemples clés. Ce style de RA a la plus faible barrière à l’entrée, mais a des implications intéressantes sur l’emplacement perçu des sons dans l’espace de RA, car l’appareil ne suit que la position de l’appareil, et non la position de vos oreilles (qui est l’endroit où vous vous attendez à entendre le du son).

L’AR avec étui comme la plate-forme Mira AR vous oblige à insérer votre appareil mobile (Apple iPhone uniquement dans le cas de Mira) dans un étui monté sur la tête qui permet aux images du téléphone de se refléter sur un écran clair. Ce style d’AR permet l’utilisation d’un contrôleur pour interagir avec les objets de la scène AR, et pourrait potentiellement bénéficier beaucoup plus profondément de la contextualisation audio car les images sont plus transparentes dans ce style d’affichage.

Les écrans AR montés sur la tête comme le Microsoft Hololens, VRVana Totem (qui vient d’être acquis par Apple), Meta et le très attendu casque Magic Leap sont à divers stades d’existence, et sont donc les plus prometteurs pour l’AR et l’audio pour l’AR. . Conçus dès le départ pour être des appareils du futur, ces appareils ont souvent des capteurs de détection de pièce qui peuvent fournir des informations critiques sur l’espace dans lequel l’appareil se trouve pour le traitement acoustique.


Généralement, sur ce spectre d’appareils, il existe quelques différences critiques qui ont un impact sur le rôle de l’audio. Ceux-ci peuvent être explorés dans quelques catégories – champ de vision (FOV, visuel), styles d’interaction, position tête / oreille, limitations de traitement, conscience de la pièce et potentiel pour les périphériques.

FOV

Le champ de vision est actuellement une limitation majeure de la plupart des technologies de RA. À l’aide d’un appareil mobile, le champ de vision est limité à l’étendue de l’écran que vous utilisez. Pour certains iPhones, cela peut être aussi petit qu’une fenêtre de 4 pouces dans un monde à 360 degrés. Même pour les Hololens, le champ de vision offert n’est que de 35 degrés sur le total de 360 ​​degrés disponibles. Le Totem (non publié) a un champ de vision allant jusqu’à 120 degrés, mais il utilise des caméras passthrough (ce qui se traduit par une expérience différente pour l’utilisateur).

Pourquoi le FOV est-il important pour un utilisateur? Les humains sont extrêmement biaisés par le monde visuel qu’ils voient autour d’eux. Avec un FOV qui est réduit par rapport au FOV perceptuel normal, il est encore moins probable qu’un utilisateur regarde autour de lui juste au cas où il pourrait y avoir plus d’expérience se produisant derrière lui. L’audio est le seul sens à 360 degrés du corps, et peut donc être utilisé pour aider le joueur à se retourner pour consommer plus de l’expérience totale (comme nous l’avons vu plus haut).

Interactions sur le matériel AR

Cette gamme de plates-formes matérielles offre à l’utilisateur une manière différente d’interagir avec la scène AR qui l’entoure. Mobile AR offre la méthode d’interaction la plus rudimentaire (jusqu’à présent – ce champ est encore naissant) où, si vous pouvez le voir à l’écran, vous pouvez également utiliser cet écran pour interagir avec lui.

L’avantage qu’offre le Hololens est les capteurs orientés vers l’avant de l’appareil qui permettent à l’utilisateur d’interagir directement avec les objets de ses propres mains. Pour tous ceux qui ont essayé brièvement les Hololens, ils ont probablement trouvé que l’apprentissage des gestes était un saut mental (d’accord, je ne peux toujours pas utiliser de manette Xbox), ce qui offre une opportunité pour l’audio d’aider dans les processus d’éducation et de rétroaction lorsqu’un l’utilisateur s’adapte à de nouveaux schémas d’interaction basés sur les gestes.

Idiosyncrasies liées à l’audio

Les technologies AR imposent également des effets intéressants sur le traitement et la consommation audio en général. J’ai fait allusion à un effet précédemment – l’emplacement de la «fenêtre» dans la scène AR est différent de l’emplacement réel de votre tête / oreilles. Nous rencontrons également des effets multiplateformes et spécifiques à la plate-forme intéressants. Différents appareils auront différentes capacités de détection d’espace, les limites de traitement globales seront différentes par appareil, et la présence et la position de divers périphériques (écouteurs, haut-parleurs) auront également un impact sur le pipeline de traitement audio.

Oreille vs position de l’appareil

L’un des défis les plus courants de la RA mobile est que l’appareil mobile qui est votre «fenêtre» sur le monde de la RA se tiendra à un endroit différent de celui des oreilles de l’utilisateur. Cela peut sembler un simple «oui, donc ce que les gens ne remarqueront pas» si vous supposez que les différences de distance et d’angle sont petites. Cependant, le bras humain moyen mesure 63,5 cm de long (nous comprenons que les humains ne tiennent pas leurs téléphones à pleine extension lorsqu’ils les utilisent), ce qui est une distance suffisante pour avoir un impact significatif sur la qualité du son dans la plage de la fonction de transfert lié à la tête en champ proche (HRTF) (ce HRTF est «utilisé» lorsque le stimulus est à moins de 1 mètre / 39 pouces).

Les auditeurs inexpérimentés peuvent ne pas comprendre exactement pourquoi le son “ semble bizarre ”, mais ils sont susceptibles de remarquer qu’une source sonore positionnée en dessous d’eux est soudainement en ligne avec leur niveau d’oreille. Travailler autour de cela est plus compliqué que vous ne le pensez. Vous pouvez estimer la distance et l’angle que le dispositif serait par rapport à la position de l’oreille et le compenser pour cela, mais vous ferez des hypothèses sur l’anatomie de l’auditeur, ce qui faussera leur perception de la scène que vous essayez de créer, et vous pourrait manquer des changements dans ces angles si l’utilisateur bougeait.

Limites de traitement

Les dispositifs AR actuels ont trois catégories de recrutement de matériel: les appareils mobiles, les appareils tout-en-un et les appareils captifs. Malgré les améliorations en cours sur toutes les gammes de produits matériels, il convient de souligner que les expériences AR qui recrutent un appareil mobile pour alimenter leurs expériences connaîtront des limitations de traitement. Une comparaison rapide du haut de gamme iPhone X et Pixel 2 XL avec le Microsoft Hololens par rapport à la spécification minimale prête pour la VR définie par HTC Vive démontre le fossé technologique.

La différence entre les spécifications minimales du bureau et les spécifications des appareils mobiles haut de gamme (actuels) est importante (bien qu’il soit intéressant de noter que les MacBook Pros actuels haut de gamme ne répondent pas non plus à ces spécifications minimales). La différence entre les spécifications de traitement Hololens et les spécifications minimales de Vive est également considérable, ce qui est tout à fait correct pour une technologie de première génération qui offre un potentiel unique en tant que dispositif AR non attaché.

Cet écart de puissance de traitement signifie que les capacités de traitement de ces appareils sont limitées (ce que nous avons l’habitude de considérer entre le développement de jeux PC et mobiles). Cela signifie moins d’objets audio et moins de potentiel pour la reconnaissance de la pièce et le rendu sur ces appareils. (La conscience de la pièce est la capacité de l’appareil à être «conscient» de l’espace qu’il «voit» – que ce soit en capturant ou en balayant un ou plusieurs capteurs).

Sensibilisation à la salle et rendu

Je considère que le Saint Graal de l’audio pour la réalité augmentée est la capacité de conformer acoustiquement le son de l’expérience à l’environnement dans lequel l’appareil le place. Cet élément particulier aura probablement un potentiel et des restrictions différents entre les différents types de matériel AR, ainsi que des délais et des pipelines pour atteindre ce «Saint Graal».

Toutes les technologies AR actuellement disponibles ont des restrictions sur le champ de vision qu’elles ont en ce qui concerne leur capacité à connaître la pièce dans laquelle se trouve l’appareil. Que ce soit par le biais d’un suivi à l’envers ou de caméras avec une matrice à double caméra capable de percevoir la profondeur. Mobile AR est capable de détecter les surfaces et de permettre le mouvement autour des objets AR avec la matrice à double caméra incluse sur l’iPhone X et les iPad prêts pour l’AR (2017). Hololens, Meta et autres casques AR sont capables de détecter l’étendue et la profondeur d’une pièce. Les appareils mobiles bas de gamme avec une seule caméra sont toujours en mesure de détecter les surfaces, mais n’ont pas le même niveau de détection de profondeur.

contre

Pour déverrouiller un rendu acoustique plus profond sur les appareils mobiles, il peut être nécessaire de capturer ou d’étalonner l’espace pour utiliser ces données pour un rendu acoustique avancé (semblable à la façon dont un utilisateur doit calibrer une configuration VR pour s’assurer que les caméras externes “ savent ” où le casque est dans l’espace). Si ce type d’étalonnage peut être stocké sur un appareil mobile pour être utilisé pour le traitement, puis si un algorithme de rendu basé sur la géométrie en temps réel peut être exécuté sur des appareils non captifs est une question à laquelle nous pourrons peut-être répondre dans les prochains jours ans. Actuellement, le rendu physique n’est possible qu’avec un petit nombre de spatialiseurs logiciels (tels que SteamAudio et NVIDIA).

Potentiel pour les périphériques

Chaque catégorie d’appareil offre également une gamme différente d’expérience audio pour l’utilisateur final. Cela est dû à la fois au matériel intégré offert pour la lecture et au potentiel de connexion de différents périphériques aux appareils. Les utilisateurs qui essaient des jeux ou des applications ARkit ou ARcore peuvent ne pas connecter de casque et se retrouver avec un mixage audio mono ou stéréo de votre expérience. Il en va de même pour le matériel AR qui contient un appareil mobile (comme Mira).

D’autres appareils comme le Meta et le Meta 2 ont des haut-parleurs sur l’appareil, mais limitent la sortie audio via son appareil à «Quadraphonic». Le Hololens a également des haut-parleurs sur l’appareil, mais est capable de l’audio basé sur un objet complet. Ces appareils ont également une connexion jack analogique pour les écouteurs, mais la forme de l’appareil peut limiter le style des écouteurs qui peuvent être utilisés avec l’appareil.


Cet article sur la «revue technologique» n’est littéralement qu’un début. ARkit et ARcore (les DK Apple et Google pour créer des expériences AR mobile) ne sont à l’état sauvage que depuis 2-3 mois à ce stade, avec un nombre limité d’appareils mobiles compatibles AR disponibles pour découvrir ces applications et ces jeux. Comprendre la différence entre chaque technologie et les considérations audio qui entourent chaque format est la première étape pour pouvoir créer pour ce nouveau format.

Dans le prochain article, nous approfondirons la façon dont les détails technologiques et liés à la recherche entourant la RA alimentent une pratique créative potentielle. Nous examinerons également plus en profondeur les technologies disponibles ou qui devront peut-être être développées pour concevoir de l’audio pour la RA. Nous examinerons également l’audio potentiel de l’AR et quelles applications de ces techniques et technologies pourraient précipiter à l’avenir.


Sally Kellaway est une voix leader de l’industrie pour l’audio en réalité virtuelle, augmentée et mixte. Sa mission est de créer, repousser les limites et aider à éduquer ses industries. Vous pouvez la joindre sur Twitter ou Linkedin. Soutenir Sal via la plateforme Kofi lui permet de créer plus de contenu!