Crédit: Ash KG
Par Manuel Bolduc, chercheur-développeur
Les avancées technologiques dans le domaine de la vision par ordinateur sont au cœur des intérêts de recherche en interaction collective à la SAT. Poussé par les opportunités d’applications industrielles variées (pensons à la navigation autonome, à la supervision de processus de fabrication, à l’identification automatique par vidéosurveillance), le marché global de la vision par ordinateur est évalué à 17,25 G$ en 2024, avec un taux de croissance annuel composé estimé à plus de 17 % au cours des prochaines années. Cela peut notamment s’expliquer par l’intégration continue de modèles d’apprentissage profond (deep learning) dans les applications de vision par ordinateur, jumelée à l’offre de capteurs optiques spécialisés à bas coût (comme les capteurs infrarouges et les capteurs de distance laser).
Par ailleurs, l’intégration de capteurs optiques dans la conception d’expériences immersives interactives est désormais une pratique courante. On peut penser, notamment, aux expériences proposées par OASIS Immersion, qui intègrent, avec leur “plancher dynamique”, l’une des plus larges surfaces interactives au monde. La SAT propose également, à travers sa programmation, plusieurs installations immersives et interactives reposant sur la récolte d’informations de participant·e·s à l’aide de capteurs optiques, leur donnant ainsi la possibilité d’influencer le déroulement de l’expérience immersive grâce au mouvement de leurs corps.
Sortie de résidence de Marie LeBlanc Flanagan, accompagnée par le département d’innovation de la SAT. L’artiste présentait dix jeux interactifs dans la Satosphère. Le système interactif utilise de la détection de blobs pour le suivi des participants. Photo Marek Blottière.
Cela étant dit, l’intégration de méthodes d’apprentissage automatique (machine learning) dans des systèmes interactifs est aujourd’hui peu commune. Cela pourrait changer au cours des prochaines années, notamment grâce à la prolifération de modèles d’apprentissage profond (deep learning) libre d’accès (open source) permettant la reconnaissance d’objets sur image. Ces modèles, comme la suite YOLOv8 de Ultralytics, ou encore la suite Mediapipe de Google, sont en mesure d’analyser rapidement le contenu d’une image et d’en extraire des données selon les spécifications de la tâche à effectuer (segmentation d’image, classification, suivi d’objets, etc.). L’intérêt de la SAT en vision par ordinateur s’inscrit donc dans l’appropriation de ces modèles (et leur réentraînement) afin de développer des applications utiles pour la conception d’expériences immersives innovantes.
Le département d’innovation de la SAT s’intéresse plus particulièrement au potentiel d’utilisation de modèles d’estimation de pose humaine dans des applications interactives. Ces modèles sont des outils permettant de déterminer la position et les mouvements du corps humain à partir de données visuelles. Les modèles d’estimation de pose humaine disponibles aujourd’hui (tels que MediaPipe Pose, TRT Pose et MMPose) permettent l’extraction d’informations en temps réel (au-dessus de 30 images par seconde) sur le contenu visuel qui leur est présenté. L’information est par la suite communiquée sous la forme de points d’intérêts (keypoints) détectés dans l’image, qui correspondent à différentes articulations du corps humain.
Démonstration d’estimation de pose humaine à l’aide du modèle MediaPipe Pos
Déjà, ces modèles ont été intégrés dans des applications humanocentriques. Dans le domaine de l’assistance médicale, par exemple, ils ont pu être intégrés dans des systèmes de détection de chutes. Dans le domaine de l’analyse biomécanique, ces modèles sont utilisés pour enseigner la bonne posture à adopter lors d’exercices de gymnastique.
Dans l’optique de démocratiser l’utilisation des modèles d’estimation de pose humaine, les chercheur·e·s de la SAT ont développé l’outil par ligne de commande LivePose. Grâce à cet outil, il est possible de prototyper des applications numériques interactives tout en limitant les besoins matériels à un ordinateur et une caméra.
Depuis, LivePose a été déployé dans de nombreux projets de recherche de la SAT, notamment pour explorer des nouvelles formes d’interactions au sein d’une expérience immersive, autant du côté du public que du côté des performeur·euse·s.
Utilisation de LivePose dans le studio interactif de la SAT.
Plus nous expérimentons avec des modèles d’estimation de pose humaine, plus nous constatons leurs avantages et leurs inconvénients dans l’élaboration d’expériences interactives. L’avantage principal de l’utilisation de ces modèles est qu’ils se prêtent à plusieurs contextes, puisqu’ils requièrent peu de matériel et peuvent détecter des poses humaines sans que les personnes détectées aient à revêtir des marqueurs. Les inconvénients concernent la fiabilité des résultats de détection, notamment dans des contextes de faible luminosité et lorsqu’il y a occlusion entre différentes personnes détectées sur une image.
Nous explorons ainsi différentes pistes de solution pour fiabiliser l’utilisation de ces modèles dans des systèmes interactifs, notamment au niveau du filtrage des résultats de détection ainsi que des méthodes de réentraînement de modèles pour des contextes d’utilisation spécifiques. À cet effet, il est pertinent de noter que le processus de réentraînement de modèles pour des tâches de reconnaissance spécifiques demande beaucoup moins de capacité computationnelle que l’entraînement initial des modèles.
Dans cette optique, nous avons développé une preuve de concept de réentraînement des données sortantes du modèle Mediapipe Pose, afin de reconnaître les gestes de danse de la chorégraphie de la célèbre chanson YMCA (voir le dépôt GitLab associé ici : frame based pose recognition). Le processus complet de réentraînement ne nécessite que quelques minutes, de l’acquisition initiale d’images pour les gestes Y,M,C,A , jusqu’à la validation de la reconnaissance gestuelle en temps réel.
Démonstration de la reconnaissance en temps réel de la des gestes YMCA par Manuel Bolduc.
Le département d’innovation de la SAT est convaincu que les modèles d’apprentissage profond ont un fort potentiel d’utilisation pour des applications interactives. Nous continuons donc nos efforts de recherche pour l’innovation créative grâce à l’intelligence artificielle.