0

Se réapproprier l’entraînement de modèles de génération d’images avec Autolume

Crédit: Metacreation Lab

Par Arshia Sobhan Sarbandi, doctorant au Metacreation Lab. Traduction de Manuel Bolduc

Les modèles de génération d’images basés sur des méthodes de diffusion, tels que DALL·E 3 de OpenAI et Stable Diffusion de Stability AI, ont captivé l’attention populaire ces dernières années, notamment grâce aux résultats convaincants de génération d’images à partir de commandes textuelles d’internautes. L’arrivée de réseaux antagonistes génératifs en 2014, également connus sous le nom de GANs (Generative Adversarial Networks), avait cependant déjà préparé la voie à la génération d’images accessible au grand public, en permettant l’entraînement de modèles génératifs personnalisés avec un volume de données visuelles minimal. Malgré cela, l’utilisation des GANs dans des contextes de création artistique peine à se démocratiser, en raison de la complexité technique inhérente à l’implémentation de leur processus d’entraînement.

Afin de simplifier l’utilisation des GANs pour la création artistique, le Metacreation Lab for Creative AI développe le logiciel Autolume. Autolume est un synthétiseur visuel intuitif qui exploite la puissance des GANs pour la création artistique. Son interface utilisateur met en lumière tous les modules nécessaires à la conception et à l’utilisation de modèles GANs : le filtrage de données, l’entraînement de modèles, l’exploration en temps réel de l’espace latent généré par le modèle, l’extraction de caractéristiques, et l’ajustement de la résolution du visuel sortant. Cela permet à des non-codeurs de s’initier au monde de l’IA générative et d’intégrer ces concepts dans leurs pratiques artistiques. De plus, Autolume intègre le protocole de communication OpenSoundControl (OSC) dans son interface pour faciliter la création audio-réactive ainsi que d’autres formes d’arts interactifs.

Autolume met en valeur l’utilisation de jeux de données personnalisés, afin de promouvoir le développement de modèles génératifs reflétant l’intention créative de la personne les ayant conçus, et ce, libre des biais inhérents liés aux modèles pré-entraînés sur des jeux de données massifs. Cette approche se distingue donc des approches courantes de l’utilisation de modèles génératifs, en offrant une proposition originale sur leur intégration dans des pratiques artistiques. 

Autolume

Autolume permet l’appropriation de modèles GANs par des utilisateur·rice·s non-codeur·se·s, en se basant sur l’architecture du réseau StyleGAN2-ada de NVIDIA pour l’entraînement de modèles et la génération d’images. Autolume présente également des fonctionnalités additionnelles pour la personnalisation des modèles et le contrôle de la génération d’images, afin d’enrichir le processus créatif pour l’utilisateur·rice.

L’entraînement de modèles de génération d’images avec des jeux de donnés personnels

Les modèles de génération d’images basés sur des méthodes de diffusion nécessitent un entraînement sur des bases de données massives, ce qui requiert un coût de calcul computationnel inaccessible pour une utilisation personnelle. Par conséquent, les utilisateur·rice·s se tournent généralement vers des modèles pré-entraînés, sans souvent prendre en compte les sources de données utilisées pour leur entraînement. Même s’il est possible de réentraîner ces modèles sur des jeux de données personnalisés, cela n’équivaut pas à l’appropriation complète du processus d’entraînement d’un modèle : les biais génératifs résultant de l’entraînement initial continueront d’affecter la génération d’images du modèle réentraîné.

Autolume se démarque donc par sa capacité à entraîner des modèles de génération d’images directement à partir des sources de données des utilisateur·rice·s : ils et elles peuvent utiliser leurs propres collections d’images pour l’entraînement de modèles, sans avoir à se réapproprier un modèle pré-entraîné. Il est possible d’entraîner un modèle de génération d’images avec seulement quelques centaines d’images, selon le contenu et la cohérence visuelle des images. Autolume offre également des options d’augmentation de données et utilise des processus d’entraînement conçus pour supporter la création de modèles basés sur des sources de données limitées.

L’opération du module d’entraînement d’Autolume se fait sur la carte graphique locale de l’utilisateur·rice. Avant d’arriver à générer un modèle de génération d’images convergent, il se peut que l’utilisateur·rice doive ajuster les paramètres d’entraînement plusieurs fois pour trouver une combinaison optimale. Cependant, sur une carte graphique puissante comme la NVIDIA GeForce RTX 3090, il est possible d’obtenir des résultats concluants en moins de 12 heures. Les utilisateur·rice·s peuvent surveiller le progrès de l’entraînement de leur modèle en temps réel grâce à la visualisation d’images générées après chaque étape d’actualisation du modèle. Cela permet à l’utilisateur·rice·s d’arrêter l’entraînement du modèle une fois qu’il ou elle est satisfait·e des résultats. Cette fonctionnalité, en plus des options d’ajustement de paramètres spécifiques à l’entraînement, permet à l’utilisateur·rice de conserver un contrôle créatif sur le modèle GAN finalement généré.

Les utilisateur·rice·s peuvent voir une grille d’images générées aléatoirement après chaque étape d’actualisation du modèle.

Capacités dynamiques

Autolume offre l’opportunité aux utilisateur·rice·s d’interagir en temps réel avec un modèle GAN, leur permettant de générer à la fois des images fixes et des animations. Cette fonctionnalité est mise en évidence par une interface utilisateur intuitive, facilitant le contrôle créatif.

 

Le module temps réel d’Autolume présente différentes manières d’explorer l’espace latent d’un modèle GAN, notamment grâce à l’interpolation entre des images clés, ou encore à la création de boucles visuelles basées sur la variabilité de plusieurs paramètres du modèle. Une des fonctionnalités les plus importantes est la possibilité d’accéder directement à chaque couche de traitement convolutif du générateur de modèle. Cela permet donc aux utilisateur·rice·s d’appliquer des transformations et d’ajuster les niveaux de bruit dans les différentes couches du générateur, ou même de fusionner deux modèles GAN en combinant leurs différentes couches directement. Ce degré de contrôle granulaire libère le potentiel créatif au sein de l’entraînement d’un seul modèle, permettant la génération de visuels uniques.

Arts Interactifs

Le module temps réel d’Autolume inclut une fonctionnalité interactive qui intègre le protocole de communication OSC, permettant aux utilisateur·rice·s de contrôler tous les paramètres ajustables présents dans le module temps réel via l’envoi de messages OSC. Cela ouvre donc la porte à une multitude d’opportunités créatives, comme la création d’installations audio-réactives et le déploiement de performances interactives. Les utilisateur·rice·s peuvent ainsi explorer l’espace latent des modèles GAN sous différentes modalités, élargissant l’horizon des possibilités d’expressions artistiques interactives.

De plus, Autolume permet l’envoi de visuels génératifs en direct à d’autres logiciels via le protocole de communication NDI. Cela permet d’augmenter la complexité du traitement visuel des images générées par un modèle GAN, tout en ajoutant aux options d’intégration disponibles dans Autolume (pensons par exemple à l’intégration de contenu visuel généré par Autolume dans un projet TouchDesigner).

Extraction de caractéristiques visuelles significatives

Autolume utilise la méthode GANSpace afin d’identifier et d’extraire des caractéristiques visuelles significatives d’un modèle GAN. Cette approche permet la découvrabilité de l’espace latent d’un modèle selon des trajectoires intuitives : si l’on pense à un modèle entraîné sur des images d’automobiles, par exemple, une de ces trajectoires pourrait correspondre au changement de couleur de l’auto dans l’espace latent. L’utilisateur·rice étant exposé·e à ces trajectoires a donc accès à une approche navigationnelle structurée de l’espace latent d’un modèle GAN, ce qui facilite la manipulation intentionnelle et sémantique des visuels générés. 

Projection dans l’espace latent

Autolume permet notamment la projection d’images dans l’espace latent d’un modèle. Les utilisateur·rice·s peuvent ainsi faire correspondre des images générées par un modèle à une image qu’ils ou elles auront versée dans le logiciel. Les images générées peuvent ensuite être sauvegardées en tant qu’images-clés (keyframes) et utilisées dans le module temps réel d’Autolume. Cette fonctionnalité permet l’utilisation simultanée de contenu visuel et de contenu génératif dans un processus de création dynamique.

Augmentation de la résolution (superresolution

Autolume rend accessible l’utilisation de modèles d’IA pour augmenter la résolution de contenu généré à l’aide de GANs. Dans le module d’augmentation de la résolution, les utilisateur·rice·s ont accès à plusieurs paramètres pour ajuster la qualité des résultats ainsi que le temps d’exécution. Cette fonctionnalité permet d’adapter le contenu génératif à plusieurs contextes de diffusion, allant de l’installation multimédia à l’affichage papier, sans compromettre la fidélité visuelle du contenu généré.

Projets

Au Metacreation Lab for Creative AI, nous sommes enthousiastes à l’idée de collaborer avec des artistes de différentes disciplines, en explorant comment Autolume peut élargir leurs horizons créatifs et introduire de nouvelles expressions et esthétiques dans leur travail. Nous avons déjà commencé à produire des œuvres d’art au sein du laboratoire et avons initié des collaborations avec des artistes, impatients de voir comment ces partenariats repousseront les limites de ce qui est possible dans le domaine de l’IA créative.

Dreamscape

Dreamscape est une collaboration avec Erica Lapadat-Janzen, une artiste visuelle et médiatique basée à Vancouver. En utilisant Autolume, nous avons méticuleusement navigué dans l’espace latent pour abstraire l’esthétique de son travail. Grâce à ce processus, nous avons sélectionné et affiné 12 images fixes et 9 boucles vidéo, que nous envisageons comme des peintures évoluant doucement, pour une présentation publique.

Crédit: Erica Lapadat-Janzen and Philippe Pasquier

Autolume Mzton

Autolume Mzton est une méditation sur le thème de la dystopie. La pièce est composée de musique analogique générative et de vidéo générative pilotée par l’IA. Ce processus de création automatisé est le paroxysme de l’art médiatique : lorsque le médium est littéralement autonome et que le créateur humain est éloigné du contenu produit par des moyens algorithmiques. En fait, la dynamique de la production en réseau rappelle également les cultures cellulaires et la croissance biologique, ajoutant une couche à cette sensation d’autonomie dystopique, a-humaine ou post-humaine. Pourtant, les gestes musicaux, le patching, les données d’entraînement et le codage sont autant d’expressions de la créativité humaine, et les visuels génératifs font étonnamment référence aux horizons et aux couchers de soleil, aux nouveaux départs et à la notion antonymique d’utopie !

Autolume Mzton est une collaboration entre Philippe Pasquier, directeur du Metacreaion Lab, et Jonas Kraasch, ancien élève du Master du Metacreation Lab.

Autolume Acedia

Autolume Acedia est une méditation hallucinatoire sur l’ancienne émotion appelée acédie. Acedia décrit un mélange d’apathie contemplative, de nostalgie nerveuse et d’angoisse paralysée. Cette émotion, décrite pour la première fois par des moines grecs il y a deux millénaires, rend compte de l’état paradoxal d’ennui et d’anxiété simultanés. Inspiré et contrôlé par la musique de Monobor, perdu dans des paysages sonores hivernaux, le système de génération vidéo Autolume rêve de corps, d’organes et d’os. Autolume écoute littéralement la musique pour produire des images abstraites qui semblent danser. Fruit des derniers algorithmes d’IA créative et de Deep Learning du Metacreation Lab, l’œuvre est aussi une réflexion sur l’analogique et le numérique, et sur la manière dont ils peuvent se rencontrer pour dépeindre cette émotion qui a resurgi au cours de la pandémie actuelle.

Autolume Acedia est une collaboration entre Philippe Pasquier, directeur du Metacreation Lab, et Jonas Kraasch, ancien étudiant à la maîtrise au Metacreation Lab.

Reprising Elements

Reprising Elements est une performance audiovisuelle qui mêle la calligraphie persane à l’IA générative et à l’art sonore. Il s’agit d’une collaboration entre Arshia Sobhan, doctorant au Metacreation Lab, et Joshua Rodenberg, professeur associé à VCUarts Qatar. La performance crée un espace de co-création pour un calligraphe (Sobhan), une calligraphie générée en temps réel par l’IA à l’aide d’Autolume, et un artiste sonore (Rodenberg), reliés par des boucles de rétroaction audiovisuelles.

Elle réimagine le rituel traditionnel “siyah mashq” de la calligraphie persane, où le système d’IA, formé à partir d’échantillons basés sur les œuvres de maîtres calligraphes, interagit avec le calligraphe. Les sons du processus de calligraphie sont transformés par l’artiste sonore et introduits dans la performance, le système d’IA y répondant en temps réel. Il s’agit d’une boucle de rétroaction dans laquelle chaque élément influence et remodèle les autres.

L’interaction dynamique repousse les limites de la calligraphie traditionnelle, en la fusionnant avec la technologie et le son contemporains, invitant le public à une fusion du passé et de l’avenir, où la tradition est à la fois honorée et réimaginée.

Revival

Revival, conçue par le collectif d’artistes K-Phi-A, est une performance audiovisuelle innovante combinant des agents musicaux d’IA et des musiciens humains pour la musique électronique, ainsi que des visuels d’avant-garde pilotés par l’IA. Cette collaboration crée une synergie unique entre les interprètes humains et les agents d’IA, avec une performance percussive de Keon Ju Maverick Lee et une performance électronique en direct du professeur Philippe Pasquier, soutenue par des agents musicaux primés (MASOM et Spire Muse) et un agent audiovisuel (Autolume) géré par le VJ Amagi. Les agents musicaux sont formés à la musique de compositeurs défunts. Le collectif d’artistes co-crée cette pièce audio-vidéo en collaborant avec les agents musicaux artificiels et le synthétiseur visuel Autolume, tout en abordant concrètement la question d’un renouveau.

Participez et essayez par vous-même

Autolume offre aux artistes une plateforme pionnière qui leur permet d’explorer et de repousser leurs limites créatives. En permettant la formation à l’aide de petits ensembles de données personnelles, Autolume évite non seulement les pièges des données volumineuses et biaisées, mais encourage également une expression artistique plus authentique et personnalisée. Cet outil innovant invite les artistes à plonger dans un monde où la technologie rencontre la vision artistique individuelle, pour finalement enrichir la sphère de l’art numérique avec des récits visuels uniques.

Comment puis-je l’utiliser?

Pour essayer Autolume, vous devez disposer d’une machine Windows ou Linux équipée d’un GPU NVIDIA.

Pour les instructions d’installation, veuillez consulter le site :
https://github.com/Metacreation-Lab/autolume?tab=readme-ov-file#autolume

Pour plus d’informations sur Autolume et ses fonctionnalités, rendez-vous sur notre page dédiée :
https://www.metacreation.net/autolume

Retours utilisateurs

Nous vous invitons à installer Autolume, à vous plonger dans ses fonctionnalités, à partager votre expérience avec nous et à nous signaler tout problème rencontré :
https://forms.gle/P5yScWopp2NVuZXX9

Liens

Metacreation Lab for Creative AI: https://www.metacreation.net/

Site web d’Autolume: https://www.metacreation.net/autolume

Oeuvres:

https://www.metacreation.net/projects/dreamscape

https://www.metacreation.net/projects/autolume-mzton

https://www.metacreation.net/projects/autolume-acedia

https://arshiasobhan.com/works/reprising-elements


Références

Autolume-Live: Turning GANs into a Live VJing tool
Jonas Kraasch, Philippe Pasquier
xCoAx 2022 10th Conference on Computation, Communication, Aesthetics & X, 2022
https://2022.xcoax.org/pdf/xcoax2022-kraasch.pdf

Analysing and Improving Visual and Semantic Quality of Realtime Audio Visualisations with Deep Generative Models
Arthur Deleu
Master’s dissertation, 2023, Ghent University
https://libstore.ugent.be/fulltxt/RUG01/003/150/156/RUG01-003150156_2023_0001_AC.pdf

Towards Personalizing Generative AI with Small Data for Co-Creation in the Visual Arts
Ahmed M. Abuzuraiq, Philippe Pasquier
Joint Proceedings of the ACM IUI Workshops, 2024
https://hai-gen.github.io/2024/papers/5546-Abuzuraiq.pdf

Seizing the Means of Production: Exploring the Landscape of Crafting, Adapting and Navigating Generative AI Models
Ahmed M. Abuzuraiq, Philippe Pasquier
Generative AI and HCI workshop, 2024

Partager l'article
Copié dans le presse-papier
Innovation
Annonce des projets sélectionnés pour le programme d’accompagnement du Lab7
17 déc. 2024
Formation
La SAT a été invitée à Taiwan pour donner une formation sur l’IA créative au C-LAB de Taipei
17 déc. 2024
Innovation
[DOSSIER] Arts & IA
22 oct. 2024
Innovation
Se réapproprier l’entraînement de modèles de génération d’images avec Autolume
21 oct. 2024