En décembre 2024, Google a lancé Gemini 2.0, son modèle d’IA multimodale le plus avancé à ce jour. Cette avancée révolutionnaire fait notamment parler d’elle pour une mise à jour qui a rapidement attiré l’attention en raison de sa refonte de la génération d’images natives et de l’entrée et sortie audio.
En les combinant, vous obtenez une édition d’images contrôlable par commande vocale, ce qui peut sembler être une fonctionnalité de plus dans une liste de fonctionnalités – mais lorsque vous l’essayez, c’est un véritable moment “Eurêka”.
Vous n’avez pas besoin de passer des heures à créer des images à partir de rien ou à naviguer dans les menus et les barres d’outils, vous pouvez simplement dire à Gemini ce que vous voulez qu’il crée en langage naturel, puis affiner l’image au fil de la conversation.
Le modèle Gemini 2.0, déjà largement accessible, se caractérise par la tentative du géant de la recherche de convertir son chatbot en un agent universel d’intelligence artificielle (IA). Cette avancée est vue comme une incursion dans le secteur de Photoshop et d’autres applications d’édition d’images.
Il s’agit de l’IA la plus avancée de Google à ce jour. Techopedia examine ci-dessous les nouvelles capacités et compétences de Gemini.
L’agent IA de Google : Un aperçu de Gemini 2.0
Google tente de faire de Gemini un outil multimodal que vous pouvez utiliser pour tout, de la recherche sur le Web à la réponse à des questions, en passant par la création de contenu écrit et la génération d’images à la demande.
Comme l’indique la documentation de Google, la nouvelle Multimodal Live API permet aux utilisateurs de créer des applications de vision et de streaming audio en temps réel avec l’utilisation d’outils et améliore la compréhension.
Par exemple, Gemini 2.0 se vante de pouvoir suivre des instructions complexes, d’apporter une aide plus importante grâce à des prompts de codage et de pouvoir appeler des fonctions à partir d’autres sources.
Cela contribue à faire de Gemini 2.0 un modèle d’IA sous forme d’agent – capable de prendre des mesures plutôt que de simplement fournir du texte ou des images.
Cependant, la capacité des utilisateurs à créer et à modifier des images par simple commande vocale a impressionné de nombreux acteurs du secteur.
Grâce au modèle de génération d’images Imagen 3, vous pouvez demander à Gemini de générer une image et de la modifier en suivant les instructions verbales. Il est notamment possible de supprimer des objets d’une image et d’insérer des objets d’une image précédente dans une autre.
Alon Yamin, PDG et cofondateur de Copyleaks, en est l’un des adeptes :
Il s’agit d’un bond en avant fascinant dans la créativité assistée par l’IA. Cette technologie ouvre des perspectives de démocratisation de la création de contenu visuel, permettant potentiellement à toute personne ayant une idée de lui donner vie avec seulement quelques mots prononcés. La possibilité de générer et de manipuler des images par le biais de commandes vocales pourrait révolutionner les flux de travail dans divers secteurs, du marketing et de la publicité à l’éducation et au divertissement.
Comment ça marche : Test du modèle expérimental Gemini 2.0 Flash
Les capacités de base des modèles expérimentaux Flash Gemini 2.0 sont impressionnantes.
Pour générer une image, il vous suffit d’effectuer une commande écrite ou vocale détaillant le type d’image que vous souhaitez créer.
Pour tester cette fonction, nous avons demandé à Gemini de générer l’image d’un dinosaure sur la plage (la sortie de cette image est visible ci-dessous).
Nous avons ensuite demandé à Gemini de modifier l’image en lui indiquant de “changer la couleur du dinosaure en rouge”. Nous avons obtenu le résultat suivant :
Cela a quelque peu modifié la conception de l’image, mais nous sommes satisfaits que la représentation du dinosaure soit restée cohérente entre les deux versions.
Mais qu’en est-il de l’ajout d’un objet à l’image ?
Pour pousser un peu plus loin les fonctions d’édition de Gemini, nous avons demandé au modèle de générer la même image avec un ballon sur la plage. Les résultats ont été les suivants :
Comme vous pouvez le voir, Gemini a ajouté le ballon de plage correctement, même s’il a déplacé l’arbre à l’arrière-plan, qui semble planer dans les airs.
Il y a quelques ratés, mais on est loin de la situation dans laquelle nous nous trouvions il y a quelques années, lorsque nous faisions glisser un curseur pour concevoir des éléments visibles à partir de zéro.
Alors que Gemini se présente comme une menace sérieuse à ChatGPT, Gemini 2.0 semble avoir les atouts nécessaires pour concurrencer Photoshop dans le domaine de la création d’images.
De nombreux utilisateurs opteraient probablement pour la génération d’images à l’aide des capacités de langage naturel de Gemini avant de les concevoir à partir de zéro via Photoshop ou un autre outil similaire – c’est bien plus préférable que de se pencher et de dessiner des motifs à partir de rien.
Vous pouvez voir d’autres exemples de la production de Gemini 2.0 ici :
RIP Photoshop.
Gemini 2.0 now can edit image by talking to it , it's insane.
Here’s how it works: pic.twitter.com/qQ5rOxzBiq
— el.cine (@EHuanglu) December 13, 2024
Alors que l’IA continue de se développer, l’interaction avec les logiciels par le biais du langage naturel et des assistants vocaux devient une alternative viable à l’utilisation d’outils numériques.
Même Adobe a eu recours à l’ajout de fonctions de conversion de texte en image dans Photoshop, ce qui témoigne d’une évolution des attentes des utilisateurs.
Toutefois, Google entend aller plus loin, comme le laisse entendre l’annonce officielle :
Avec de nouvelles avancées en matière de multimodalité – comme la sortie native d’images et d’audio – et des outils natifs à utiliser, cela nous permettra de construire de nouveaux agents d’IA qui nous rapprocheront de notre vision d’un assistant universel.
Réflexions plus larges : L’accessibilité de l’édition d’images
Bien que nous ayons été impressionnés par la capacité de Gemini 2.0 à générer des images et à comprendre les objets représentés dans l’image, le logiciel reste encore un peu brouillon sur les bords.
Par exemple, lors de nos tests, nous avons remarqué que les commandes vocales étaient souvent mal traduites et qu’il fallait les saisir plusieurs fois.
Cela dit, avec l’aide d’Imagen 3, Gemini 2 fait un excellent travail de création d’images esthétiques d’une manière beaucoup plus accessible qu’un outil plus spécialisé comme Photoshop.
Alors que Photoshop offre aux utilisateurs un contrôle infiniment plus grand sur l’édition, il s’accompagne d’un apprentissage plus abrupt.
Si vous êtes graphiste, apprendre à utiliser ces outils peut vous permettre de mieux contrôler vos créations, mais pour la plupart d’entre nous, Gemini est une alternative infiniment plus accessible et gratuite pour la création d’images.
L’essentiel
Dans sa forme actuelle, il serait faux d’affirmer que Gemini 2 surpasse Photoshop en termes de capacités globales.
Cependant, il offre une alternative gratuite de création d’images que tout le monde peut utiliser sans formation spécialisée ni apprentissage.
Si les agents virtuels comme Gemini continuent de progresser à ce rythme, ils pourraient bientôt rivaliser avec les outils d’édition traditionnels en termes de capacité à interpréter les instructions des utilisateurs. Cette évolution illustre davantage la tendance de l’IA à intégrer et à maîtriser un éventail croissant d’outils technologiques.