Gemini 2.0 : L’édition d’images IA meilleure que Photoshop ?

Fiabilité
À RETENIR

  • Google a lancé Gemini 2.0 en décembre 2024, le modèle le plus puissant du géant de la technologie à ce jour.
  • La capacité de Gemini 2.0 à générer et à modifier des images à l'aide d'instructions vocales pourrait à terme constituer une concurrence sérieuse pour des outils tels que Photoshop.
  • Cela fait partie du projet de Gemini de devenir un "agent d'intelligence artificielle universel", capable de réaliser de nombreuses actions de manière autonome.
  • Photoshop reste un outil très spécialisé, mais les utilisateurs occasionnels pourraient trouver que les fonctions texte-image et voix-image de Gemini sont plus accessibles.
  • Adobe a également ajouté des fonctionnalités de conversion de texte en image à Photoshop en 2024.

En décembre 2024, Google a lancé Gemini 2.0, son modèle d’IA multimodale le plus avancé à ce jour. Cette avancée révolutionnaire fait notamment parler d’elle pour une mise à jour qui a rapidement attiré l’attention en raison de sa refonte de la génération d’images natives et de l’entrée et sortie audio.

En les combinant, vous obtenez une édition d’images contrôlable par commande vocale, ce qui peut sembler être une fonctionnalité de plus dans une liste de fonctionnalités – mais lorsque vous l’essayez, c’est un véritable moment “Eurêka”.

Vous n’avez pas besoin de passer des heures à créer des images à partir de rien ou à naviguer dans les menus et les barres d’outils, vous pouvez simplement dire à Gemini ce que vous voulez qu’il crée en langage naturel, puis affiner l’image au fil de la conversation.

Le modèle Gemini 2.0, déjà largement accessible, se caractérise par la tentative du géant de la recherche de convertir son chatbot en un agent universel d’intelligence artificielle (IA). Cette avancée est vue comme une incursion dans le secteur de Photoshop et d’autres applications d’édition d’images.

Il s’agit de l’IA la plus avancée de Google à ce jour. Techopedia examine ci-dessous les nouvelles capacités et compétences de Gemini.

L’agent IA de Google : Un aperçu de Gemini 2.0

Google tente de faire de Gemini un outil multimodal que vous pouvez utiliser pour tout, de la recherche sur le Web à la réponse à des questions, en passant par la création de contenu écrit et la génération d’images à la demande.

Comme l’indique la documentation de Google, la nouvelle Multimodal Live API permet aux utilisateurs de créer des applications de vision et de streaming audio en temps réel avec l’utilisation d’outils et améliore la compréhension.

Par exemple, Gemini 2.0 se vante de pouvoir suivre des instructions complexes, d’apporter une aide plus importante grâce à des prompts de codage et de pouvoir appeler des fonctions à partir d’autres sources.

Cela contribue à faire de Gemini 2.0 un modèle d’IA sous forme d’agent – capable de prendre des mesures plutôt que de simplement fournir du texte ou des images.

La nouvelle identité visuelle de Gemini
La nouvelle identité visuelle de Gemini alors qu’elle entre dans la phase 2.0

 

 

Cependant, la capacité des utilisateurs à créer et à modifier des images par simple commande vocale a impressionné de nombreux acteurs du secteur.

Grâce au modèle de génération d’images Imagen 3, vous pouvez demander à Gemini de générer une image et de la modifier en suivant les instructions verbales. Il est notamment possible de supprimer des objets d’une image et d’insérer des objets d’une image précédente dans une autre.

Alon Yamin, PDG et cofondateur de Copyleaks, en est l’un des adeptes :

Il s’agit d’un bond en avant fascinant dans la créativité assistée par l’IA. Cette technologie ouvre des perspectives de démocratisation de la création de contenu visuel, permettant potentiellement à toute personne ayant une idée de lui donner vie avec seulement quelques mots prononcés.

La possibilité de générer et de manipuler des images par le biais de commandes vocales pourrait révolutionner les flux de travail dans divers secteurs, du marketing et de la publicité à l’éducation et au divertissement.

Comment ça marche : Test du modèle expérimental Gemini 2.0 Flash

Les capacités de base des modèles expérimentaux Flash Gemini 2.0 sont impressionnantes.

Pour générer une image, il vous suffit d’effectuer une commande écrite ou vocale détaillant le type d’image que vous souhaitez créer.

Pour tester cette fonction, nous avons demandé à Gemini de générer l’image d’un dinosaure sur la plage (la sortie de cette image est visible ci-dessous).

Gemini 2.0
Invite 1 : « Créez une image d’un dinosaure sur une plage. » (Gemini)

 

 

Nous avons ensuite demandé à Gemini de modifier l’image en lui indiquant de “changer la couleur du dinosaure en rouge”. Nous avons obtenu le résultat suivant :

Gemini
Prompt 2 : « Changez la couleur du dinosaure dans l’image en rouge. » (Gemini)

 

 

Cela a quelque peu modifié la conception de l’image, mais nous sommes satisfaits que la représentation du dinosaure soit restée cohérente entre les deux versions.

Mais qu’en est-il de l’ajout d’un objet à l’image ?

Pour pousser un peu plus loin les fonctions d’édition de Gemini, nous avons demandé au modèle de générer la même image avec un ballon sur la plage. Les résultats ont été les suivants :

Prompt 3 : « Ajoutez un ballon de plage à l’image. » (Gemini)
Prompt 3 : « Ajoutez un ballon de plage à l’image. » (Gemini)

 

 

Comme vous pouvez le voir, Gemini a ajouté le ballon de plage correctement, même s’il a déplacé l’arbre à l’arrière-plan, qui semble planer dans les airs.

Il y a quelques ratés, mais on est loin de la situation dans laquelle nous nous trouvions il y a quelques années, lorsque nous faisions glisser un curseur pour concevoir des éléments visibles à partir de zéro.

Alors que Gemini se présente comme une menace sérieuse à ChatGPT, Gemini 2.0 semble avoir les atouts nécessaires pour concurrencer Photoshop dans le domaine de la création d’images.

De nombreux utilisateurs opteraient probablement pour la génération d’images à l’aide des capacités de langage naturel de Gemini avant de les concevoir à partir de zéro via Photoshop ou un autre outil similaire – c’est bien plus préférable que de se pencher et de dessiner des motifs à partir de rien.

Vous pouvez voir d’autres exemples de la production de Gemini 2.0 ici :

Alors que l’IA continue de se développer, l’interaction avec les logiciels par le biais du langage naturel et des assistants vocaux devient une alternative viable à l’utilisation d’outils numériques.

Même Adobe a eu recours à l’ajout de fonctions de conversion de texte en image dans Photoshop, ce qui témoigne d’une évolution des attentes des utilisateurs.

Toutefois, Google entend aller plus loin, comme le laisse entendre l’annonce officielle :

Avec de nouvelles avancées en matière de multimodalité – comme la sortie native d’images et d’audio – et des outils natifs à utiliser, cela nous permettra de construire de nouveaux agents d’IA qui nous rapprocheront de notre vision d’un assistant universel.

Réflexions plus larges : L’accessibilité de l’édition d’images

Bien que nous ayons été impressionnés par la capacité de Gemini 2.0 à générer des images et à comprendre les objets représentés dans l’image, le logiciel reste encore un peu brouillon sur les bords.

Par exemple, lors de nos tests, nous avons remarqué que les commandes vocales étaient souvent mal traduites et qu’il fallait les saisir plusieurs fois.

Cela dit, avec l’aide d’Imagen 3, Gemini 2 fait un excellent travail de création d’images esthétiques d’une manière beaucoup plus accessible qu’un outil plus spécialisé comme Photoshop.

Alors que Photoshop offre aux utilisateurs un contrôle infiniment plus grand sur l’édition, il s’accompagne d’un apprentissage plus abrupt.

Si vous êtes graphiste, apprendre à utiliser ces outils peut vous permettre de mieux contrôler vos créations, mais pour la plupart d’entre nous, Gemini est une alternative infiniment plus accessible et gratuite pour la création d’images.

L’essentiel

Dans sa forme actuelle, il serait faux d’affirmer que Gemini 2 surpasse Photoshop en termes de capacités globales.

Cependant, il offre une alternative gratuite de création d’images que tout le monde peut utiliser sans formation spécialisée ni apprentissage.

Si les agents virtuels comme Gemini continuent de progresser à ce rythme, ils pourraient bientôt rivaliser avec les outils d’édition traditionnels en termes de capacité à interpréter les instructions des utilisateurs. Cette évolution illustre davantage la tendance de l’IA à intégrer et à maîtriser un éventail croissant d’outils technologiques.

FAQ

Qu’est-ce que Google Gemini 2.0 ?

Comment Gemini 2.0 se compare-t-il à Photoshop ?

Qu’est-ce qui permet à Gemini 2.0 de générer des images ?

Puis-je utiliser Gemini 2.0 gratuitement ?

Gemini 2.0 fonctionne-t-il avec des commandes vocales ?

Termes connexes

Articles Liés

Vincent Grethen
Responsable d'édition

Diplômé de l'Ecole de Journalisme de Louvain La Neuve en Belgique, c'est finalement le monde du contenu en ligne qui m'a permis d'assouvir ma passion pour l'écriture. Depuis plus de 10 ans, j'explore divers secteurs, notamment le bien-être, le médical ou encore le tourisme. Cette polyvalence est mon atout majeur pour capter l'attention des lecteurs et des lectrices. Aujourd'hui, ma plume évolue au rythme des innovations, au service des passionnés de technologie, toujours avec le même plaisir de jouer avec les mots.