
Google a officiellement dévoilé une mise à jour majeure de son éditeur d’images Gemini AI, introduisant de nouvelles fonctionnalités qui le placent en concurrence directe avec ChatGPT d’OpenAI et d’autres principales plateformes de génération d’images par IA.
La mise à jour, baptisée Gemini 2.5 Flash Image, a été lancée mardi et offre une précision d’édition améliorée tout en conservant la cohérence des personnages — un point faible clé des modèles concurrents.
Réduire l’écart avec ChatGPT
Le nouveau modèle représente la dernière tentative de Google pour rattraper la domination d’OpenAI dans le domaine de la génération d’images par intelligence artificielle. Selon des documents judiciaires révélés en avril 2025, ChatGPT conserve une avance significative avec environ 600 millions d’utilisateurs actifs mensuels contre 350 millions pour Gemini. Cependant, Google semble prendre des mesures stratégiques pour réduire cet écart.
La mise à niveau provient de la division DeepMind de Google et s’appuie sur les capacités existantes de génération d’images par IA de l’entreprise. Ce qui distingue ce modèle, c’est sa capacité à préserver les traits du visage, les caractéristiques des animaux et d’autres détails visuels lors des modifications — un domaine où ChatGPT et d’autres concurrents rencontrent fréquemment des difficultés. Par exemple, demander à ChatGPT de changer la couleur d’un t-shirt conduit souvent à des visages déformés ou à des arrière-plans altérés, tandis que le nouvel éditeur de Gemini maintient une cohérence visuelle.
Fonctionnalités avancées d’édition et réponse du marché
Le modèle a déjà suscité un engouement considérable sous son nom de code de test « nano-banana », qui est apparu anonymement sur LMArena, une plateforme collaborative d’évaluation de modèles d’IA. Demis Hassabis, PDG de Google DeepMind, a même participé à la campagne de promotion, publiant une image au microscope représentant une banane, accompagné de la légende « objet étrange repéré au microscope ce week-end au laboratoire ».
Nicole Brichtova, responsable produit des modèles de génération visuelle chez Google DeepMind, a souligné la conception axée sur le consommateur du modèle lors d’un entretien avec TechCrunch. Les nouvelles fonctionnalités comprennent l’édition multi-itérative, qui permet aux utilisateurs d’effectuer des modifications successives sans avoir à recommencer, ainsi que le mélange de designs, qui applique des éléments stylistiques d’une image à des objets dans une autre.
Implications pour l’industrie et les mesures de sécurité
Cette mise à niveau intervient alors que la génération d’images par IA devient de plus en plus cruciale pour les grandes entreprises technologiques. Le générateur d’images natif de GPT-4o d’OpenAI a entraîné des photos d’utilisation massives lors de son lancement, le PDG Sam Altman notant que les GPU de l’entreprise étaient « en train de fondre » à cause de la création virale de même Studio Ghibli. Pendant ce temps, Meta s’est tournée vers la licence de modèles d’images IA auprès de la startup Midjourney pour rester performante.
Google a mis en place des mesures de sécurité, notamment des filigranes visuels et des identifiants de métadonnées SynthID sur toutes les images générées. Les conditions d’utilisation de l’entreprise interdisent la création d’images intimes non consenties, répondant ainsi aux inquiétudes concernant les abus de deepfakes qui ont touché d’autres plateformes. Le nouvel éditeur d’images est disponible immédiatement pour tous les utilisateurs Gemini, gratuits et payants, via l’application Gemini, l’API et les plateformes Google AI Studio
