Google Gemini erweitert Bildbearbeitung um fortgeschrittene KI-Tools

Transparenz
Highlights

  • Googles Chatbot Gemini könnte bald in der Lage sein, Bilder zu bearbeiten.
  • Die Funktion soll in der mobilen App und im Webinterface von Gemini verfügbar sein.
  • Die Bearbeitungsfunktion kann durch die Auswahl eines Bildausschnitts oder durch eine beschreibende Eingabeaufforderung genutzt werden.

Google Gemini könnte bald aktualisierte Funktionen für die Eingabeaufforderung zur Bilderstellung erhalten, einschließlich der Möglichkeit, einen ausgewählten Teil des Bildes zu ändern oder neu zu erstellen, heißt es in einer Meldung.

Googles Gemini-App, die den Google Assistant auf Android-Geräten ersetzt, kann bereits eine Reihe von generativen KI-Aktionen ausführen, wie das Schreiben von Nachrichten und E-Mails, das Verwalten von Terminen im Kalender und sogar das Erstellen von Bildern direkt auf dem Telefon. Mit einem zukünftigen Update könnte die allmächtige KI auch in der Lage sein, bestehende Bilder, die von der KI generiert wurden, zu verändern.

Diese potenzielle Fähigkeit wurde von Android Authority entdeckt, als sie die neueste Beta-Version des Google-App-Pakets für Android (im APK-Format) analysierten. Der Teardown deutet darauf hin, dass Gemini auf Android bald in der Lage sein könnte, einen Teil eines KI-generierten Bildes auf der Grundlage einer zusätzlichen Texteingabe zu verändern.

Einschränkungen von KI-generierten Bildern überwinden

Jeder, der schon einmal KI-Bildgeneratoren verwendet hat, wird zustimmen, dass sie trotz ihrer beeindruckenden Kreativität Schwierigkeiten haben, den gleichen Stil und die gleiche Atmosphäre in einer Reihe von Bildern beizubehalten. Daher können die Ergebnisse sehr unterschiedlich ausfallen, wenn die gleiche Eingabeaufforderung wiederholt oder geändert wird. Dies gilt insbesondere für primitive oder kostenlose Programme wie den Bildgenerator von Bing Chat, ChatGPT oder Google Gemini.

Die vorgeschlagene Funktion löst dieses Hauptproblem bei der Verwendung von KI zur Generierung von Bildern – zumindest bei Gemini.

Regionsbasierte Variation in Midjourney; Credits: Tushar Mehta/Techopedia

Relativ ausgereifte KI-Bilderzeugungswerkzeuge wie Midjourney und OpenAIs DALL-E bieten bereits die Möglichkeit, Teile von zuvor erzeugten Bildern neu zu erzeugen. Dazu stehen eine Reihe von Auswahlwerkzeugen wie Rechteck oder Lasso zur Verfügung. Darüber hinaus ist Adobes Generative Fill in Apps wie Photoshop speziell darauf ausgelegt, bestimmte Bereiche in bestehenden Bildern neu zu erstellen oder zu verändern – unabhängig davon, ob diese von einer KI generiert wurden oder nicht.

Wie üblich offenbaren diese APK-Teardowns Funktionen, mit denen Google möglicherweise für zukünftige Updates experimentiert. Dies muss nicht zwangsläufig zu einer funktionierenden Funktion führen.

Wir sehen keinen Grund, warum Google dies nicht tun sollte, aber es kann einige Zeit dauern, bis die Modelle verfeinert und die Nutzererfahrung verbessert ist, bevor sie der Öffentlichkeit zur Verfügung gestellt werden.

Jüngste Modell-Upgrades sollen Ergebnisse beschleunigen

Die Funktion soll auf zwei Arten funktionieren. Erstens kann man auf unterstützten Geräten mit dem Finger oder einem Stift einen Bereich des Bildes einkreisen und eine Textaufforderung für die Änderung hinzufügen. Oder man gibt einfach den Teil des Bildes an, der ersetzt werden soll, und Gemini versteht ihn automatisch (dank seiner Fähigkeiten zur Verarbeitung natürlicher Sprache) und bearbeitet ihn.

So funktioniert die KI-Bearbeitung von Gemini | Quelle: Android Authority

Die Änderungen wurden zwar auf Android entdeckt, aber es ist zu hoffen, dass sie auch auf das Webinterface übertragen werden, sobald sie implementiert sind. Da der kostenlose Gemini-Teil nun auf Googles schnellerem Gemini 1.5 Flash läuft, sollten solche Anfragen unabhängig vom Gerät einfacher zu bearbeiten sein.

Es bleibt abzuwarten, ob diese Änderungen auch in Google Fotos Einzug halten und es den Nutzern ermöglichen, Teile von Bildern aus dem echten Leben mit Hilfe von KI zu verändern. Dies ist sehr wahrscheinlich, da der “Magic Eraser” in Fotos bereits unerwünschte Hindernisse in Bildern entfernt und Teile mit Hilfe von KI neu erstellt. Eine Ankündigung auf dem Pixel 9 Launch Event in den kommenden Wochen wäre nicht allzu überraschend.

Interessanterweise hat Samsung kürzlich eine Funktion auf dem neuen Galaxy Z Fold 6 implementiert, bei der Nutzer/innen mit einem Stylus über bestehende Bilder kritzeln können und hyperrealistische Ergänzungen zu den mit der Kamera aufgenommenen Bildern erhalten. Ähnlich wie Circle to Search könnte Google in Zusammenarbeit mit Samsung eine ähnliche Funktion einem breiteren Publikum zugänglich machen.

Tushar Mehta
Tech Journalist
Tushar Mehta
Tech Journalist

Tushar ist ein freiberuflicher Journalist, der seit fast einem Jahrzehnt über Verbrauchertechnologie berichtet. Zusätzlich zu Techopedia schreibt er für Digital Trends und Forbes Vetted und hat bereits für XDA und Android Central geschrieben.