Ein altes Sprichwort lautet: „Ein Bild sagt mehr als tausend Worte“, und im letzten Jahr hat sich Multimodalität – die Möglichkeit, Eingaben in verschiedenen Formaten wie Text, Bild und Stimme zu machen – zu einer wettbewerbsrelevanten Notwendigkeit auf dem Markt für große Sprachmodelle (LLM) entwickelt.
Im Oktober 2023 kündigte Google die Veröffentlichung von Assistant mit Bard an, einem von generativer KI gesteuerten persönlichen Helfer.
Die Lösung ist eine Kombination aus Google Assistant und Bard, mit der man persönliche Aufgaben über Text-, Sprach- und Bildeingaben erledigen kann.
Diese Bekanntgabe erfolgte nur eine Woche nach der Meldung von OpenAI über den Release von GPT-4V, das die Bildeingabe in ChatGPT ermöglichte.
In der gleichen Woche bestätigte Microsoft, dass die Nutzer von Bing Chat Zugang zu dem beliebten Bilderzeugungstool DALL-E 3 haben werden.
Diese Veröffentlichungen von OpenAI, Google und Microsoft machen deutlich, dass Multimodalität zu einer entscheidenden Komponente für die nächste Generation von LLMs und LLM-gestützten Produkten geworden ist.
Das Training von LLMs auf multimodale Eingaben wird unweigerlich die Tür zu einer Reihe von neuen Anwendungsfällen öffnen, die mit Text-zu-Text-Interaktionen nicht möglich waren.
Das multimodale LLM-Zeitalter
Die Idee, KI-Systeme auf multimodale Eingaben zu trainieren, ist nicht neu. 2023 war jedoch ein entscheidendes Jahr, um die Art der Erfahrung zu definieren, die generative KI-Chatbots in Zukunft bieten werden.
Ende 2022 wurde das Mainstream-Bewusstsein für generative KI-Chatbots vor allem durch das neu veröffentlichte ChatGPT geprägt, das Nutzern einen wortreichen, textbasierten virtuellen Assistenten zur Verfügung stellte, dem sie ähnlich wie der Google-Suche Fragen stellen konnten (obwohl die Lösung zu diesem Zeitpunkt noch nicht mit dem Internet verbunden war).
Übrigens kamen Text-zu-Bild-LLMs wie DALL-E 2 und Midjourney bereits vor 2022 auf den Markt, und der Nutzen dieser Tools beschränkte sich auf die Erstellung von Bildern anstatt, im Gegensatz zu ChatGPT, Usern und Wissensarbeitern eine Konversationsressource zu bieten.
Im Jahr 2023 begann die Grenze zwischen textorientierten generativen KI-Chatbots und Text-zu-Bild-Tools zu verschwimmen.
Dies war ein allmählicher Prozess, der sich jedoch abzeichnete, nachdem Google im März 2023 Bard herausbrachte und nur zwei Monate später auf der Google I/O 2023 die Eingabe von Bildern als Input ermöglichte.
Bei demselben Event wies Google-CEO Sundar Pichai darauf hin, dass das Unternehmen Google DeepMind gegründet und seine Brain- und DeepMind-Teams zusammengeführt hatte.
Nun sollte mit der Arbeit an einem multimodalen Modell der nächsten Generation namens Gemini begonnen werden. Er berichtete, dass das Team „beeindruckende multimodale Fähigkeiten sah, die in früheren Modellen nicht vorhanden waren“.
Zu diesem Zeitpunkt des LLM-Rennens waren ChatGPT und GPT4 zwar nach wie vor die dominierenden generativen KI-Tools auf dem Markt, aber die Unterstützung von Bildeingaben und die Verbindung zu Online-Datenquellen waren die Hauptunterscheidungsmerkmale von Bard gegenüber Konkurrenten wie OpenAI und Anthropic.
Auch Microsoft begann im Juli mit der Entwicklung in Richtung Multimodalität und fügte seinem im Februar 2023 eingeführten virtuellen Assistenten Bing Chat Unterstützung für Bildeingaben hinzu.
Dank dem Release von GPT-4V und Assistant mit Bard, die Bildeingaben und im Falle von Bard auch Spracheingaben unterstützen, entsteht nun ein multimodales Wettrüsten auf dem Markt.
Dabei geht es darum, einen Omnichannel-Chatbot zu entwickeln, der mit Text-, Bild- und Spracheingaben interagieren und darauf antworten kann.
Was bedeuten multimodale LLMs für die Nutzer?
Die Hinwendung des Marktes zu multimodalen LLMs hat einige interessante Auswirkungen für die User, die mit der Übersetzung von Text in Bilder und umgekehrt Zugang zu einer viel breiteren Palette von Anwendungsfällen erhalten werden.
Eine von Microsoft-Forschern veröffentlichte Studie experimentierte mit den Fähigkeiten von GPT-4V und fand eine Vielzahl von Einsatzmöglichkeiten in den Bereichen Computer Vision und Vision Language, einschließlich Bildbeschreibung und -erkennung, visuelles Verstehen, Verstehen von Szenentexten, Document Reasoning, Videoverständnis und mehr.
Besonders interessant ist die Fähigkeit von GPT-4V, „verschachtelte“ Bild-Text-Eingaben zu verwalten.
„Diese Form der gemischten Eingabe bietet Flexibilität für eine breite Palette von Anwendungen. So kann zum Beispiel die gesamte gezahlte Steuer über mehrere Belegbilder hinweg berechnet werden“, heißt es in dem Bericht.
„Außerdem ermöglicht es die Verarbeitung mehrerer Eingabebilder und die Extraktion der abgefragten Informationen. GPT-4V kann auch effektiv Informationen über verschachtelte Bild-Text-Eingaben verknüpfen, wie z. B. die Finanzierung des Bierpreises auf der Speisekarte, die Berechnung der Anzahl von Bieren und die Rückgabe der Gesamtkosten.“
Anstehende Herausforderungen
Zu beachten ist, dass multimodale LLMs zwar die Tür zu einer Reihe von Anwendungsfällen öffnen, aber dennoch den gleichen Einschränkungen unterliegen wie Text-zu-Text-LLMs.
Zum Beispiel können sie immer noch halluzinieren und auf die Prompts der User mit Fakten und Zahlen antworten, die nachweislich falsch sind.
Gleichzeitig stellt die Zulassung anderer Formate, wie z. B. Bilder, als Eingabe eine neue Herausforderung dar.
OpenAI hat im Stillen an der Implementierung von Leitplanken gearbeitet, um zu verhindern, dass GPT-4V zur Identifizierung von Personen und zur Kompromittierung von CAPTCHAs verwendet wird.
Eine von dem Anbieter veröffentlichte Studie hat auch multimodale Jailbreaks als einen bedeutenden Risikofaktor hervorgehoben.
„Ein neuer Vektor für Jailbreaks mit Bildeingabe besteht darin, einen Teil der logischen Überlegungen, die zum Brechen des Modells erforderlich sind, in Bilder einzubauen“, heißt es in der Untersuchung.
„Dies kann in Form von Screenshots schriftlicher Anleitungen oder sogar visueller Argumentationshilfen geschehen. Durch die Platzierung solcher Informationen in Bildern wird die Verwendung textbasierter heuristischer Methoden für die Suche nach Jailbreaks unmöglich. Wir müssen uns auf die Fähigkeiten des visuellen Systems selbst verlassen.“
Diese Bedenken decken sich mit einer anderen Studie, die Anfang letzten Jahres von Forschern der Princeton University veröffentlicht wurde.
Diese warnten, dass die Vielseitigkeit multimodaler LLMs „einem visuellen Angreifer eine breitere Palette an erreichbaren Zielen bietet“, wodurch sich die Angriffsfläche wesentlich vergrößert.
Fazit
Angesichts des multimodalen LLM-Wettrüstens ist es für KI-Entwickler und Unternehmen an der Zeit, potenzielle Anwendungsfälle und Risiken dieser Technologie zu berücksichtigen.
Wenn Organisationen sich die Zeit nehmen, die Fähigkeiten dieser aufkommenden Lösungen zu analysieren, können sie sicherstellen, dass sie den größtmöglichen Nutzen aus der Einführung ziehen und gleichzeitig die Risiken minimieren.