Im sich ständig weiterentwickelnden Bereich der künstlichen Intelligenz (KI) sind Sprachmodelle vom Sprachverständnis zu vielseitigen Problemlösern geworden, die hauptsächlich durch das Konzept des kontextbezogenen Lernens angetrieben werden.
Der „Algorithmus der Gedanken“ von Microsoft treibt diese Entwicklung weiter voran und ermöglicht ein menschenähnliches Denken, Planen und Lösen von mathematischen Problemen auf energieeffiziente Weise.
Durch die Verwendung von algorithmischen Beispielen erschließt AoT das Potenzial von Sprachmodellen, eine Vielzahl von Ideen mit nur wenigen Abfragen zu erkunden.
Im Folgenden wird die Entwicklung von Prompt-basierten kontextbezogenen Lernansätzen untersucht und aufgezeigt, wie AoT künstliche Intelligenz für menschenähnliche Schlussfolgerungen transformiert.
Kontextbezogenes Lernen
Kontextbezogenes Lernen (engl. In-context learning) ist ein transformativer Prozess, der darauf abzielt, Sprachmodelle von bloßen Sprachexperten zu versierten Problemlösern zu machen.
Zum besseren Verständnis dieses Konzepts stellen Sie sich diese Modelle als Sprachlernende in einer Schule vor. Anfangs besteht ihr Unterricht vor allem darin, sich in große Textmengen zu vertiefen, um Wissen über Wörter und Fakten zu erwerben.
Das kontextbezogene Lernen bringt diese Lernenden jedoch auf die nächste Stufe, indem es ihnen die Aneignung spezieller Fähigkeiten ermöglicht.
Nehmen wir an, man schickt diese Schüler zu spezialisierten Ausbildungsprogrammen wie einer Hochschule oder einer Berufsschule.
In dieser Phase konzentrieren sie sich auf die Entwicklung besonderer Fähigkeiten und die Beherrschung verschiedener Aufgaben wie Sprachübersetzung (z. B. Seamless M4T von Meta), Codegenerierung oder Lösung komplexer Probleme.
In der Vergangenheit wurden Sprachmodelle nur dann spezialisiert, wenn sie mit neuen Daten wieder trainiert wurden, was man als Feinabstimmung bezeichnet. Dies erwies sich als schwierig, da die Modelle immer umfangreicher und ressourcenintensiver wurden.
Zur Lösung dieser Probleme wurden Prompt-basierte Methoden entwickelt. Anstatt das gesamte Modell neu zu trainieren, wird es mit klaren Anweisungen versorgt, z. B. Fragen zu beantworten oder Code zu schreiben.
Dieser Ansatz zeichnet sich durch seine außergewöhnliche Kontrolle, Transparenz und Effizienz in Bezug auf Daten- und Rechenressourcen aus, was ihn zu einer äußerst praktischen Wahl für eine breite Palette von Anwendungen macht.
Entwicklung des Prompt-basierten Lernens
Dieser Abschnitt gibt einen kurzen Überblick über die Entwicklung des Prompt-basierten Lernens vom Standard-Prompting zum Chain-of-Thought (CoT) und Tree-of-Thought (ToT).
- Standard-Prompting
Im Jahr 2021 führten Forscher ein bahnbrechendes Experiment durch. Sie brachten ein einziges generativ vortrainiertes Modell, T0, dazu, bei 12 verschiedenen NLP-Aufgaben zu brillieren.
Diese Aufgaben umfassten strukturierte Anweisungen, wie z. B. die für die Folgerung verwendete: „Wenn {Annahme} wahr ist, ist es dann auch wahr, dass {Hypothese} wahr ist? ||| {enthalten}.“
Die Ergebnisse waren erstaunlich, denn T0 übertraf Modelle, die nur für einzelne Aufgaben trainiert worden waren, und war sogar in neuen Aufgaben besser als diese.
Mit diesem Experiment wurde der Prompt-basierte Ansatz eingeführt, der auch als Input-Output- oder Standard-Prompting bekannt ist.
Beim Standard-Prompting handelt es sich um eine einfache Methode, bei der man dem Modell einige aufgabenbezogene Beispiele vorlegt, bevor man eine Antwort erwartet.
Sie können es zum Beispiel auffordern, Gleichungen wie „2x + 3 = 11“ zu lösen (Lösung: „x = 4“). Diese Methode eignet sich für simple Aufgaben wie das Lösen einfacher mathematischer Gleichungen oder Übersetzungen.
Da sich das Standard-Prompting jedoch auf isolierte Anweisungen stützt, hat es Probleme mit dem Verständnis breiterer Zusammenhänge und mehrstufigem Denken.
Dies macht es ineffizient für die Bewältigung komplexer mathematischer Probleme, logisches Denken und Planungsaufgaben.
Die Einschränkungen des Standard-Prompting haben zur Entwicklung des CoT-Systems geführt, das diese Nachteile ausgleicht.
- Chain-of-Thought (CoT) Prompting
Bei CoT handelt es sich um eine Souffleurtechnik, mit deren Hilfe große Sprachmodelle (LLM) Probleme lösen können. Dazu werden sie in eine Reihe von Zwischenschritten unterteilt, die zu einer endgültigen Antwort führen.
Dieser Ansatz verbessert die Denkfähigkeiten des Modells, indem er es ermutigt, auf komplexe, mehrstufige Probleme in einer Weise zu reagieren, die einer logischen Denkkette ähnelt.
Das CoT-Prompting erweist sich als besonders wertvoll, wenn es darum geht, LLMs bei der Bewältigung von Aufgaben zu helfen, die logisches Denken und Mehrfachschritte erfordern, wie z. B. arithmetische Probleme und Fragen, die sich auf den gesunden Menschenverstand beziehen.
Ein Beispiel: Man könnte CoT-Prompting zur Lösung eines komplexen physikalischen Problems einsetzen, z. B. zur Berechnung der Strecke, die ein Auto bei Beschleunigung zurücklegt.
CoT-Prompts führen das Sprachmodell durch logische Schritte, beginnend mit der Anfangsgeschwindigkeit des Autos, der Anwendung der Entfernungsformel und der Vereinfachung der Berechnungen.
Dies veranschaulicht, wie CoT-Prompts komplizierte Probleme Schritt für Schritt aufschlüsseln und das Modell dabei unterstützen, präzise Schlussfolgerungen zu ziehen.
- Tree-of-Thought (ToT) Prompting
In bestimmten Szenarien kann die Lösung von Problemen jedoch mehrere Ansätze umfassen.
Konventionelle Schritt-für-Schritt-Methoden wie CoT können die Erkundung verschiedener Lösungen einschränken.
Das Tree-of-Thought Prompting geht diese Herausforderung an, indem es Aufforderungen verwendet, die als Entscheidungsbäume strukturiert sind und es den Sprachmodellen ermöglichen, mehrere Wege in Betracht zu ziehen.
Diese Methode befähigt die Modelle, Probleme aus verschiedenen Blickwinkeln zu betrachten, wodurch die Bandbreite der Möglichkeiten erweitert und kreative Lösungen gefördert werden.
Herausforderungen des Prompt-basierten Lernens
Prompt-basierte Ansätze haben zweifellos die mathematischen und schlussfolgernden Fähigkeiten von Sprachmodellen verbessert.
Gleichzeitig haben sie aber auch einen entscheidenden Nachteil: Der Bedarf an Abfragen und Rechenressourcen steigt exponentiell an.
Jede Anfrage, die an ein Online-Sprachmodell wie GPT-4 gerichtet wird, verursacht finanzielle Kosten und trägt zur Latenz bei, einem kritischen Engpass für Echtzeitanwendungen. Diese kumulativen Verzögerungen können die Lösungseffizienz untergraben.
Außerdem können ständige Interaktionen die Systeme belasten, was zu Bandbreitenbeschränkungen und einer geringeren Verfügbarkeit der Modelle führen kann. Auch die Auswirkungen auf die Umwelt müssen bedacht werden.
Durch regelmäßige Abfragen erhöht sich der Energieverbrauch der ohnehin schon stromintensiven Rechenzentren, was deren CO2-Bilanz noch weiter verschlechtert.
Algorithm-of-Thought Prompting
Microsoft hat sich der Herausforderung gestellt, Prompt-basierte Methoden in Bezug auf Kosten, Energieeffizienz und Reaktionszeit zu verbessern.
Sie haben den Algorithmus des Denkens (AoT) eingeführt, einen bahnbrechenden Ansatz, der den Bedarf an vielen Eingabeaufforderungen bei komplexen Aufgaben reduziert und gleichzeitig die Leistung beibehält.
AoT unterscheidet sich von früheren Prompting-Methoden. Die Sprachmodelle werden angewiesen, aufgabenspezifischen Pseudocode zu generieren, ähnlich wie klare Anweisungen in Python.
Dadurch wird der Schwerpunkt auf die Nutzung der internen Denkprozesse des Modells gelegt, anstatt sich bei jedem Schritt auf potenziell unzuverlässige Ein- und Ausgaben zu verlassen.
AoT enthält zudem kontextbezogene Beispiele, die sich an Suchalgorithmen wie „Depth First Search“ und „Breadth First Search“ orientieren und dem Modell dabei helfen, komplizierte Probleme in überschaubare Schritte zu zerlegen sowie erfolgversprechende Lösungswege zu identifizieren.
Obwohl AoT Ähnlichkeiten mit dem Gedankenbaum-Ansatz (Tree-of-Thought, ToT) aufweist, zeichnet es sich durch seine bemerkenswerte Effizienz aus.
ToT erfordert oft eine Vielzahl von Sprachmodellabfragen, die gelegentlich für ein einziges Problem in die Hunderte gehen. Im Gegensatz dazu bewältigt AoT diese Herausforderung, indem es den gesamten Denkprozess in einem einzigen Kontext orchestriert.
AoT eignet sich besonders für Aufgaben, die einer Baumsuche ähneln. In diesen Szenarien besteht der Problemlösungsprozess darin, das Hauptproblem in kleinere Komponenten aufzuteilen, Lösungen für jeden Teil zu entwickeln und zu entscheiden, welche Möglichkeiten vertieft werden sollen.
Anstatt separate Abfragen für jede Teilmenge des Problems zu verwenden, nutzt AoT die iterativen Fähigkeiten des Modells, um sie in einem einheitlichen Schritt anzugehen.
Dieser Ansatz integriert Erkenntnisse aus früheren Kontexten und beweist seine Fähigkeiten bei der Bearbeitung komplexer Probleme, die ein tiefes Eintauchen in das Lösungsfeld erfordern.
Fazit
Der Algorithmus der Gedanken (Algorithm-of-Thoughts, AoT) von Microsoft verändert KI, indem er auf energieeffiziente Weise menschenähnliches Denken, Planen und Lösen von mathematischen Problemen ermöglicht.
AoT nutzt algorithmische Beispiele, um Sprachmodelle zu befähigen, verschiedene Ideen mit nur wenigen Abfragen zu erforschen.
AoT baut auf der Entwicklung des Prompt-basierten Lernens auf und zeichnet sich durch seine Leistungsfähigkeit und Effizienz bei der Bewältigung komplexer Aufgaben aus.
Es verbessert nicht nur die KI-Fähigkeiten, sondern entschärft auch die Herausforderungen, die ressourcenintensive Abfragemethoden mit sich bringen.
Mit AoT können Sprachmodelle mehrstufige Schlussfolgerungen ziehen und anspruchsvolle Probleme lösen, was neue Möglichkeiten für KI-gestützte Anwendungen eröffnet.