In der jüngsten Zeit wurden große Anstrengungen zur Erweiterung von Sprachmodellen zu sogenannten Large Language Models (LLMs) unternommen.
Dabei werden größere Modelle auf umfangreicheren Datensätzen mit höherer Rechenleistung trainiert, was im Ergebnis konsistente und erwartete Verbesserungen ihrer Textgenerierungsfähigkeiten mit sich bringt.
Je weiter LLMs wachsen, desto mehr neue Fähigkeiten kommen dazu – ein Phänomen, das als kontextbezogenes Lernen oder Prompt-basiertes Lernen bekannt ist.
Diese neu entdeckten Möglichkeiten entwickeln sich auf natürliche Weise ohne spezielles Training und ermöglichen es LLMs, Aufgaben wie Rechnen, das Beantworten von Fragen und das Zusammenfassen von Texten auszuführen, die alle durch den Kontakt mit natürlicher Sprache erworben wurden.
Kürzlich hat diese Begeisterung eine neue Dimension angenommen, als Forscher von Google DeepMind LLMs mit ihrer Prompting-Technik, bekannt als Optimization by PROmpting (OPRO), in leistungsstarke Optimierungswerkzeuge verwandelt haben.
Kontext- oder Prompt-basiertes Lernen: emergentes Verhalten von LLMs
Ein emergentes Verhalten bedeutet, dass ein System sein Verhalten bei kleinen Anpassungen drastisch verändern kann, insbesondere wenn es einen bestimmten Schwellenwert erreicht.
Ein Paradebeispiel für emergentes Verhalten ist Wasser. Wenn die Temperatur sinkt, ändert sich das Verhalten des Wassers allmählich.
Es gibt jedoch einen kritischen Punkt, an dem etwas Bemerkenswertes passiert. Bei dieser bestimmten Temperatur durchläuft das Wasser eine rasche und signifikante Umwandlung und geht vom flüssigen Zustand in Eis über, ähnlich dem Umlegen eines Schalters.
Emergentes Verhalten ist nicht auf gewisse Bereiche beschränkt, sondern erstreckt sich auf verschiedene Gebiete wie Physik, Biologie, Wirtschaft und Systeme.
Im Zusammenhang mit LLMs bedeutet dies jedoch, dass sie nach einer bestimmten Phase ihres Trainings in einen neuen Modus überzugehen scheinen, in dem sie komplexe Probleme ohne explizites Training effektiv angehen können.
Dieses bemerkenswerte Verhalten wird in der Regel durch Prompts, d. h. Anweisungen in natürlicher Sprache, die LLMs zur Verfügung gestellt werden, eingeleitet und gesteuert.
Da die Qualität der LLM-Antworten eng mit der Qualität des Prompts verbunden ist, hat sich die Erstellung effektiver Prompts zu einem zentralen Element des LLM-Einsatzes entwickelt.
So bietet z. B. die Chain-of-Thought-Technik die Möglichkeit, komplexe Probleme in Teilaufgaben zu zerlegen und diese miteinander zur Lösungsfindung zu verknüpfen, so wie es bei mathematischen und logischen Prozessen der Fall ist.
Dieses Verhalten wird dadurch erreicht, dass sowohl die Zwischenschritte des Denkens als auch die endgültige Lösung als Prompt zur Verfügung gestellt werden, um LLMs zur Bewältigung dieser Aufgaben anzuleiten.
Damit das LLM logische Aufgaben lösen kann, wie z. B. „Ich gehe wandern und muss Wasser einpacken. Wie viele Wasserflaschen soll ich für eine 10-Meilen-Wanderung mitnehmen?“, könnte man dem Modell sagen: „Ein allgemeiner Richtwert ist, dass man etwa 0,5–1 Liter (17–34 oz) Wasser pro Stunde Wanderung trinken sollte. Für eine 10-Meilen-Wanderung benötigt man mindestens 1 bis 2 Flaschen, so dass zwei Flaschen mit je 16 oz ausreichend sein sollten.“
Entwicklung von LLMs zu leistungsfähigen Optimierern
In der aktuellen KI-Forschung wächst das Interesse an der Entwicklung innovativer Techniken, um LLMs effektiv anzuspornen und ihre neu entstehenden Fähigkeiten zur Lösung von Problemstellungen zu nutzen.
In diesem Zusammenhang haben die Wissenschaftler von Google DeepMind vor kurzem einen bedeutenden Durchbruch mit einer neuen Prompting-Technik erzielt, die als Optimization by PROmpting (OPRO) bekannt ist.
Sie kann LLMs zur Lösung von Optimierungsproblemen auffordern. Diese aufkommende Fähigkeit erweitert den Nutzen der LLMs und macht sie zu wertvollen Problemlösungstools in verschiedenen Bereichen.
Denken Sie über die Möglichkeiten nach. Ein komplexes technisches Problem kann in einfacher Sprache dargestellt werden, anstatt es formal zu definieren und den Aktualisierungsschritt mit einem programmierten Solver abzuleiten.
Das Sprachmodell kann die Feinheiten erfassen und optimierte Lösungen vorschlagen.
In ähnlicher Weise kann die Finanzanalyse bei der Portfolio-Optimierung oder dem Risikomanagement helfen.
Die Anwendungen umfassen ein breites Spektrum, vom Lieferkettenmanagement und der Logistik über die wissenschaftliche Forschung bis hin zu kreativen Bereichen wie Kunst und Design.
Wie funktioniert OPRO?
In einem Satz: OPRO nutzt die Leistungsfähigkeit von Sprachmodellen bei der Lösung von Problemen, indem es entsprechende Vorschläge generiert und auswertet, während es gleichzeitig reguläre Sprache versteht und daraus lernt.
Es ist, als hätte man einen cleveren Assistenten, der immer bessere Lösungen findet, je weiter man geht.
Ein wesentlicher Bestandteil dieses Prozesses ist der Meta-Prompt, der zwei Hauptkomponente umfasst:
• Zunächst wird das Problem in Worten erklärt, einschließlich dessen, was erreicht werden soll, und aller Regeln, die befolgt werden müssen. Wenn man zum Beispiel versucht, die Genauigkeit einer Aufgabe zu verbessern, könnten die Anweisungen lauten: „Finde einen neuen Weg, um die Aufgabe sorgfältiger zu erledigen.“
• Zweitens wird eine Liste von Lösungen erstellt. Sie zeigt, welche davon das LLM bereits untersucht hat und ob sie gut waren. Diese Liste hilft dem LLM, Muster in den Antworten zu erkennen und auf denjenigen aufzubauen, die vielversprechend erscheinen.
In jedem Schritt des Optimierungsprozesses schlägt das LLM potenzielle Lösungen für die Optimierungsaufgabe vor. Dabei berücksichtigt es sowohl die Problembeschreibung als auch die Lösungen, die es zuvor gesehen und bewertet hat und die im Meta-Prompt gespeichert sind.
Sobald diese neuen Lösungen generiert sind, werden sie sorgfältig daraufhin untersucht, wie geeignet sie für die Lösung des Problems sind. Sie werden dem Meta-Prompt hinzugefügt, wenn sie besser sind als die zuvor bekannten Möglichkeiten.
Dies wird zu einem Zyklus, in dem das LLM seine Lösungen auf der Grundlage seiner Erkenntnisse ständig verbessert.
Zum besseren Verständnis des Konzepts wird die Optimierung eines Finanzportfolios als Aufgabe gestellt.
Ein „Optimizer LLM“ wird mit einem Meta-Prompt versehen, der Investitionsparameter und Beispiele mit Platzhaltern für Optimierungsprompts enthält.
Es erzeugt verschiedene Portfolioallokationen. Diese Portfolios werden von einem „Performance Analyzer LLM“ auf der Grundlage von Renditen, Risiken und anderen Finanzmetriken bewertet.
Die Prompts für die leistungsstärksten Portfolios und ihre Performance-Metriken werden in den ursprünglichen Meta-Prompt integriert.
Dieser verfeinerte Meta-Prompt wird dann zur Verbesserung des ursprünglichen Portfolios verwendet. Der Vorgang wiederholt sich dann zur Optimierung der Investmentergebnisse.
Fazit
Innovationen wie OPRO sind ein Paradoxon – faszinierend angesichts ihres grenzenlosen Potenzials, den Horizont zu erweitern, und beunruhigend, da sie eine Ära einläuten, in der KI autonom komplizierte Prozesse, einschließlich der Optimierung, durchführen kann, wodurch die Grenzen zwischen menschlicher Kontrolle und Schöpfung verschwimmen.
Die Fähigkeit, Large Language Models (LLMs) in leistungsstarke Optimierer zu verwandeln, macht OPRO zu einem robusten und vielseitigen Problemlösungsansatz.
Die Möglichkeiten von OPRO erstrecken sich auf die Bereiche Technik, Finanzen, Lieferkettenmanagement und mehr und bieten effiziente, zukunftsweisende Lösungen.
Es stellt einen bedeutenden Schritt in der Entwicklung der KI dar: LLM können kontinuierlich lernen und sich verbessern, was neue Wege zur Problemlösung eröffnet.