De afgelopen jaren is er een gezamenlijke inspanning geweest om taalmodellen op te schalen naar wat we nu Large Language Models (LLM’s) noemen, wat inhoudt dat grotere modellen worden getraind op uitgebreidere datasets met een grotere rekenkracht, wat resulteert in consistente en verwachte verbeteringen in hun tekstgeneratiemogelijkheden.
Naarmate LLM’s blijven groeien, bereiken ze een punt waarop ze nieuwe mogelijkheden ontsluiten, een fenomeen dat bekendstaat als in-context learning of prompt-based learning.
Deze nieuw ontdekte vaardigheden ontwikkelen zich op natuurlijke wijze zonder specifieke training, waardoor LLM’s taken kunnen uitvoeren zoals rekenen, vragen beantwoorden en tekst samenvatten, allemaal verworven door blootstelling aan natuurlijke taal.
Deze opwinding heeft onlangs een nieuwe dimensie gekregen toen onderzoekers van Google DeepMind LLM’s hebben getransformeerd tot krachtige optimalisatietools met behulp van hun prompting-techniek, bekend als Optimization by PROmpting (OPRO).
In-context of Prompt-based Learning: een emergent gedrag van LLM’s
Emergent gedrag beschrijft hoe een systeem zijn gedrag drastisch kan veranderen wanneer er kleine aanpassingen in worden gemaakt, vooral als het een specifieke drempel bereikt.
Een goed voorbeeld van emergent gedrag is te zien in water. Naarmate de temperatuur daalt, verandert het gedrag van water geleidelijk. Maar er is een kritiek punt waarop er iets opmerkelijks gebeurt. Bij deze specifieke temperatuur ondergaat water een snelle en significante transformatie, waarbij het overgaat van een vloeibare toestand naar ijs, net als het omzetten van een schakelaar.
Emergent gedrag is niet beperkt tot specifieke vakgebieden, maar over verschillende domeinen zoals natuurkunde, biologie, economie en systemen. In de context van LLM’s betekent dit echter dat LLM’s na een bepaalde fase in hun opleiding lijken over te gaan naar een nieuwe modus waarin ze complexe problemen effectief kunnen aanpakken zonder expliciete training.
Dit opmerkelijke gedrag wordt meestal geïnitieerd en geleid met behulp van prompts, wat natuurlijke taalinstructies zijn die aan de LLM’s worden verstrekt. Omdat de kwaliteit van LLM-reacties nauw verbonden is met de kwaliteit van de prompt, is het opstellen van effectieve prompts uitgegroeid tot een cruciaal element van LLM-gebruik.
Chain-of-Thought is bijvoorbeeld een prompttechniek die is ontwikkeld om het model in staat te stellen complexe problemen op te splitsen in subproblemen en deze aan elkaar te koppelen om problemen op te lossen op een manier waarop we wiskundige en redeneerproblemen oplossen. Dit gedrag wordt bereikt door zowel de tussenliggende redeneerstappen als de uiteindelijke oplossing als prompt te bieden om LLM’s te begeleiden bij het uitvoeren van deze taken.
Om de LLM bijvoorbeeld in staat te stellen om taken met gezond verstand op te lossen, zoals “Ik ga wandelen en moet water inpakken. Hoeveel flessen water van 16 ounce moet ik meenemen voor een wandeling van 10 mijl?”, kunnen we het model prompten als “Een algemene richtlijn is om ongeveer 0,5-1 liter (17-34 ounce) water per uur wandelen te drinken. Voor een wandeling van 16 kilometer heb je minimaal 1 à 2 flessen nodig, dus twee flessen van elk 473 ml zouden voldoende moeten zijn.”
Evolutie van LLM’s tot krachtige optimizers
Hedendaags AI-onderzoek is getuige van een groeiende interesse in het ontwikkelen van innovatieve technieken om LLM’s effectief te stimuleren, waarbij hun opkomende capaciteiten worden benut om probleemoplossende taken aan te pakken.
In deze context hebben onderzoekers bij Google DeepMind onlangs een belangrijke doorbraak bereikt met een nieuwe aansporingstechniek die bekendstaat als “Optimization by PROmpting” (OPRO), die LLM’s kan aanzetten om optimalisatieproblemen op te lossen. Deze opkomende optimalisatiemogelijkheid voegt een nieuwe laag van bruikbaarheid toe aan deze LLM’s, waardoor ze waardevolle probleemoplossende hulpmiddelen worden in verschillende domeinen.
Overweeg de mogelijkheden. U kunt een complex technisch probleem in gewoon Engels presenteren in plaats van het probleem formeel te definiëren en de update stap af te leiden met een geprogrammeerde solver. Het taalmodel kan de complexiteit begrijpen en geoptimaliseerde oplossingen voorstellen. Op dezelfde manier kan financiële analyse helpen bij portefeuille-optimalisatie of risicobeheer. De toepassingen bestrijken een breed spectrum, van supply chain management en logistiek tot wetenschappelijk onderzoek en creatieve vakgebieden zoals kunst en design.
Hoe werkt OPRO?
Kort gezegd gebruikt OPRO de kracht van taalmodellen om problemen op te lossen door oplossingen te genereren en te evalueren, terwijl het tegelijkertijd gewone taal begrijpt en leert van wat het eerder heeft gedaan. Het is alsof je een slimme assistent hebt die steeds beter wordt in het vinden van oplossingen naarmate het vordert. Een essentieel onderdeel van dit proces is meta-prompt, dat uit twee belangrijke onderdelen bestaat:
• Ten eerste legt het het probleem in woorden uit, inclusief wat we proberen te bereiken en eventuele regels die we moeten volgen. Als we bijvoorbeeld de nauwkeurigheid van een taak proberen te verbeteren, kunnen de instructies zeggen “bedenk een nieuwe manier om de taak nauwkeuriger te maken.”
• Ten tweede bevat het een lijst met oplossingen die de LLM eerder heeft geprobeerd en hoe goed ze waren. Deze lijst helpt de LLM patronen in de antwoorden te herkennen en voort te bouwen op de antwoorden die veelbelovend lijken.
Tijdens elke stap van het optimalisatieproces komt de LLM met mogelijke oplossingen voor de optimalisatietaak. Dit doet het door zowel de probleembeschrijving als de oplossingen die het eerder heeft gezien en geëvalueerd te overwegen, die zijn opgeslagen in de meta-prompt.
Zodra het deze nieuwe oplossingen genereert, worden ze zorgvuldig onderzocht om te zien hoe goed ze zijn in het oplossen van het probleem. Ze worden toegevoegd aan de meta-prompt als ze beter presteren dan de eerder bekende oplossingen. Dit wordt een cyclus waarin de LLM zijn oplossingen blijft verbeteren op basis van zijn leerproces.
Om het idee te begrijpen, moet u de taak overwegen om een financiële portefeuille te optimaliseren. Een “optimizer LLM” wordt voorzien van een meta-prompt met beleggingsparameters en voorbeelden met tijdelijke aanduidingen voor optimalisatieprompts. Het genereert diverse portefeuilletoewijzingen. Deze portefeuilles worden geëvalueerd door een “performance analyzer LLM” op basis van rendementen, risico en andere financiële statistieken. De prompts voor de best presterende portefeuilles en hun prestatiestatistieken worden geïntegreerd in de oorspronkelijke meta-prompt. Deze verfijnde meta-prompt wordt vervolgens gebruikt om de initiële portefeuille te verbeteren en de cyclus herhaalt zich om beleggingsresultaten te optimaliseren.
Conclusie
Vooruitgangen zoals OPRO zijn een paradox: ze zijn fascinerend in hun grenzeloze potentieel om onze horizon te verbreden en verontrustend omdat ze een tijdperk inluiden waarin AI autonoom ingewikkelde processen kan creëren, inclusief optimalisatie, waardoor de grenzen tussen menselijke controle en creatie vervagen.
Niettemin vestigt het vermogen om Large Language Models (LLM’s) om te zetten in krachtige optimalisatoren OPRO als een robuuste en veelzijdige benadering van probleemoplossing. Het potentieel van OPRO omvat engineering, financiën, supply chain management en meer, en biedt efficiënte, innovatieve oplossingen. Het markeert een belangrijke stap in de evolutie van AI, waardoor LLM’s continu kunnen leren en verbeteren en nieuwe mogelijkheden voor probleemoplossing worden geopend.
Referenties
- Large Language Models as Optimizers – (Arxiv)