Waarom de LLM “wapenwedloop” multimodaal gaat

Betrouwbaarheid

Het afgelopen jaar is multimodaliteit – de mogelijkheid om input in meerdere formaten in te voeren, zoals tekst, beeld en stem – naar voren gekomen als een competitieve noodzaak in de Large Language Model (LLM) markt.

Een aantal maanden geleden kondigde Google de release aan van Assistant with Bard, een generatieve AI-gestuurde persoonlijke assistent die wordt geleverd met Google Assistant en Bard samen, waarmee gebruikers persoonlijke taken kunnen beheren via tekst-, spraak- en beeldinvoer.

Dit kwam slechts een week nadat OpenAI de release van GPT-4V heeft aangekondigd, waardoor gebruikers beeldinvoer in ChatGPT kunnen invoeren. Het komt ook in dezelfde week waarin Microsoft bevestigde dat Bing Chat-gebruikers toegang zouden hebben tot de populaire tool voor het genereren van afbeeldingen DALL-E 3.

Deze nieuwste releases van OpenAI, Google en Microsoft benadrukken dat multimodaliteit een cruciaal onderdeel is geworden voor de volgende generatie LLM’s en door LLM aangedreven producten.

Het trainen van LLM’s op het gebied van multimodale input zal onvermijdelijk de deur openen naar een reeks nieuwe gebruiksscenario’s die niet beschikbaar waren met tekst-naar-tekst-interacties.

Het Multimodale LLM-tijdperk

Hoewel het idee om AI-systemen te trainen op multimodale inputs niet nieuw is, is 2023 een cruciaal jaar geweest voor het definiëren van het soort ervaring dat generatieve AI-chatbots in de toekomst zullen bieden.

Eind 2022 werd het mainstream bewustzijn van generatieve AI-chatbots grotendeels bepaald door de nieuw uitgebrachte ChatGPT, die gebruikers een uitgebreide, op tekst gebaseerde virtuele assistent voorzag waarmee ze vragen konden stellen, vergelijkbaar met Google Zoeken (hoewel de oplossing niet was verbonden met internet in dit stadium).

Het is vermeldenswaard dat tekst-naar-afbeelding LLM’s zoals DALL-E 2 en Midjourney eerder in 2022 werden uitgebracht, en dat het nut van deze tools beperkt bleef tot het maken van afbeeldingen in plaats van gebruikers en kenniswerkers te voorzien van een conversatiebron op de manier waarop dat ChatGPT deed.

Het was in 2023 dat de grens tussen tekstgerichte generatieve AI-chatbots en tekst-naar-afbeelding-tools begon te vervagen. Dit was een geleidelijk proces, maar kan naar voren komen nadat Google Bard in maart 2023 uitbracht en gebruikers vervolgens slechts twee maanden later op Google I/O 2023 de mogelijkheid gaf om afbeeldingen als invoer in te voeren.

Op datzelfde evenement merkte Sundar Pichai, CEO van Google, op dat de organisatie Google DeepMind had opgericht, waarbij de Brain- en DeepMind-teams waren samengebracht om te gaan werken aan een multimodaal model van de volgende generatie, genaamd Gemini. Hij rapporteerde dat het team “multimodale mogelijkheden zag die ze niet hadden gezien in eerdere modellen.”

Op dit punt in de LLM-race, terwijl ChatGPT en GPT4 de dominante generatieve AI-tools op de markt bleven, waren Bards ondersteuning voor beeldinvoer en verbinding met online databronnen de belangrijkste onderscheidende factoren tegenover concurrenten als OpenAI en Anthropic.

Microsoft begon in juli ook richting multimodaliteit te evolueren, door ondersteuning voor beeldinvoer toe te voegen aan zijn virtuele assistent Bing Chat, die in februari 2023 werd gelanceerd.

Nu de releases van GPT-4V en Assistant with Bard ondersteuning bieden voor beeldinvoer en, in het geval van laatstgenoemde, spraakinvoer, is het duidelijk dat er een multimodale wapenwedloop gaande is op de markt. Het doel is om een omnichannel-chatbot te ontwikkelen die in staat is om te communiceren met tekst-, beeld- en steminvoer en daar op de juiste manier op te reageren.

Wat multimodale LLM’s betekenen voor gebruikers

De verschuiving van de markt naar multimodale LLM’s heeft een aantal interessante implicaties voor gebruikers, die toegang zullen hebben tot een veel breder scala aan gebruiksscenario’s, waarbij tekst naar afbeeldingen wordt vertaald en omgekeerd.

In een onderzoek van Microsoft-onderzoekers werd bijvoorbeeld geëxperimenteerd met de mogelijkheden van GPT-4V en werd een reeks gebruiksscenario’s gevonden voor computervisie en beeldtaal, waaronder beeldbeschrijving, beeldherkenning, visueel begrip, begrip van scèneteksten, documentredenering, videobegrip en meer.

Een bijzonder interessante mogelijkheid is de mogelijkheid van GPT-4V om ‘interleaved’ beeld-tekstinvoer te beheren.

“Deze modus van gemengde invoer biedt flexibiliteit voor een breed scala aan toepassingen. Het kan bijvoorbeeld de totale betaalde belasting berekenen over meerdere bonnenafbeeldingen”, aldus het rapport.

“Het maakt het ook mogelijk om meerdere invoerafbeeldingen te verwerken en opgevraagde informatie te extraheren. GPT-4V kan ook effectief informatie koppelen aan interleaved beeld-tekstinvoer, zoals het financieren van de bierprijs op het menu, het tellen van het aantal bieren en het terugbetalen van de totale kosten.”

Uitdagingen om te overwinnen

Het is belangrijk op te merken dat hoewel multimodale LLM’s de deur openen voor een reeks gebruiksscenario’s, ze nog steeds kwetsbaar zijn voor dezelfde beperkingen als tekst-naar-tekst LLM’s. Ze hebben bijvoorbeeld nog steeds het potentieel om te hallucineren en op de prompts van gebruikers te reageren met feiten en cijfers die aantoonbaar foutief zijn.

Tegelijkertijd brengt het inschakelen van andere formaten, zoals afbeeldingen, als invoer nieuwe uitdagingen met zich mee. OpenAI heeft stilletjes gewerkt aan het implementeren van vangrails om te voorkomen dat GPT-4V wordt gebruikt om personen te identificeren en CAPTCHA’s te compromitteren.

Uit een onderzoek van de leverancier blijkt ook dat multimodale jailbreaks een belangrijke risicofactor zijn. “Een nieuwe vector voor jailbreaks met beeldinvoer houdt in dat een deel van de logische redenering die nodig is om het model te doorbreken in afbeeldingen wordt geplaatst”, aldus de studie.

“Dit kan gedaan worden in de vorm van screenshots van schriftelijke instructies of zelfs aanwijzingen voor visueel redeneren. Het plaatsen van dergelijke informatie in afbeeldingen maakt het onhaalbaar om op tekst gebaseerde heuristische methoden te gebruiken om naar jailbreaks te zoeken. We moeten vertrouwen op de capaciteiten van het visuele systeem zelf.”

Deze zorgen komen overeen met een ander onderzoek dat eerder dit jaar werd gepubliceerd door onderzoekers van de Universiteit van Princeton, waarin werd gewaarschuwd dat de veelzijdigheid van multimodale LLM’s “een visuele aanvaller een breder scala aan haalbare vijandige doelstellingen biedt”, waardoor het aanvalsoppervlak in wezen wordt vergroot.

Conclusie

Nu de LLM-wapenwedloop multimodaal wordt, is het tijd voor AI-ontwikkelaars en ondernemingen om potentiële gebruiksscenario’s en risico’s van deze technologie te overwegen.

Door de tijd te nemen om de mogelijkheden van deze opkomende oplossingen te bestuderen, kunnen organisaties ervoor zorgen dat ze het maximale uit de adoptie halen en tegelijkertijd de risico’s minimaliseren.

Gerelateerde begrippen

Gerelateerde artikelen

Tim Keary
Editor
Tim Keary
Redacteur

Sinds januari 2017 is Tim Keary een freelance technologieschrijver en verslaggever die zich bezighoudt met bedrijfstechnologie en cyberbeveiliging.