Wat is Grok?
Grok is een kunstmatige intelligentie (AI) chatbot en onderzoeksassistent, ontwikkeld door xAI van Elon Musk. De chatbot is ontworpen om met humor en sarcasme te reageren op tekstaanvragen van gebruikers.
De chatbot is geïnspireerd op de sciencefictionkomedie The Hitchhiker’s Guide to the Galaxy en wordt aangedreven door Grok-1, het grensverleggende large language model (LLM) van xAI. Het heeft ook toegang tot realtime gegevens van berichten op X (voorheen bekend als Twitter).
Zoals xAI opmerkt in de aangekondigde blogpost, is Grok “bedoeld om bijna alles te beantwoorden” en is “ontworpen om vragen te beantwoorden met een beetje humor.” In het bericht wordt opgemerkt dat de oplossing ook bedoeld is om gebruikers te helpen toegang te krijgen tot informatie, gegevens te verwerken en nieuwe ideeën te ontdekken.
The @xAI Grok AI assistant will be provided as part of 𝕏 Premium+, so I recommend signing up for that.
Just $16/month via web. https://t.co/wEEIZNjEkp
— Elon Musk (@elonmusk) November 4, 2023
De organisatie bevestigde ook dat Grok beschikbaar zou zijn voor een beperkte groep gebruikers in de VS voordat het op grotere schaal zou worden uitgebracht. Op 22 november 2023 plaatste Musk op X dat Grok de week erna beschikbaar zou zijn voor alle Premium+ abonnees.
Grok AI vs. ChatGPT, andere AI-assistenten
In dit stadium van ontwikkeling is het belangrijkste verschil tussen Grok en andere AI-assistenten zoals ChatGPT en Claude 2 dat het verbonden is met realtime gegevens van het sociale mediaplatform X. De aard van deze trainingsgegevens is niet openbaar gemaakt.
Hoewel de aard van deze trainingsgegevens niet publiekelijk bekend zijn gemaakt, zou de toegang tot de grote hoeveelheid conversatie-inhoud op X en mogelijk ook tot enkele van de eigen gegevens van de verkoper achter de schermen de chatbot tot een belangrijke speler op de markt kunnen maken.
Daarnaast is Grok’s nadruk op humor en gevatheid ook een belangrijk punt van differentiatie ten opzichte van concurrenten zoals GPT-4 en Claude 2. Deze hebben zich gericht op interactie met gebruikers op een conversationele, maar terughoudende manier. Zo minimaliseren ze schadelijke output. Zoals Musk uitlegde in een post op X, is Grok “gebaseerd op & houdt van sarcasme.”
xAI’s Grok system is designed to have a little humor in its responses pic.twitter.com/WqXxlwI6ef
— Elon Musk (@elonmusk) November 4, 2023
Als gevolg hiervan heeft de speelse benadering van Grok het potentieel om gebruikers te vermaken met geestige reacties op een manier die de luchthartige aard van alledaagse menselijke interactie nabootst.
Hoe presteert Grok ten opzichte van andere LLM’s?
Na slechts twee maanden training heeft xAI al gemeld dat de Grok-1 LLM goed heeft gepresteerd op belangrijke AI-benchmarks zoals Human Eval en MMLU, met scores van respectievelijk 63,2% en 73%.
Deze scores overtroffen zowel OpenAI’s GPT-3.5 als Meta’s Llama 2 70B op beide benchmarks. Ter referentie, GPT-3.5 scoorde 48,1% op Human Eval en 70% op MMLU, terwijl Llama 2 70B 29,9% en 68,9% scoorde.
xAI rapporteert ook dat Grok goed presteerde op een andere prestatietaak die testte hoe Grok, Claude 2 en GPT-4 presteerden op het Hongaarse nationale wiskunde-examen van mei 2023. In deze oefening behaalde Grok-1 een C-cijfer met 59%, Claude 2 behaalde een C-cijfer met 55% en GPT-4 behaalde een B-cijfer met 68%.
Hoewel Grok niet het niveau haalt van GPT-4, is het feit dat het op bepaalde taken kan concurreren met LLM’s zoals GPT-3.5, Claude 2 en Llama 2 70B indrukwekkend als je bedenkt dat het pas vier maanden in ontwikkeling is.
Het gebruikt ook maar een fractie van de trainingsgegevens en rekenkracht van LLM’s zoals GPT-4 en Llama 2 70B. Hoewel het onduidelijk is hoeveel parameters Grok-1 heeft, had Grok-0 naar verluidt 33 miljard parameters.
Ter vergelijking: LLama 2 heeft er 70 miljard.
Onderzoeksteam achter Grok
xAI is gelanceerd in maart 2023. Het team bestaat uit ervaren AI-onderzoekers die eerder hebben gewerkt bij organisaties en instellingen, waaronder OpenAI, DeepMind, Google Research en de Universiteit van Toronto.
Hiertoe behoren Ibor Babuschkin, Manual Kroiss, Yuhuai Wu, Christian Szegedy, Jimmy Ba, Toby Pohlen, Ross Nordeen, Kyle Kosic, Greg Yang, Guodong Zhang, Zihang Dai, Xiao Sun, Fabio Aguilera-Convers, Ting Chen en Szymon Tworkowski.
De onderzoekers van het bedrijf hebben bijgedragen aan een breed scala aan innovaties in de ruimte, waaronder GPT-4, GPT- 3.5, AlphaStar, AlphaCode, Inception, Minerva, de Adam optimizer, batch normalisatie, layer normalisatie, Transformer-XL, autoformalisatie en batch size scaling.
Over het geheel genomen suggereert het zeer ervaren team van onderzoekers achter Grok dat xAI de potentie heeft om een belangrijke leverancier te worden in de generatieve AI-markt.
Het potentieel voor schadelijke output
Als een LLM-gestuurde chatbot heeft Grok te maken met dezelfde uitdagingen als alle andere taalmodellen, in die zin dat het kan worden gevraagd of gekraakt om schadelijke, discriminerende of illegale inhoud te produceren.
Het is echter onduidelijk of Grok’s nadruk op het geven van humoristische en geestige antwoorden op gebruikersvragen het risico op het creëren van inhoud die sommige gebruikers beledigend kunnen vinden zal vergroten.
Zoals xAI opmerkt, heeft Grok een “rebelse inslag” en beantwoordt hij vragen die door andere AI-systemen worden afgewezen, wat betekent dat er mogelijk meer mogelijkheden zijn om aanstootgevende inhoud te genereren.
Andere uitdagingen: Vooringenomenheid van X
Een andere potentiële risicofactor is het gebruik van realtime gegevens van X. In het verleden kreeg X, toen het nog Twitter heette, veel kritiek te verduren over de verspreiding van toxiciteit en verkeerde informatie over het platform.
Pew Research ontdekte bijvoorbeeld dat 17% van de gebruikers te maken heeft gehad met intimiderend of beledigend gedrag op het platform, en 33% heeft veel onjuiste of misleidende informatie gezien.
Dit betekent dat er een risico bestaat dat een deel van de schadelijkheid en verkeerde informatie op het platform kan lekken naar de trainingsgegevens van Grok en schadelijke vooroordelen en reacties kan creëren. Dit betekent dat er een aanzienlijke hoeveelheid content moderatie nodig is om te voorkomen dat schadelijke of onjuiste content in de outputs terechtkomt.
Tot nu toe lijkt xAI te werken om het risico op schadelijke output te minimaliseren. Het bedrijf benadrukte in zijn blogpost dat het team “geïnteresseerd is in het verbeteren van de robuustheid van LLM’s” en “ons uiterste best doet om ervoor te zorgen dat AI een kracht voor het goede blijft”. Het wordt actief geadviseerd door Dan Hendrycks, de directeur van het Center for AI Safety.