OpenAI avslutade 2024 med att lansera sin nästa generations artificiella intelligensmodell, ChatGPT o3, och säger att den är ett steg framåt för AI.
Genom att bygga vidare på sina föregångares grunder lovar OpenAI förbättringar inom resonemang och problemlösning, vilket har väckt debatt om hur nära vi är att uppnå artificiell generell intelligens (AGI).
Den nya modellen har definitivt stärkt självförtroendet inom OpenAI. Som VD Sam Altman sa i början av januari 2025: “Vi är nu övertygade om att vi vet hur man bygger AGI.”
ChatGPT o3 är fortfarande i tidig åtkomstfas, men de prestandatester som hittills har avslöjats är utan tvekan imponerande.
Techopedia undersöker vad o3 tillför AI-världen och frågar experter om deras åsikter om den nya modellen.
Viktiga insikter om nya modellen ChatGPT o3
- OpenAI tillkännager utvecklingen och den tidiga lanseringen av ChatGPT o3 och o3-mini.
- o3 visar imponerande prestanda inom visuellt resonemang, programmering och matematiska uppgifter.
- Modellen fick även 87,5% på ARC-AGI-testet – ett riktmärke för att testa generell intelligens.
- Enligt Codeforces är o3 också ”bland de 200 bästa mänskliga programmerarna”.
- Experter menar att o3 kommer att förändra vad AI kan göra – men kritiker hävdar att ARC-AGI inte är ett mått på AGI.
- Visa fullständig lista
Allt vi vet om o3 i nuläget
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI) December 20, 2024
OpenAI:s toppmodell o3 är AI-startupens uppföljning av o1. Den sägs inkludera “chain of thought reasoning”, vilket gör det möjligt för modellen att tänka innan den svarar. Kort sagt bryter den ner sitt resonemang i flera steg för att lösa komplexa problem.
Modellen erbjuder även ett API för ‘anpassad tänketid’, vilket låter användare växla mellan olika resonemangsmodeller (låg, medel och hög) för att justera modellens hastighet och noggrannhet i olika scenarier.
En av o3:s främsta styrkor hittills har varit dess prestanda på ARC-AGI-riktmärket, som testar visuella resonemangsförmågor genom att kräva att modellen löser abstrakta pussel.
o3, som är tränad på det offentliga träningsdatabasen ARC-AGI-1, uppnådde en poäng på 75,7% inom en beräkningsbudget på 10 000 $. Dessutom nådde en högprestandaversion 87,5%. Som jämförelse fann en studie vid NYU att genomsnittlig mänsklig prestation på ARC-uppgifter låg mellan 73,3% och 77,2%.
Thomas Randall, forskningschef vid Info-Tech Research Group, sa till Techopedia:
“Den ökade eftertanken och tiden som används för att faktagranska resultaten är värd att hylla. o3-modellfamiljen kan ha en viss fördröjning medan den bearbetar information, men tillförlitligheten i resultatet är mycket förbättrad.”
Trots o3:s starka prestanda pekar Randall på vissa begränsningar, särskilt kostnaden.
“Det är till den grad att OpenAI hävdar att o3-modellerna kan uppfylla den ‘konventionella förståelsen’ av AGI-riktmärket. Men kostnaden för att uppnå detta är för närvarande inte ekonomiskt hållbar – inställningen för hög prestanda kostar tusentals dollar per uppgift.”
Denna kostnad kan avskräcka vissa när ChatGPT o3:s lanseringsdatum närmar sig, men för avancerade användare eller företag kan priset vara värt det.
Vad är o3 bra på?
Baserat på tillgänglig information utmärker sig o3 inom matematik och programmeringsuppgifter. Tidigare har många kritiserat ChatGPT för att ha svårt med matematik.
Användningen av “chain-of-thought reasoning” och andra tekniker bidrar dock till att förbättra prestandan på dessa typer av uppgifter och visar en förmåga att förstå abstrakta matematiska koncept.
Inom programmering uppnådde o3 en poäng på 2 727 i Codeforces system för tävlingsprogrammering. Detta placerar o3 bland de 200 bästa mänskliga programmerarna vid tiden för denna analys i januari 2025. Som jämförelse fick o1 en poäng på 1 891 i samma test.
På matematiska riktmärken fick o3-modellen 96,7% i tävlingsmatematik (AIME 2024) och 87,7% på vetenskapliga frågor på doktorsnivå (GPQA Diamond Score). o1 fick 83,3% respektive 78,0% på dessa uppgifter.
o3:s prestanda på dessa matematik- och programmeringsriktmärken indikerar en anmärkningsvärd förbättring jämfört med föregående generationsmodell, vilket har höjt problemlösnings- och programmeringskompetensen på alla nivåer.
The newest o3 model from @OpenAI just hit a 2727 Codeforces rating, which puts it on par with the 183rd best human competitor worldwide.
You’re already behind if you’re a software engineer and haven’t started using AI yet. pic.twitter.com/rTQ8Fmnn56
— NashQ 🦣 (@NashQueue) January 3, 2025
Open AI Nyckelprestandamått
Referensvärde | o1 | o3 |
---|---|---|
ARC-AGI | 13,33% | 75,7% och 87,5% (högpresterande version) |
Programvaruteknik (SWE-bench verifierad) | 48,9% noggrannhet | 71,7% noggrannhet |
Tävlingsprogrammering (Codeforces) | 1891 | 2727 |
Tävlingsmatematik (AIME 2024) | 83,3% noggrannhet | 96,7% noggrannhet |
Vetenskapsfrågor på doktorsnivå (GPQA Diamond) | 78,0 % noggrannhet | 87,0 % noggrannhet |
Kan o3 anses vara AGI?
Sedan nyheterna om o3 släpptes har det pågått en debatt om huruvida modellen representerar en betydande milstolpe på vägen mot AGI.
Med tanke på att o3:s programmeringspoäng placerar modellen bland de 200 bästa programmerarna är det lätt att dras med i hypen att denna modell skulle kunna ta över mjukvaruingenjörernas jobb.
Kritiker som Gary Marcus har dock påpekat att o3 inte tog testet blint. Modellen tränades på ARC-AGI-riktmärket, så det är osannolikt att den skulle ha uppnått så höga poäng om den inte hade varit förtränad på testkriterierna. Detta innebär att vi måste ta testresultaten med en nypa salt.
Det sagt, Chollet, skaparen av ARC-AGI, kallade o3:s poäng ett “genombrott”, vilket “representerar ett betydande framsteg i AI:s förmåga att anpassa sig till nya uppgifter”, även om han erkände att den icke-tränade modellen på ARC inte har testats ännu.
Chollet klargjorde också att ARC-AGI inte är ett “surt test” för AGI och sade: “o3 misslyckas fortfarande med några mycket enkla uppgifter, vilket indikerar grundläggande skillnader från mänsklig intelligens.”
Med tanke på dessa faktorer har vi fortfarande en lång väg kvar till AGI, även om o3 verkar vara en extremt lovande deltagare på marknaden för generativ AI.
Första intryck: Expertreaktioner på o3 hittills
Även om o3 inte har släppts officiellt, har det inte hindrat teknik- och AI-experter från att spekulera om vad det betyder för framtiden.
Mike Knoop, medgrundare av Zapier, är mycket optimistisk om o3-modellen och skrev på X:
“o3 är verkligen speciell och alla kommer att behöva uppdatera sin intuition om vad AI kan/inte kan göra. Även om detta fortfarande är tidiga dagar, visar detta system en genuin ökning i intelligens, vilket bekräftas av ARC-AGI.”
Itamar Golan, VD och medgrundare av Prompt Security, publicerade ett inlägg där han spekulerade att o3 hade ett IQ på 157 baserat på dess Codeforces-betyg, vilket skulle göra det “smartare” än 99,25% av människor (även om det är något vi bör vara försiktiga med när vi använder IQ som mått på LLM:s kapabiliteter — människor och maskiner är inte samma sak).
Andra användare tror att o3 kommer att påverka anställningsmöjligheterna för nyutexaminerade programmerare negativt.
En användare, känd som Lisan al Gaib, skrev: “CS-examensstudenter kan ärligt talat vara körda”, som svar på o3:s höga Codeforces-betyg som placerar modellen “i 95,95:e percentilen av konkurrensprogrammerare.”
Hur ser framtiden ut för o3?
Baserat på vad vi har sett hittills verkar det som att o3 kommer att bli OpenAI-modellen som sätter en ny och mer robust metod för resonemang, ett område där LLM:s som GPT-4 har haft brister tidigare.
Användningen av kedje-tänkande resonemang över o1 och o3 lägger grunden för en ny och mer pålitlig generation av stora språkmodeller (LLM:s) som kan “tänka” innan de svarar. Sådana metoder kommer oundvikligen att minska problemet med hallucinationer, men det är fortfarande oklart om de kan eliminera dem helt.
Med tanke på o3:s prestanda på Codeforces verkar det som att vi kommer att se LLM:s spela en mycket större roll i mjukvaruutveckling, genom att hjälpa ingenjörer att generera kod eller identifiera buggar och prestandaproblem i mycket snabbare takt.
Trots betydande förbättringar verkar o3 vara mer ett komplementärt verktyg för programmerare att förstärka sina problemlösningsförmågor än en ersättning.
Sammanfattning om nya ChatGPT o3
o3 visar några imponerande kapabiliteter, men det ser inte ut som om AGI kommer att vara här inom en snar framtid. I vilket fall som helst visar OpenAIs förmåga att skapa hype kring sina släpp varför det är den största AI-startupen i världen just nu.
o3:s prestanda inom matematik och kodning visar att AI kommer att påverka dessa områden kraftigt i framtiden på ett sätt som få företag har råd att ignorera.
Vanliga frågor om potentialen hos ChatGPT 03
Vad är ChatGPT O3?
När kommer ChatGPT O3 att bli tillgänglig?
Hur får man tillgång till ChatGPT O3?
Vad gör O3 annorlunda från O1?
Är ChatGPT O3 nära AGI?
Hur påverkar O3 mjukvaruutveckling?
Referenser
- OpenAI on X (X)
- H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark (Arxiv)
- Rating – Codeforces (Codeforces)
- NashQ 🦣 on X (X)
- o3 “ARC AGI” postmortem megathread: why things got heated, what went wrong, and what it all means (Gary Marcus)
- OpenAI o3 Breakthrough High Score on ARC-AGI-Pub (Arcprize)
- Mike Knoop on X: (X)
- Itamar Golan 🤓 on X (X)
- Lisan al Gaib on X (X)