Er ChatGPT o3 bra? Førsteinntrykk av OpenAIs topp AI-modell

Hvorfor oss?

OpenAI rundet av 2024 med å avduke sin neste generasjons modell for kunstig intelligens; ChatGPT o3, og kalte denne for et nytt sprang innen AI.

OpenAI bygger videre på forgjengerne til o3, og lover fremskritt innen resonnering og problemløsning, og har skapt debatt om hvor nær vi er kunstig generell intelligens.

Den nye modellen har i hvert fall skapt selvtillit hos OpenAI. Som administrerende direktør Sam Altman sa i begynnelsen av januar 2025: “Vi er nå sikre på at vi vet hvordan vi skal bygge AGI.”

ChatGPT o3 er fortsatt i en tidlig testfase, men ytelsesmålingene som er avslørt så langt, er imponerende.

Techopedia ser nærere på hva o3 bringer til AI-verdenen og spør eksperter om deres meninger om den nye modellen.

Nøkkelpunkter

  • OpenAI kunngjør utviklingen og tidlig lansering av ChatGP o3 og o3-mini.
  • o3 viser imponerende prestasjoner i visuell resonnering, koding, og matematikkoppgaver.
  • Modellen fikk også 87,5% på ARC-AGI testen – en referanse for testing av generell intelligens.
  • o3 er også “blant de 200 beste menneskelige programmererne”, ifølge Codeforces.
  • Eksperter mener at o3 vil endre hva AI kan gjøre – men kritikere mener at ARC-AGI ikke er et mål på AGI.

OpenAIs pionermodell o3 er AI-oppstartsbedriftens oppfølger til o1. Den har angivelig en tankekjede som gjør den i stand til å tenke før den svarer. Kort sagt, så bryter den ned resonnementet sitt i flere trinn for å løse komplekse problemer.

Modellen kommer også med en “adaptiv tenketid” API, som gjør det mulig for brukere å veksle mellom flere resonneringsmodeller (lav, middels, og høy) for å bestemme nivået på hastighet og nøyaktighet som modellen viser i et gitt scenario.

Et av o3s viktigste salgsargumenter så langt har vært resultatene i ARC-AGI referansen, som tester modellenes evne til visuell resonnering ved å be dem løse abstrakte gåter.

o3, som er trent på det offentlige ARC-AGI-1 treningsdatasettet, oppnådde en poengsum på 75,7 % innenfor beregningsgrensen på $10 000. I tillegg oppnådde en versjon med høy beregningsgrad 87,5%. Som referanse viser en studie fra NYU at den gjennomsnittlige menneskelige ytelsen på ARC-oppgaver varierte fra 73,3% til 77,2%.

Thomas Randall, forskningsleder ved Info-Tech Research Group, sa til Techopedia:

“Den økte bevisstheten og tiden som er brukt på faktasjekking, er prisverdig. o3-modellfamilien kan ha en viss forsinkelse mens den behandler informasjon, men påliteligheten til resultatet er så mye bedre.”

Til tross for o3s positive resultater, fremhever Randall noen begrensninger, særlig når det gjelder kostnader.

“Dette har gått så langt at OpenAI har hevdet at o3-modellene kan oppfylle den “konvensjonelle forståelsen” av AGI-referansen. Men det er foreløpig ikke økonomisk lønnsomt å gjøre det – de høye beregningsinnstillingene koster tusenvis av dollar per oppgave.”

Denne kostnaden kan virke avskrekkende når Chatgpt o3 lanseres, men for avanserte brukere eller bedrifter kan det være verdt prisen.

Hva er o3 god til?

Basert på tilgjengelig informasjon utmerker o3 seg i matematikk og koding. Tidligere har mange kommentatorer kritisert ChatGPT for å slite med matematikk.

Bruken av tankekjede-resonnement og andre teknikker bidrar imidlertid til å forbedre prestasjonene på denne typen oppgaver, og demonstrerer en evne til å forstå abstrakte matematiske begreper.

Innen koding fikk o3 en poengsum på 2727 i Codeforces’ konkurransepregede rangeringssystem for koding. Dette plasserer o3 blant de 200 beste menneskelige programmererne i skrivende stund i januar 2025. Til sammenligning fikk o1 1 891 poeng på den samme testen.

Innen referanseverdier for matematikk fikk o3 96,7% på konkurransematematikk (AIME 2024) og 87,7% på vitenskapelige spørsmål på PHD-nivå (GPQA diamond scored). o1 fikk henholdsvis 83,3% og 78,0% på disse oppgavene.

o3 sine prestasjoner på disse målestokkene for matematikk og koding tyder på en betydelig forbedring siden forrige generasjons modell, som har forbedret problemløsnings- og kodingskompetansen over hele linjen.

OpenAI o3 – prestasjonsmålinger

Målestokk o1 o3
ARC-AGI 13,33% 75,7% og 87,5% (versjon med høy beregning)
Programvareteknikk (SWE-benk verifisert) 48,9% nøyaktighet 71,7% nøyaktighet
Konkurransekode (Codeforces) 1891 2727
Konkurransematematikk (AIME 2024) 83,3 % nøyaktighet 96,7% nøyaktighet
Naturvitenskapelige spørsmål på PHD-nivå (GPQA Diamond) 78,0% nøyaktighet 87,0% nøyaktighet

Demonstrerer o3 AGI?

Etter at nyheten om o3 ble sluppet, har det vært debatt om hvorvidt modellen representerer en viktig milepæl på veien mot AGI.

Med kodingspoeng som plasserer o3 blant de 200 beste programmererne, er det lett å bli revet med i hypen om at denne modellen kan være på vei til å ta jobben fra programvareingeniørene.

Kritikere som Gary Marcus har imidlertid påpekt at o3 ikke tok testen i blinde. Modellen ble trent på ARC-AGI-referansen, så det er lite sannsynlig at den ville ha oppnådd så høye poengsummer dersom den ikke var trent på testkriteriene på forhånd. Dette betyr at vi må ta testresultatene med en klype salt.

Når det er sagt, kalte Chollet, skaperen av ARC-AGI, o3s poengsum for et “gjennombrudd“, som “representerer et betydelig fremskritt i AIs evne til å tilpasse seg nye oppgaver”, selv om han erkjente at den utrente ARC-modellen ikke har blitt testet ennå.

Chollet presiserte også at ARC-AGI ikke er en syretest for AGI, og uttalte at: “o3 mislykkes fortsatt med noen svært enkle oppgaver, noe som indikerer grunnleggende forskjeller i forhold til menneskelig intelligens.”

Med tanke på disse faktorene har vi fortsatt en lang vei å gå mot AGI, selv om o3 ser ut til å være en svært lovende aktør på markedet for generativ AI.

De første inntrykkene: Slik reagerer ekspertene på o3 så langt

Selv om o3 ikke er offisielt lansert, har det ikke hindret teknologi- og AI-eksperter i å forutse hva den vil bety for fremtiden.

Mike Knoop, medstifter av Zapier, er veldig optimistisk med tanke på o3-modellen, og skriver på X:

“o3 er veldig spesiell, og alle må oppdatere sin intuisjon om hva AI kan/ikke kan gjøre. Selv om det fortsatt er tidlig i utviklingen, viser dette systemet en reell økning i intelligens, noe ARC-AGI kan bekrefte.”

Itamar Golan, administrerende direktør og medgrunnlegger av Prompt Security, publiserte et innlegg der han spekulerte i at o3 hadde en IQ på 157 basert på Codeforces-rangeringen, noe som ville gjøre den “smartere” enn 99,25% av alle mennesker (selv om vi bør være forsiktige med å bruke IQ som et mål på LLM-enes evner – mennesker og maskiner er ikke like).

Andre mener at o3 vil ha en negativ innvirkning på ansettelsesmulighetene til menneskelige programmerere på begynnernivå.

En bruker, kjent som Lisan al Gaib, skrev: “CS-studenter kan virkelig være ferdige”, som svar på o3s høye codeforces-rating, som plasserer den “i 95,95 prosentilen av konkurransedyktige programmerere”.

Hva er fremtiden til o3?

Ut fra det vi har sett så langt, ser det ut til at o3 kommer til å bli OpenAI-modellen som legger opp til en ny og mer robust tilnærming til resonnering, et område der LLM-er som GPT-4 tidligere har kommet til kort.

Bruken av tankekjederesonnement i o1 og o3 legger grunnlaget for en ny og mer pålitelig generasjon av store språkmodeller (LLM-er) som kan “tenke” før de svarer. Slike tilnærminger vil uunngåelig redusere problemet med hallusinasjoner, men det er fortsatt uklart om de kan eliminere dem helt.

Med tanke på o3s resultater på Codeforces ser det ut til at LLM-er kommer til å spille en mye større rolle i programvareutvikling, og hjelpe ingeniører med å generere kode eller identifisere feil og ytelsesproblemer i mye større tempo.

Til tross for betydelige forbedringer ser o3 ut til å være mer et tilleggsverktøy for programmerere for å øke problemløsningsevnen deres enn en erstatning.

Konklusjon

o3 demonstrerer noen imponerende egenskaper, men det ser ikke ut til at AGI vil komme rundt hjørnet med det første. Men, uansett viser OpenAIs evne til å skape hype rundt lanseringene sine hvorfor de er den største AI-oppstartsbedriften i verden akkurat nå.

o3s prestasjoner innen matematikk og koding viser at AI vil prege disse områdene i fremtiden på en måte som få selskaper har råd til å ignorere.

Ofte stilte spørsmål

Hva er ChatGPT O3?

Når vil ChatGPT O3 være tilgjengelig?

Hvordan få tilgang til ChatGPT O3?

Hva skiller O3 fra O1?

Er ChatGPT O3 i nærheten av AGI?

Hvordan påvirker O3 programvareutviklingen?

Relaterte begreper

Related Articles

Tim Keary
Technology Writer
Tim Keary
Teknologispesialist

Siden januar 2017 har Tim Keary vært en frilans teknologiskribent og reporter, som dekker bedriftsteknologi og informasjonssikkerhet.