OpenAI:s GPT-4o: Allt vi vet hittills om uppdateringen

Varför oss?

Idag tillkännagav OpenAI Chat-GPT 4o, eller GPT-4o, en stor uppdatering av den stora språkmodellen (LLM) som mer än 100 miljoner människor använder.

Funktionerna, som kommer att rullas ut under de närmaste veckorna, ger tal och video till alla användare – gratis eller betalda – och den största lärdomen är vilken skillnad det gör att använda röst och video för att interagera med ChatGPT-4o.

Förändringarna, berättade OpenAI för tittarna på livestreamen, syftar till att “minska friktionen” mellan “människor och maskiner” och ” bringa AI till alla.”

I en fantastisk demo håller teknikchefen och presentatören Mira Murati, tillsammans med ChatGPT-utvecklare, realtidskonversationer med ChatGPT och ber om en godnattsaga.

GPT-4o drar även skämt med olika röster, från lekfull till dramatisk till sjungande, på begäran av OpenAI-forskaren Mark Chen.

Vi såg videofunktioner, röstkommunikation i realtid och simulerade känslor under röstdemonstrationen.

Viktiga slutsatser om Chat-GPT 4o

  • OpenAI:s Chat-GPT 4o introducerar tal- och videofunktioner, vilket gör det möjligt för användare att interagera med modellen genom röst- och videoinmatningar.
  • Uppdateringen syftar till att minska friktionen mellan människor och maskiner genom att utnyttja avancerade AI-funktioner för att skapa mer naturliga och sömlösa interaktioner.
  • GPT-4o kan delta i konversationer i realtid, svara på flera talare samtidigt och till och med simulera känslor, vilket ger interaktionerna djup och rikedom.
  • Uppgraderingen omfattar kvalitets- och hastighetsförbättringar på över 50 språk samt en skrivbordsversion för Mac-användare.
  • OpenAI erkänner utmaningarna med missbruk av ljud- och videofunktioner i realtid och betonar att man kommer att arbeta med intressenter för att hantera dessa utmaningar på ett ansvarsfullt sätt.
  • GPT-4o lanseras iterativt under de kommande veckorna, inklusive en skrivbordsapp som börjar med Mac.

När video används har ChatGPT konversationer i realtid med ingenjörerna – löser matematiska ekvationer som skrivits på papper framför en telefonlins samtidigt som de konverserar i realtid och på ett lekfullt sätt.

Titta på OpenAI LiveStream

OpenAI säger att funktionerna, som kommer att rullas ut under de närmaste veckorna, också kommer att öka kvaliteten och hastigheten på över 50 språk “för att ge denna upplevelse till så många människor som möjligt”.

Uppgraderingen inkluderar också en skrivbordsversion, som rullar ut idag på Mac och är tillgänglig för betalda användare.

Teamet pratade om universitetslärare som erbjuder verktyg till sina studenter eller podcastare som skapar innehåll för sina användare och hur du kan använda realtidsdata i ditt arbete.

OpenAI säger att GPT-4o (o:et står för “Omni”) kan svara på ljudinmatningar på så lite som 232 millisekunder, med ett genomsnitt på 320 millisekunder – vilket liknar den mänskliga svarstiden i en konversation.

Även om funktionerna också kommer att vara tillgängliga för gratisanvändare, diskuterade OpenAI också hur Pro-användare inte lämnas utanför, utan kan få tillgång till upp till fem gånger kapaciteten.

Förändringarna kommer även att omfatta API:et (Application Programming Interface), som sägs vara 2x snabbare och 50 gånger billigare.

En imponerande egenskap hos röst och video var att alla tre presentatörerna pratade med ChatGPT samtidigt – den artificiella intelligensen (AI) lyckades urskilja alla talare och pratade tillbaka till var och en av dem.

Vissa användare på X, tidigare Twitter, jämförde den nya varianten av ChatGPT med filmen “Her”, där den allvetande AI-kompanjonen inte kunde skiljas från en mänsklig personlighet.

Vi såg också realtidsöversättning mellan italienska och engelska, baserat på en fråga från en användare på Twitter.

OpenAI:s teknikchef och presentatör Mira Murati introducerar OpenAI GPT 4-o.
OpenAI:s teknikchef och presentatör Mira Murati introducerar OpenAI GPT 4-o.

OpenAI uppgav att “GPT-4o innebär nya utmaningar för realtidsljud och realtidsvision mot missbruk, och vi fortsätter att arbeta med olika berörda parter … för att ta reda på hur man bäst kan föra dessa tekniker till världen.”

Funktionerna kommer därför att rullas ut successivt under de närmaste veckorna, med bibehållna skyddsåtgärder.

Brian Jackson, Principal Research Director på Info-Tech Research Group, ombads att kommentera:

“Efter att ha tittat på OpenAI:s live-event idag är min slutsats att lanseringen av GPT-4o innebär både en betydande uppgradering av ChatGPT:s kapacitet och en inblick i företagets affärsstrategi.

“Hittills har ChatGPT orkestrerat över flera modeller för att hantera visuell tolkning, ljudanalys och textförståelse. GPT-4o ändrar på detta genom att samla dessa funktioner i en och samma modell.

“I en demonstration på scenen som starkt påminde om Spike Jonze-filmen Her från 2013, hade medlemmar av OpenAI-teamet en konversation i realtid med den uppdaterade modellen. Den upptäckte snabbt känslor i användarens röst, pausade när den blev avbruten och anpassade sina svar därefter, och förstod en mattefråga ritad på papper genom att bearbeta vyn genom en smartphonekamera.

“Det är som en superladdad version av Siri eller Google Assistant som lovar att störa vårt koncept för AI-personliga assistenter.

“Utöver själva modellen antydde OpenAI lite om sin affärsstrategi med utgåvan. Genom att sänka kostnaden för frågor på den nya modellen med 50% jämfört med GPT-4, sa OpenAI att det nu hade råd att ta med den nya modellen till alla användare, inte bara betalande abonnenter.

“Detta tyder på att OpenAI är mer intresserat av att dra till sig ett stort antal användare än av att få så många betalande abonnenter som möjligt och sedan förbättra sin marginal på abonnemangstjänsten.

“OpenAI har också gjort andra funktioner som tidigare varit betalda tillgängliga för gratisanvändare, till exempel att söka information på webben och ladda upp en fil för analys.

“OpenAI tog också tillfället i akt att hänvisa till sin Custom GPT-“butik”, som har varit tillgänglig i flera månader. OpenAI ser framför sig en framtid där mikrosamhällen bildas kring dessa Custom GPT:er.

“Det föreslogs till exempel att en professor skulle kunna skapa en Custom GPT för sina studenter, eller att en podcaster gör en för lyssnarna.

“Detta tyder på en nätverksaffärsmodell där användningen av ChatGPT drivs lika mycket av en skapande gemenskap som av OpenAIs utvecklare själva, liknande Apples förhållande till sin iOS-utvecklargrupp.

“OpenAI säger att begränsningar för att fråga GPT-4o fortfarande kommer att finnas på plats för gratisanvändare, så det finns fortfarande ett visst incitament att använda den betalda versionen.

“Jag förväntar mig att de nya funktionerna kommer att göra det till en viktig funktion för smartphones inom en mycket snar framtid.”

OpenAI sade i ett blogginlägg:

“Under de senaste två åren har vi lagt ner mycket arbete på att förbättra effektiviteten i varje lager av stacken.

“Som ett första resultat av denna forskning kan vi göra en modell på GPT-4-nivå tillgänglig i mycket större utsträckning. GPT-4o:s kapabiliteter kommer att rullas ut successivt (med utökat red team-tillgång från och med idag).

GPT-4o:s text- och bildfunktioner börjar rullas ut idag i ChatGPT. Vi gör GPT-4o tillgänglig i den fria nivån och för Plus-användare med upp till 5 gånger högre meddelandegränser. Vi kommer att rulla ut en ny version av Voice Mode med GPT-4o i alfa inom ChatGPT Plus de kommande veckorna.”

OpenAI valde en bra dag för den uppmärksammade uppdateringen, som landar en dag före Googles I/O-utvecklarkonferens, som förväntas vara AI-tung.

Eddie Wrenn
Content Editor
Eddie Wrenn
Teknikrapportering

Eddie Wrenn är reporter och nyhetsredaktör som har arbetat på nationella och internationella nyhetsredaktioner i Storbritannien och Australien, med fokus på breaking news och vetenskaps- och teknikrapportering. Han är för närvarande baserad i London, Storbritannien.