OpenAI sin GPT-4o: Alt vi vet så langt

Hvorfor oss?

13. mai kunngjorde OpenAI Chat-GPT 4o, eller GPT-4o, en stor oppdatering av den store språkmodellen (LLM) som mer enn 100 millioner mennesker bruker.

Funksjonene, som vil rulles ut i løpet av de neste ukene, gjør tale og video tilgjengelig for alle brukere – gratis eller betalt. -Den største nyheten er hvilken forskjell det utgjør å bruke tale og video for å samhandle med ChatGPT-4o.

Endringene, fortalte OpenAI seerne på direktesendingen, har som mål å “redusere friksjonen” mellom “mennesker og maskiner” og å “bringe AI til alle”.

I en slående demonstrasjon holdt teknologisjef og programleder Mira Murati, sammen med ChatGPT-utviklere, sanntidssamtaler med ChatGPT, og ber om en godnatthistorie.

GPT-4o spøker til og med med forskjellige stemmer, fra lekne til dramatiske til syngende, på forespørsel fra OpenAI-forskeren Mark Chen.

Vi fikk se videofunksjoner, talekommunikasjon i sanntid og simulerte følelser under stemmedemonstrasjonen.

  • OpenAIs Chat-GPT 4o introduserer tale- og videofunksjoner, slik at brukerne kan samhandle med modellen gjennom tale- og videoinnganger.
  • Oppdateringen har som mål å redusere friksjonen mellom mennesker og maskiner ved å utnytte avanserte AI-funksjoner for å skape mer naturlige og sømløse interaksjoner.
  • GPT-4o kan delta i sanntidssamtaler, svare på flere talere samtidig og til og med simulere følelser, noe som gir dybde og rikdom til interaksjonene.
  • Oppgraderingen omfatter forbedringer i kvalitet og hastighet på over 50 språk, samt en skrivebordsversjon for Mac-brukere.
  • OpenAI erkjenner utfordringene knyttet til misbruk av lyd- og videofunksjoner i sanntid, og understreker at de vil samarbeide med interessenter for å løse disse utfordringene på en ansvarlig måte.
  • GPT-4o rulles ut iterativt i løpet av de kommende ukene, inkludert en skrivebordsapp som starter med Mac.

Når ChatGPT bruker video, fører ChatGPT samtaler med ingeniørene i sanntid – og løser matematiske ligninger som er skrevet på papir foran en telefonlinse. Samtidig konverserer de i sanntid på en leken måte.

Se OpenAI live-streamen

OpenAI sier at funksjonene, som vil rulles ut i løpet av de neste ukene, også vil øke kvaliteten og hastigheten på over 50 språk “for å bringe denne opplevelsen til så mange mennesker som mulig”.

Oppgraderingen inkluderer også en desktop-versjon, som rulles ut først på Mac og er tilgjengelig for betalende brukere.

Teamet snakket om universitetslærere som tilbyr verktøy til studentene sine eller podcastere som lager innhold for brukerne sine, og hvordan du kan bruke sanntidsdata i arbeidet ditt.

OpenAI sier at GPT-4o (o-en står for “Omni”) kan svare på lydinndata på så lite som 232 millisekunder, med et gjennomsnitt på 320 millisekunder – noe som tilsvarer menneskelig responstid i en samtale.

Selv om funksjonene også vil være tilgjengelige for gratisbrukere, diskuterte OpenAI også hvordan Pro-brukere ikke blir utelatt, og får tilgang til opptil fem ganger så stor kapasitet.

Endringene vil også gjelde programmeringsgrensesnittet (API), som sies å være to ganger raskere og 50 ganger billigere.

En imponerende funksjon ved tale og video var at alle de tre presentatørene snakket med ChatGPT samtidig – den kunstige intelligensen (AI) klarte å skille mellom alle talerne og snakke tilbake til hver av dem.

Noen brukere på X, tidligere Twitter, sammenlignet den nye varianten av ChatGPT med filmen “Her”, der den allvitende AI-ledsageren var umulig å skille fra en menneskelig personlighet.

Vi fikk også se sanntidsoversettelse mellom italiensk og engelsk, basert på et spørsmål fra en bruker på Twitter.

OpenAIs teknologisjef Mira Murati introduserer OpenAI GPT 4o.
OpenAIs teknologisjef Mira Murati introduserer OpenAI GPT 4-o.

OpenAI uttalte at “GPT-4o byr på nye utfordringer for sanntidslyd og sanntidssyn mot misbruk, og vi fortsetter å jobbe med ulike interessenter for å finne ut hvordan vi best kan bringe disse teknologiene ut i verden.”

Funksjonene vil derfor bli rullet ut i løpet av de neste ukene, med sikkerhetstiltakene intakte.

Brian Jackson, forskningsdirektør ved Info-Tech Research Group, sier følgende på spørsmål om en kommentar:

“Etter å ha sett OpenAIs live-arrangement i dag, er min oppfatning at lanseringen av GPT-4o representerer både en betydelig oppgradering av ChatGPTs evner og innsikt i selskapets forretningsstrategi.

“Så langt har ChatGPT orkestrert på tvers av flere modeller for å håndtere visuell tolkning, lydanalyse og tekstforståelse. GPT-4o endrer dette ved å samle disse funksjonene i én enhetlig modell.

“I en demonstrasjon på scenen, som minnet sterkt om Spike Jonze-filmen Her fra 2013, hadde medlemmer av OpenAI-teamet en sanntidssamtale med den oppdaterte modellen. Den oppdaget følelser i brukernes stemme, tok en pause når den ble avbrutt og justerte svarene sine deretter, og forsto et mattespørsmål tegnet på papir ved å behandle utsikten gjennom kameraet på en smarttelefon.

“Det er som en superladet versjon av Siri eller Google Assistant, som lover å rokke ved vår oppfatning av personlige AI-assistenter.

“Utover selve modellen, antydet OpenAI litt av sin forretningsstrategi i forbindelse med lanseringen. Ved å senke kostnadene for forespørsler på den nye modellen med 50% sammenlignet med GPT-4, sa OpenAI at de nå hadde råd til å bringe den nye modellen til alle brukere, ikke bare betalende abonnenter.

“Dette tyder på at OpenAI er mer interessert i å trekke til seg et stort antall brukere enn i å få så mange betalende abonnenter som mulig for deretter å forbedre marginen på abonnementstjenesten.

“OpenAI gjorde også andre funksjoner som tidligere var betalt for tilgjengelige for gratisbrukere, blant annet å søke etter informasjon på nettet og å laste opp en fil for analyse.

“OpenAI benyttet også anledningen til å referere til sin Custom GPT-“butikk”, som har vært tilgjengelig i flere måneder. De ser for seg en fremtid der det dannes mikrosamfunn rundt disse egendefinerte GPT-ene.

“Det ble for eksempel foreslått at en professor kan lage en egendefinert GPT for studentene sine, eller at en podcaster lager en for lytterne.

“Dette tyder på en nettverksbasert forretningsmodell der bruken av ChatGPT drives like mye av et skaperfellesskap som av OpenAIs utviklere selv, på samme måte som Apples forhold til iOS-utviklerfellesskapet.

“OpenAI sier at det fortsatt vil være begrensninger på forespørsler i GPT-4o for gratisbrukere, så det er fortsatt et visst insentiv til å bruke betalingsversjonen.

“Jeg forventer at de nye funksjonene vil gjøre det til en killer-funksjon for smarttelefoner i nær fremtid.”

OpenAI sa i et blogginnlegg:

“Vi har brukt mye krefter over de siste to årene på å jobbe med effektivitetsforbedringer i alle lag av stacken.

“Som en første avkastning av denne forskningen er vi i stand til å gjøre en GPT-4-nivåmodell tilgjengelig mye bredere. GPT-4os funksjoner vil bli rullet ut iterativt (med utvidet tilgang for red team fra og med i dag).

 

GPT-4os tekst- og bildefunksjoner begynner å rulles ut i ChatGPT i dag. Vi gjør GPT-4o tilgjengelig i gratisnivået, og for Plus-brukere med opptil 5 ganger høyere meldingsgrenser. Vi vil rulle ut en ny versjon av Voice Mode med GPT-4o i alfa i ChatGPT Plus i løpet av de kommende ukene.”

OpenAI valgte en god dag for den oppsiktsvekkende oppdateringen, og landet en dag før Googles I / O-utviklerkonferanse, som forventes å være AI-tung.

Relaterte begreper

Eddie Wrenn
Content Editor
Eddie Wrenn
Content Editor

Eddie Wrenn er en reporter og nyhetsredaktør som har jobbet i nasjonale og internasjonale nyhetsredaksjoner både i Storbritannia og Australia, med et spesielt fokus på siste nytt og rapportering innen vitenskap og teknologi. Han er for tiden basert i London, Storbritannia.