Lanseringen av ChatGPT i november 2023 traff Google markant. Den populære chatboten utgjorde en så stor trussel mot selskapets virksomhet at de måtte erklære kode rød og begynne å investere i å ta igjen forspranget innen generativ KI.
Denne satsingen har ikke bare resultert i lanseringen av Google Bard, men også Google Gemini.
Gemini ble lansert onsdag 6. desember 2023, og etter hvert som månedene går, vil vi følge deres reise – det er en stor sjanse for at Google kan overta den populære KI-kronen fra ChatGPT.
Hva er Google Gemini?
Gemini er et sett med store språkmodeller (LLM) som utnytter treningsteknikker hentet fra AlphaGo, inkludert forsterkningslæring (reinforcement learning”) og “tree search”, og har potensialet til å vippe ChatGPT av pinnen som den dominerende generative KI-løsningen.
Dette skjer noen måneder etter at Google slo sammen sine Brain- og DeepMind KI-laboratorier til et nytt forskningsteam kalt Google DeepMind, og etter lanseringen av Bard og neste generasjons PaLM 2 LLM.
Med forventninger om at det generative KI-markedet vil være verdt 1,3 billioner USD innen 2032, er det tydelig at Google går all-in på å investere i området for å opprettholde sin posisjon som ledende innen KI-utvikling.
Hva vi vet om Gemini så langt
I mai publiserte Sundar Pichai, administrerende direktør i Google og Alphabet, et blogginnlegg med en oversikt over LLM og forklarte:
“Gemini ble skapt fra grunnen av for å være multimodal, svært effektiv når det gjelder verktøy- og API-integrasjoner og bygget for å muliggjøre fremtidige innovasjoner, som minne og planlegging.”
Pichai bemerket også at “selv om det fortsatt er tidlig i prosessen, ser vi allerede imponerende multimodale funksjoner som vi ikke har sett i tidligere modeller”.
“Når Gemini er finjustert og grundig sikkerhetstestet, vil den være tilgjengelig i ulike størrelser og med ulike funksjoner, akkurat som PaLM 2.”
I et intervju med Wired sier Demis Hassabis, administrerende direktør i Google DeepMind, at Gemini vil “kombinere noen av styrkene til systemer av typen AlphaGo med de fantastiske språkegenskapene til de store modellene.”
Android Police har også hevdet at en anonym kilde som er involvert i produktet, har kommentert at Gemini vil kunne generere tekst og kontekstuelle bilder og vil bli trent på kilder som YouTube-videotranskripsjoner.
Vil Gemini ta kronen fra ChatGPT?
En av de største diskusjonene rundt lanseringen av Gemini er om språkmodellen har det som skal til for å slå ChatGPT, som i år nådde over 100 millioner aktive brukere hver måned.
Til å begynne med brukte Google Geminis evnen til å generere tekst og bilder for å skille den fra GPT4, men 25. september 2023 kunngjorde OpenAI at brukerne kunne legge inn tale- og bildespørsmål i ChatGPT.
Nå som OpenAI eksperimenterer med en multimodal modelltilnærming og har koblet ChatGPT til Internett, er Googles enorme utvalg av proprietære treningsdata kanskje det som skiller de to mest fra hverandre. Google Gemini kan behandle data fra flere tjenester, blant annet Google Search, YouTube, Google Books og Google Scholar.
Bruken av disse proprietære dataene i treningen av Gemini-modellene kan resultere i et klart forsprang når det gjelder sofistikert innsikt og konklusjoner fra et datasett. Dette gjelder spesielt hvis de første rapportene om at Gemini er trent på dobbelt så mange tokens som GPT4 er korrekte.
I tillegg kan ikke samarbeidet mellom Google DeepMind og Brain-teamene i år undervurderes, ettersom det setter OpenAI opp mot et team av KI-forskere i verdensklasse, inkludert Googles medgrunnlegger Sergey Brin og DeepMinds senior KI-forsker og maskinlæringsekspert Paul Barham.
Dette er et erfarent team som har en dyp forståelse av hvordan man bruker teknikker som forsterkningslæring og tree-search for å skape KI-programmer som kan samle tilbakemeldinger og forbedre problemløsningen over tid, noe DeepMind-teamet brukte til å lære AlphaGo å slå en verdensmester i Go i 2016.
Kappløpet innen kunstig intelligens
Geminis kombinasjon av multimodale evner, bruk av forsterkningslæring, tekst- og bildegenerering og Googles egne data er alle ingrediensene Gemini trenger for å utkonkurrere GPT-4.
Treningsdataene er den viktigste forskjellen, for når alt kommer til alt, vil organisasjonen som vinner LLM-kappløpet i stor grad bli avgjort basert på hvem som trener modellene sine på det største og rikeste datasettet.
Når det er sagt, kan vi ikke avskrive den generative KI-giganten ennå, ettersom OpenAI angivelig jobber med en ny neste generasjons multimodal LLM kalt Gobi. Spørsmålet er nå hvem som er best på multimodal kunstig intelligens.