Google Gemini (Gemini AI)

Hva er Google Gemini?

Google Gemini, eller Gemini AI, er en integrert pakke med store språkmodeller, engelsk large language models (LLM), som for tiden utvikles av Google AI. Ifølge Googles administrerende direktør Sundar Pichai ble Geminis grunnleggende modeller designet fra begynnelsen av for å være multimodale.

Dette betyr at brukerne vil kunne behandle og generere tekst, bilder, kode og lydinnhold gjennom ett enkelt brukergrensesnitt.

Gemini betatestes for øyeblikket av en utvalgt gruppe utviklere i et lite antall selskaper. Det forventes at Gemini vil erstatte PaLM 2, LLM som i dag driver Google Bard, innen utgangen av 2023.

Google Gemini-funksjoner

Zoubin Ghahramani, visepresident for Google DeepMind, sier at Gemini vil være tilgjengelig i de samme fire størrelsene som PaLM 2: Gecko, Otter, Bison og Unicorn.

  • Gecko forventes å være lett og ideell for bruk på mobile enheter.
  • Otter er designet for å være kraftigere enn Gecko. Den forventes å være egnet for et bredt spekter av unimodale oppgaver.
  • Bison er designet for å være større og mer allsidig enn Otter. Den vil sannsynligvis være egnet for et begrenset antall multimodale oppgaver og forventes å konkurrere med Chat GPT-4 om markedsandeler.
  • Unicorn er designet for å være den største, kraftigste og mest allsidige Gemini-størrelsen. Den forventes å være egnet for et bredt spekter av multimodale oppgaver og vil være langt mer avansert enn Chat GPT, eller noen av konkurrentene.

Slik fungerer Gemini AI

Gemini vil sannsynligvis bruke Google Pathways-arkitekturen. I denne typen AI-arkitektur lærer man først opp en rekke modulære maskinlæringsmodeller (ML-modeller) til å utføre en bestemt oppgave. Når modulene er opplært, kobles de sammen til et nettverk.

Modulene i nettverket kan arbeide uavhengig av hverandre, eller de kan arbeide sammen for å generere ulike typer resultater. På baksiden konverterer kodere ulike typer data til et felles språk, og dekodere genererer utdata i ulike modaliteter basert på de kodede inndataene og den aktuelle oppgaven.

Det forventes at Google vil bruke Duet AI som frontend for Gemini. Dette brukervennlige grensesnittet vil skjule Gemini-arkitekturens kompleksitet og gjøre det mulig for personer med ulike ferdighetsnivåer å bruke Gemini-modeller til generativ AI formål.

Hvordan Gemini AI er trent

Gemini LLM-modeller skal ha blitt trent med en kombinasjon av følgende teknikker:

  • Veiledet læring: Gemini AI-moduler ble opplært til å forutsi utdata for nye data ved hjelp av mønstre lært fra merkede treningsdata.
  • Ikke-veiledet læring: Gemini AI-moduler ble opplært til å selvstendig oppdage mønstre, strukturer eller relasjoner i data uten behov for merkede eksempler.
  • Forsterkningslæring: Geminis AI-moduler forbedret beslutningsstrategiene sine iterativt gjennom en prøve- og feilprosess som lærte modulene å maksimere belønninger og minimere straffer.

Noen bransjeeksperter har spekulert i at Google i stor grad benyttet seg av forsterkningslæring med menneskelig tilbakemelding (RLHF) for å trene Gemini-moduler på Cloud TPU v5e-brikker. Ifølge Google har TPU-er fem ganger mer regnekraft enn brikkene som ble brukt til å trene opp Chat GPT.

Google har foreløpig ikke offentliggjort noen spesifikk informasjon om datasettene som Gemini AI ble trent på. Det er imidlertid sannsynlig at Googles ingeniører brukte LangChain-rammeverket og gjenbrukte data som de nylig brukte til å trene PaLM 2.

Disse dataene kom fra en rekke kilder, inkludert bøker og artikler, kodelagre, nettsteder, video- og podcastutskrifter, innlegg på sosiale medier og interne Google-data.

Utgivelsesdato for Google Gemini

Utgivelsesdatoen og de endelige funksjonene til Gemini AI er fortsatt ukjent. Det som imidlertid er bekreftet, er at Google har gitt et begrenset antall utviklere i et lite antall selskaper tidlig tilgang til Gemini.

Dette tyder på at Gemini kan være klar for lansering og integrering i Google Cloud Vertex AI-tjenester innen utgangen av 2024. Hvis alt går bra, vil Gemini AI også bli integrert i alle Googles skytjenester for bedrifter og forbrukere som bruker kunstig intelligens (AI), inkludert Google Søk, Google Translate og Google Assistant.

Når Gemini AI lanseres, vil skalerbarheten – sammen med de fleksible integrasjonsmulighetene for verktøy og programmeringsgrensesnitt (API) – gjøre den egnet for bruk i et bredt spekter av desktop- og mobilapplikasjoner i sanntid.

Hvordan Google Gemini AI fikk navnet sitt

Noen medier har rapportert at Gemini står for “Generalized Multimodal Intelligence Network Interface”, men denne informasjonen kan ikke bekreftes.

Ifølge Google Bard er det mer sannsynlig at Googles utviklere oppkalte den integrerte LLM-pakken etter stjernebildet Gemini og den gamle greske myten om Castor og Pollux, som inspirerte stjernetegnet.

Relaterte begreper

Margaret Rouse

Margaret Rouse er en prisbelønt teknisk skribent og lærer som er kjent for sin evne til å forklare kompliserte tekniske emner for et ikke-teknisk, forretningsmessig publikum. I løpet av de siste tjue årene har forklaringene hennes blitt publisert på TechTarget-nettsteder, og hun har blitt sitert som en autoritet i artikler i New York Times, Time Magazine, USA Today, ZDNet, PC Magazine og Discovery Magazine. Margarets idé om en morsom dag er å hjelpe IT- og forretningsfolk med å lære å snakke hverandres høyt spesialiserte språk. Hvis du har forslag til en ny definisjon eller ønsker å forbedre en teknisk forklaring,…