Hva er Google Gemini?
Google Gemini, eller Gemini AI, er en integrert pakke med store språkmodeller, engelsk large language models (LLM), som for tiden utvikles av Google AI. Ifølge Googles administrerende direktør Sundar Pichai ble Geminis grunnleggende modeller designet fra begynnelsen av for å være multimodale.
Dette betyr at brukerne vil kunne behandle og generere tekst, bilder, kode og lydinnhold gjennom ett enkelt brukergrensesnitt.
Gemini betatestes for øyeblikket av en utvalgt gruppe utviklere i et lite antall selskaper. Det forventes at Gemini vil erstatte PaLM 2, LLM som i dag driver Google Bard, innen utgangen av 2023.
Google Gemini-funksjoner
Zoubin Ghahramani, visepresident for Google DeepMind, sier at Gemini vil være tilgjengelig i de samme fire størrelsene som PaLM 2: Gecko, Otter, Bison og Unicorn.
- Gecko forventes å være lett og ideell for bruk på mobile enheter.
- Otter er designet for å være kraftigere enn Gecko. Den forventes å være egnet for et bredt spekter av unimodale oppgaver.
- Bison er designet for å være større og mer allsidig enn Otter. Den vil sannsynligvis være egnet for et begrenset antall multimodale oppgaver og forventes å konkurrere med Chat GPT-4 om markedsandeler.
- Unicorn er designet for å være den største, kraftigste og mest allsidige Gemini-størrelsen. Den forventes å være egnet for et bredt spekter av multimodale oppgaver og vil være langt mer avansert enn Chat GPT, eller noen av konkurrentene.
Slik fungerer Gemini AI
Gemini vil sannsynligvis bruke Google Pathways-arkitekturen. I denne typen AI-arkitektur lærer man først opp en rekke modulære maskinlæringsmodeller (ML-modeller) til å utføre en bestemt oppgave. Når modulene er opplært, kobles de sammen til et nettverk.
Modulene i nettverket kan arbeide uavhengig av hverandre, eller de kan arbeide sammen for å generere ulike typer resultater. På baksiden konverterer kodere ulike typer data til et felles språk, og dekodere genererer utdata i ulike modaliteter basert på de kodede inndataene og den aktuelle oppgaven.
Det forventes at Google vil bruke Duet AI som frontend for Gemini. Dette brukervennlige grensesnittet vil skjule Gemini-arkitekturens kompleksitet og gjøre det mulig for personer med ulike ferdighetsnivåer å bruke Gemini-modeller til generativ AI formål.
Hvordan Gemini AI er trent
Gemini LLM-modeller skal ha blitt trent med en kombinasjon av følgende teknikker:
- Veiledet læring: Gemini AI-moduler ble opplært til å forutsi utdata for nye data ved hjelp av mønstre lært fra merkede treningsdata.
- Ikke-veiledet læring: Gemini AI-moduler ble opplært til å selvstendig oppdage mønstre, strukturer eller relasjoner i data uten behov for merkede eksempler.
- Forsterkningslæring: Geminis AI-moduler forbedret beslutningsstrategiene sine iterativt gjennom en prøve- og feilprosess som lærte modulene å maksimere belønninger og minimere straffer.
Noen bransjeeksperter har spekulert i at Google i stor grad benyttet seg av forsterkningslæring med menneskelig tilbakemelding (RLHF) for å trene Gemini-moduler på Cloud TPU v5e-brikker. Ifølge Google har TPU-er fem ganger mer regnekraft enn brikkene som ble brukt til å trene opp Chat GPT.
Google har foreløpig ikke offentliggjort noen spesifikk informasjon om datasettene som Gemini AI ble trent på. Det er imidlertid sannsynlig at Googles ingeniører brukte LangChain-rammeverket og gjenbrukte data som de nylig brukte til å trene PaLM 2.
Disse dataene kom fra en rekke kilder, inkludert bøker og artikler, kodelagre, nettsteder, video- og podcastutskrifter, innlegg på sosiale medier og interne Google-data.
Utgivelsesdato for Google Gemini
Utgivelsesdatoen og de endelige funksjonene til Gemini AI er fortsatt ukjent. Det som imidlertid er bekreftet, er at Google har gitt et begrenset antall utviklere i et lite antall selskaper tidlig tilgang til Gemini.
Dette tyder på at Gemini kan være klar for lansering og integrering i Google Cloud Vertex AI-tjenester innen utgangen av 2024. Hvis alt går bra, vil Gemini AI også bli integrert i alle Googles skytjenester for bedrifter og forbrukere som bruker kunstig intelligens (AI), inkludert Google Søk, Google Translate og Google Assistant.
Når Gemini AI lanseres, vil skalerbarheten – sammen med de fleksible integrasjonsmulighetene for verktøy og programmeringsgrensesnitt (API) – gjøre den egnet for bruk i et bredt spekter av desktop- og mobilapplikasjoner i sanntid.
Noen medier har rapportert at Gemini står for “Generalized Multimodal Intelligence Network Interface”, men denne informasjonen kan ikke bekreftes.
Ifølge Google Bard er det mer sannsynlig at Googles utviklere oppkalte den integrerte LLM-pakken etter stjernebildet Gemini og den gamle greske myten om Castor og Pollux, som inspirerte stjernetegnet.