Avoin toiminta

Google Gemini

Mikä on Google Gemini?

Google Gemini on integroitu sarja suuria kielimalleja (LLM), jotka Google DeepMind suunnitteli alusta alkaen multimodaalisiksi. Integroitu ohjelmistopaketti voi käsitellä tekstiä, kuvia, koodia ja ääntä yhden käyttöliittymän (UI) kautta.

Joulukuussa 2023 Gemini korvasi PaLM 2:n, LLM:n, joka toimi Google Bardissa. Helmikuussa 2024 Google ilmoitti, että tästä lähtien Bardin nimi on Gemini.

Google Gemini ilmaiset ja maksulliset tilausmallit

Työpöytäkäyttäjät voivat käyttää Geminin ilmaista versiota selaimen kautta. Mobiilikäyttäjillä on myös mahdollisuus käyttää ilmaista versiota asentamalla Google Gemini -sovellus Android-laitteisiin tai Google-sovellus iOS-laitteisiin.

Geminin edistyneempi versio on lisäksi saatavilla premium-tilausmallin kautta. Itse tilausmalli on nimeltään Google One AI Premium. Se on uusi tilaustaso, joka näyttää olevan yrityksen nykyisen Google One -pilvitallennuspalvelun haara.

Google One AI Premium -paketti Gemini Advancedille maksaa tällä hetkellä 19,99 dollaria kuukaudessa. Sen mukana tulee kahden kuukauden ilmainen kokeilujakso, ja siinä on mahdollisuus vuosilaskutukseen, joka tarjoaa sovelluksen alennettuun hintaan.

Google Gemini Ekosysteemi

Googlen ja Alphabetin toimitusjohtajan Sundar Pichain mukaan “Google Gemini tukee koko ekosysteemiä. Aina tuotteista, joita miljardit ihmiset käyttävät päivittäin, sovellusliittymiin ja alustoihin, jotka auttavat kehittäjiä ja yrityksiä innovoimaan.”

Tämän ajatuksen heijastamiseksi Google brändää itseään uudelleen ja integroi monia yrityksen muita tekoälyyn keskittyviä tuotteita ja palveluita. Jatkossa Duet AI:n nimi on Gemini for Workspace, ja Gemini Advanced integroidaan muihin Googlen yleisiin palveluihin, kuten Gmailiin, Docsiin, Sheetsiin, Slidesiin ja Meetiin.

Gemini AI -mallit

Zoubin Ghahramani, joka on Google DeepMindin varapuheenjohtaja, ennusti alun perin, että Google Gemini olisi saatavana samoissa neljässä koossa, kuin sitä edeltäneet PaLM 2: Gecko, Otter, Bison ja Unicorn.

  • Geckon odotettiin olevan kevyt ja ihanteellinen käytettäväksi mobiililaitteissa.
  • Otterin odotettiin soveltuvan monenlaisiin unimodaalisiin tehtäviin.
  • Bisonin ennustettiin soveltuvan rajoitettuun määrään multimodaalisia tehtäviä.
  • Unicornin piti soveltua monenlaisiin multimodaalisiin tehtäviin.

Nykyään näyttää todennäköiseltä, että Gemini on saatavilla vain kolmessa koossa: Gemini Nano mobiililaitteille, Gemini Pro selaimille/pöytäkoneille ja Gemini Advanced (kutsutaan myös Gemini Ultraksi) maksullisille tilaajille.

Kuinka Gemini toimii

Google Gemini AI -mallien huhutaan käyttävän Google Pathways -arkkitehtuuria. Tämän tyyppisessä tekoälyarkkitehtuurissa sarja modulaarisia koneoppimismalleja (ML) opetetaan aluksi suorittamaan tietty tehtävä. Kun moduulit on koulutettu, ne yhdistetään verkkoon.

Verkotetut moduulit voivat toimia itsenäisesti tai ne voivat työskennellä yhdessä tuottaakseen erilaisia lähtöjä. Takapäässä koodarit muuntavat erityyppiset tiedot yhteiseksi kieleksi, ja dekoodarit luovat ulostuloja eri muodoissa koodattujen tulojen ja käsillä olevan tehtävän perusteella.

Google on myöntänyt, että mallit ovat nopeampia, kun niitä ajetaan Google Tensor Processing Units (TPU) -yksiköissä.

Käyttäjäystävällinen käyttöliittymä piilottaa Gemini-arkkitehtuurin monimutkaisuuden ja mahdollistaa sen, että taitotasosta riippumatta kuka tahansa voi käyttää Gemini-malleja generatiivisiin tekoälytarkoituksiin.

Kuinka Gemini AI koulutetaan

Meidän tiedossamme on, että Gemini LLM -mallien väitetään toimivan koulutusta seuraavien tekniikoiden yhdistelmällä:

  1. Valvottu oppiminen: Gemini AI -moduuleita koulutettiin ennustamaan uusien tietojen tuotoksia käyttämällä tunnistetuista harjoitustiedoista opittuja malleja.
  2. Ohjaamaton oppiminen: Gemini AI -moduuleita koulutettiin itsenäisesti löytämään kuvioita, rakenteita tai suhteita tiedosta ilman merkittyjä esimerkkejä.
  3. Oppimisen vahvistaminen: Gemini AI -moduulit paransivat päätöksentekostrategioitaan iteratiivisesti yritys- ja erehdysprosessin kautta, joka opetti moduuleja maksimoimaan palkkiot ja minimoimaan rangaistuksia.

Jotkut alan asiantuntijat ovat spekuloineet, että Google luotti voimakkaasti vahvistusoppimiseen ihmispalautteen avulla (RLHF) kouluttaakseen Gemini moduuleja Cloud TPU v5e -siruille. Googlen mukaan TPU:illa on viisi kertaa enemmän laskentatehoa kuin Chat GPT:n harjoittamiseen käytetyillä siruilla.

Toistaiseksi Google ei ole julkaissut tarkempia tietoja datajoukoista, joihin Gemini AI -malleja on koulutettu. On kuitenkin todennäköistä, että Googlen insinöörit käyttivät LangChain-kehystä ja käyttivät uudelleen PaLM 2:n kouluttamiseen käyttämiään tietoja.

Jos näin on, Gemini-säätiömallit olisi alun perin koulutettu verkkodokumenttien, kirjojen, koodien, kuvien, äänen ja videon avulla. Nähtäväksi jää, onko tämä lähestymistapa yhtä tehokas kuin perusmallin kouluttaminen yhdelle moodille ja sitten muiden moodien lisääminen iteratiivisesti. (Molemmat lähestymistavat tukevat Googlen väitettä, jonka mukaan Gemini-mallit ovat natiivisti multimodaalisia.)

Mistä Google Gemini sai nimensä

Jotkut tiedotusvälineet ovat raportoineet, että Gemini tarkoittaa “Generalized Multimodal Intelligence Network Interface”, mutta tätä tietoa ei voitu vahvistaa.

Google Bardin mukaan on todennäköisempää, että Googlen kehittäjät nimesivät integroidun LLM-sarjan Gemini-tähdistön ja muinaisen kreikkalaisen Castorin ja Polluxin myytin mukaan, joka inspiroi horoskooppimerkkejä. Pyydettäessä Google Gemini suostui vastaamaan ja huomautti, että tämä on linjassa Googlen historian kanssa tähtitieteellisten teemojen käyttämisestä tuotteiden nimeämisessä.

Samankaltaiset termit

Margaret Rouse
Teknologia-asiantuntija

Margaret Rouse on palkittu teknologiatoimittaja ja opettaja, joka tunnetaan hänen kyvyistään selittää vaikeitakin teknologisia konsepteja aiheesta vähemmän tietävälle finanssialan yleisölle. Viimeisen 20 vuoden ajan hänen selityksensä ovat ilmestyneet TechTargetin nettisivuille, minkä lisäksi häntä ovat siteeranneet asiantuntijana New York Times, Time Magazine, USA Today, ZDNet, PC Magazine ja Discovery Magazine. Margaretin mielestä mikään ei ole hauskempaa kuin opettaa IT-alan ja finanssialan ammattilaisille, kuinka toisen alan hyvin spesifillä kielellä puhutaan. Jos sinulla on ideoita selitettävistä termeistä tai parannuksista aikaisempiin selityksiin, lähetä sähköpostia Margaretille tai ota yhteyttä häneen LinkedInissä tai Twitterissä.