Google Gemini è una Seria Minaccia per ChatGPT – Ecco Perché

Affidabilità
PUNTI SALIENTI

Il lancio di Google Gemini, un insieme di modelli linguistici di grandi dimensioni (LLM) che incorporano tecniche ispirate ad AlphaGo, rappresenta la risposta strategica di Google a ChatGPT. Grazie alle capacità multimodali e al potenziale accesso agli ampi dati di addestramento proprietari di Google provenienti da vari servizi, Gemini punta a sfidare il dominio di ChatGPT nello spazio dell'IA generativa. Questa mossa sottolinea l'impegno di Google e della concorrenza nel settore in rapida crescita dell'IA generativa, che si prevede avrà un valore di 1,3 trilioni di dollari entro il 2032.

Il lancio di ChatGPT lo scorso novembre ha scosso Google nelle sue fondamenta. Il popolare chatbot IA rappresentava una tale minaccia per l’attività dell’azienda che quest’ultima ha iniziato a investire per recuperare il ritardo nel campo dell’IA generativa.

Questo sforzo ha portato non solo al rilascio di Google Bard, ma anche di Google Gemini.

Che cos’è Google Gemini?

Gemini è un insieme di modelli linguistici di grandi dimensioni (LLM) che sfruttano tecniche di addestramento tratte da AlphaGo, tra cui l’apprendimento per rinforzo e la ricerca ad albero, con il potenziale per scalzare ChatGPT come soluzione di IA generativa più potente e avanzata del pianeta.

La notizia è arrivata pochi mesi dopo che Google ha unito i suoi laboratori di intelligenza artificiale Brain e DeepMind per creare un nuovo team di ricerca chiamato Google DeepMind, e pochi mesi dopo il lancio di Bard e del suo LLM 2 di nuova generazione.

Poiché i ricercatori prevedono che il mercato dell’IA generativa avrà un valore stimato di 1,3 trilioni di dollari entro il 2032, è chiaro che Google sta investendo in questo settore per mantenere la sua posizione di leader nello sviluppo dell’IA.

Tutto quello che sappiamo finora su Google Gemini

Google Gemini AI è un modello multimodale in grado di lavorare con testi, immagini e video, con capacità di comprensione degli input mai viste prima.

Sebbene sia stato rilasciato a dicembre 2023, le sue reali capacità sono ancora tutte da scoprire, con i primi test che hanno rivelato risultati davvero impressionanti sia in termini di confronto con altre IA sia in termini di possibilità e ambiti di utilizzo.

A maggio dello scorso anno, il CEO di Google e Alphabet Sundar Pichai ha pubblicato un post sul suo blog con un’immagine di alto livello del nuovo LLM, spiegando che:

Gemini è stato creato da zero per essere multimodale, altamente efficiente nelle integrazioni di strumenti e API e costruito per consentire innovazioni future, come la memoria e la pianificazione”.

Pichai ha anche osservato che:

Sebbene sia ancora agli inizi, stiamo già vedendo impressionanti capacità multimodali mai viste nei modelli precedenti […] Una volta messo a punto e rigorosamente testato per la sicurezza, Gemini sarà disponibile in varie dimensioni e capacità, proprio come PaLM 2”.

Da allora, non è stato detto molto sulle reali capacità del modello, a parte l’intervista di Demis Hassabis, CEO di Google DeepMind, a Wired, in cui si afferma che Gemini “combinerà alcuni dei punti di forza dei sistemi di tipo AlphaGo con le sorprendenti capacità linguistiche dei modelli di grandi dimensioni”.

Android Police ha anche affermato che una fonte anonima coinvolta nel progetto ha commentato che Gemini sarà in grado di generare testo e immagini contestuali e sarà addestrato su fonti come le trascrizioni dei video di YouTube.

Google Gemini strapperà la corona a ChatGPT?

Una delle maggiori discussioni intorno al rilascio di Google Gemini è se il nuovo modello linguistico abbia le carte in regola per scalzare ChatGPT, che lo scorso anno ha raggiunto oltre 100 milioni di utenti attivi mensili.

Inizialmente, Google ha utilizzato la capacità di Gemini di generare testo e immagini per differenziarlo da GPT4, ma il 25 settembre 2023 OpenAI ha annunciato che gli utenti avrebbero potuto inserire query vocali e immagini in ChatGPT.

Ora che OpenAI sta sperimentando un approccio basato su modelli multimodali e ha collegato ChatGPT a Internet, forse il fattore di differenziazione più minaccioso tra i due strumenti è la vasta gamma di dati di addestramento proprietari di Google.

Google Gemini è in grado di elaborare dati provenienti da diversi servizi, tra cui Google Search, YouTube, Google Books e Google Scholar.

L’uso di questi dati proprietari per l’addestramento dei modelli Gemini potrebbe portare a un netto vantaggio in termini di sofisticazione degli approfondimenti e delle inferenze che può trarre da un insieme di dati. Questo è particolarmente probabile se si considera che Gemini è addestrato su un numero doppio di token rispetto a GPT4.

Anche la collaborazione tra i team DeepMind e Brain di Google non può essere sottovalutata, in quanto mette OpenAI faccia a faccia con un team di ricercatori di alto livello, tra cui il co-fondatore di Google Sergey Brin e lo scienziato senior di DeepMind ed esperto di apprendimento automatico Paul Barham.

Si tratta di un team esperto che ha una profonda conoscenza di come applicare tecniche come l’apprendimento per rinforzo e la ricerca ad albero per creare programmi IA in grado di raccogliere feedback e migliorare la loro risoluzione dei problemi nel tempo.

Vale la pena notare che il team DeepMind ha già utilizzato queste tecniche con successo, insegnando ad AlphaGo a sconfiggere il campione mondiale di Go del 2016 Lee Se-dol.

La corsa agli armamenti dell’ IA

La combinazione di abilità multimodali, l’uso dell’apprendimento per rinforzo, le capacità di generare testi e immagini, e i dati proprietari di Google sono tutti gli ingredienti di cui Gemini ha bisogno per superare GPT-4.

I dati di addestramento sono il fattore chiave di differenziazione: dopo tutto, il vincitore della corsa agli armamenti degli LLM sarà in gran parte decretato in base al set di dati più grande e ricco con cui vengono addestrati i propri modelli.

Detto questo, visto che OpenAI starebbe lavorando a un nuovo LLM multimodale di nuova generazione, chiamato Gobi, la competizione è ancora aperta. La domanda ora è: chi svilupperà l’IA multimodale migliore?

Articoli Correlati

Maria Luisa Giugliano
Esperta in Blockchain e Tecnologia

Con un background formativo sia in ambito giuridico che economico, Maria Luisa Giugliano è un'esperta di finanza e marketing, coniugando preparazione di base e competenze specifiche nel campo dei fenomeni economici, dei sistemi aziendali e del diritto civile e fiscale. Appassionata di tecnologia blockchain, criptovalute e mercati azionari in generale, fa parte della community di Techopedia dal 2023, fornendo la sua opinione sui più importanti avvenimenti correlati al mondo economico-finanziario e divulgando contenuti informativi sugli ultimi progetti del settore crypto.