Il team Fundamental AI Research (FAIR) di Meta ha annunciato il rilascio di cinque nuovi modelli di ricerca sull’intelligenza artificiale (IA), tra cui alcuni in grado di rilevare i contenuti falsi.
Questi strumenti includono Chameleon, JASCO, AudioSeal (una tecnica progettata per rilevare il parlato generato dall’iA), un modello di predizione multi-token e un codice di valutazione della disparità geografica e delle annotazioni.
Condividendo pubblicamente questi modelli di ricerca, Meta spera di contribuire al progresso e all’innovazione dell’IA.
Potrebbe interessarti anche: Apple Intelligence – La Nuova IA avanzata per iPhone, iPad e Mac
Chamaleont
Alcuni modelli linguistici di grandi dimensioni (LLM), come Llama 3 di Meta, sono unimodali, cioè hanno un singolo input e output per convertire, ad esempio, immagini in testo o testo in immagini.
Chameleon è invece multimodale e quindi in grado di elaborare e fornire testo e immagini contemporaneamente.
Potrebbe essere utilizzato per compiti quali la generazione di didascalie per le immagini o la creazione di nuove scene utilizzando insieme testo e immagini.
Secondo i ricercatori, il modello più simile a Chameleon è Google Gemini, che utilizza anch’esso un approccio early-fusion token.
Meta ha già svelato un’anteprima di Chameleon in risposta alla crescente competizione nel campo dell’IA generativa, e in particolare ai modelli rilasciati dai suoi rivali, come OpenAI.
JASCO
Oltre a Chamaleont, Meta ha presentato anche il suo nuovo modello IA JASCO (acronimo di Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation), in grado di utilizzare diversi input audio, come ritmi e accordi, per migliorare la qualità del suono prodotto dall’IA.
Secondo i ricercatori FAIR, questo strumento permette agli utenti di personalizzare le caratteristiche dei suoni generati, come accordi, percussioni e melodie, semplicemente attraverso il testo.
A differenza dei principali competitor, come MusicGen, JASCO non si basa sugli input testuali, ma supporta l’input di musica mista, in modo da permette agli utenti di personalizzare le caratteristiche dei suoni generati.
Modello di predizione multi-token
Finora gli LLM sono stati addestrati per prevedere la parola successiva, ma con risultati poco soddisfacenti.
Per rendere l’addestramento dei modelli IA più efficace, Meta offrirà ai ricercatori accesso al suo innovativo approccio di predizione multi-token.
In questo modo, i modelli linguistici verranno addestrati a prevedere più parole future contemporaneamente, invece di analizzarle singolarmente.
Meta rilascerà i modelli pre-addestrati per il completamento del codice con una licenza “non commerciale, solo per la ricerca“.
AudioSeal
Secondo le dichiarazioni di Meta, AudioSeal è la prima tecnica di watermarking audio progettata per rilevare il parlato generato dall’intelligenza artificiale.
Quando si ascoltano clip audio più lunghe, AudioSeal è in grado di rilevare i segmenti generati dall’IA, utilizzando il rilevamento localizzato.
Inoltre, secondo i ricercatori, è fino a 485 volte più veloce dei metodi di rilevamento tradizionali, che si basano su complessi algoritmi di decodifica.
Questa nuova tecnologia sarà distribuita su licenza e potrebbe aiutare a prevenire l’uso improprio degli strumenti di IA.
Codice di valutazione della disparità geografica + annotazioni
L’ultima release di Meta, il Geographic Disparity Evaluation Code + Annotations, è stato progettato per migliorare la diversità e la rappresentazione nelle immagini generate dall’IA in tutto il mondo.
Per crearlo, l’azienda ha esaminato più di 65.000 annotazioni e più di 20 risposte al sondaggio per ogni esempio.
Conclusioni
Il rilascio dei nuovi modelli IA di Meta arriva a pochi mesi dal lancio del software open source di Llama 3, avvenuto in aprile.
Si tratta probabilmente del miglior LLM open source in circolazione ed è ora pronto a competere con i principali rivali come Google Gemini e GPT-4.