Meta presenta i suoi nuovi modelli IA per audio, testo e watermarking

Affidabilità
In breve

  • Meta ha annunciato il lancio di nuovi strumenti di ricerca sull'intelligenza artificiale.
  • Si tratta di cinque modelli, tra cui quelli da testo a musica e da immagine a testo.
  • Il colosso tech si aspetta che questi modelli accelerino la ricerca e l'innovazione future.

Il team Fundamental AI Research (FAIR) di Meta ha annunciato il rilascio di cinque nuovi modelli di ricerca sull’intelligenza artificiale (IA), tra cui alcuni in grado di rilevare i contenuti falsi.

Questi strumenti includono Chameleon, JASCO, AudioSeal (una tecnica progettata per rilevare il parlato generato dall’iA), un modello di predizione multi-token e un codice di valutazione della disparità geografica e delle annotazioni.

Condividendo pubblicamente questi modelli di ricerca, Meta spera di contribuire al progresso e all’innovazione dell’IA.

Potrebbe interessarti anche: Apple Intelligence – La Nuova IA avanzata per iPhone, iPad e Mac

Chamaleont

Alcuni modelli linguistici di grandi dimensioni (LLM), come Llama 3 di Meta, sono unimodali, cioè hanno un singolo input e output per convertire, ad esempio, immagini in testo o testo in immagini.

Chameleon è invece multimodale e quindi in grado di elaborare e fornire testo e immagini contemporaneamente.

Potrebbe essere utilizzato per compiti quali la generazione di didascalie per le immagini o la creazione di nuove scene utilizzando insieme testo e immagini.

Secondo i ricercatori, il modello più simile a Chameleon è Google Gemini, che utilizza anch’esso un approccio early-fusion token.

Meta ha già svelato un’anteprima di Chameleon in risposta alla crescente competizione nel campo dell’IA generativa, e in particolare ai modelli rilasciati dai suoi rivali, come OpenAI.

JASCO

Oltre a Chamaleont, Meta ha presentato anche il suo nuovo modello IA JASCO (acronimo di Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation), in grado di utilizzare diversi input audio, come ritmi e accordi, per migliorare la qualità del suono prodotto dall’IA.

Secondo i ricercatori FAIR, questo strumento permette agli utenti di personalizzare le caratteristiche dei suoni generati, come accordi, percussioni e melodie, semplicemente attraverso il testo.

A differenza dei principali competitor, come MusicGen, JASCO non si basa sugli input testuali, ma supporta l’input di musica mista, in modo da permette agli utenti di personalizzare le caratteristiche dei suoni generati.

Modello di predizione multi-token

Finora gli LLM sono stati addestrati per prevedere la parola successiva, ma con risultati poco soddisfacenti.

Per rendere l’addestramento dei modelli IA più efficace, Meta offrirà ai ricercatori accesso al suo innovativo approccio di predizione multi-token.

In questo modo, i modelli linguistici verranno addestrati a prevedere più parole future contemporaneamente, invece di analizzarle singolarmente.

Meta rilascerà i modelli pre-addestrati per il completamento del codice con una licenza “non commerciale, solo per la ricerca“.

AudioSeal

Secondo le dichiarazioni di Meta, AudioSeal è la prima tecnica di watermarking audio progettata per rilevare il parlato generato dall’intelligenza artificiale.

Quando si ascoltano clip audio più lunghe, AudioSeal è in grado di rilevare i segmenti generati dall’IA, utilizzando il rilevamento localizzato.

Inoltre, secondo i ricercatori, è fino a 485 volte più veloce dei metodi di rilevamento tradizionali, che si basano su complessi algoritmi di decodifica.

Questa nuova tecnologia sarà distribuita su licenza e potrebbe aiutare a prevenire l’uso improprio degli strumenti di IA.

Codice di valutazione della disparità geografica + annotazioni

L’ultima release di Meta, il Geographic Disparity Evaluation Code + Annotations, è stato progettato per migliorare la diversità e la rappresentazione nelle immagini generate dall’IA in tutto il mondo.

Per crearlo, l’azienda ha esaminato più di 65.000 annotazioni e più di 20 risposte al sondaggio per ogni esempio.

Conclusioni

Il rilascio dei nuovi modelli IA di Meta arriva a pochi mesi dal lancio del software open source di Llama 3, avvenuto in aprile.

Si tratta probabilmente del miglior LLM open source in circolazione ed è ora pronto a competere con i principali rivali come Google Gemini e GPT-4.

Maria Luisa Giugliano
Esperta in Blockchain e Tecnologia

Con un background formativo sia in ambito giuridico che economico, Maria Luisa Giugliano è un'esperta di finanza e marketing, coniugando preparazione di base e competenze specifiche nel campo dei fenomeni economici, dei sistemi aziendali e del diritto civile e fiscale. Appassionata di tecnologia blockchain, criptovalute e mercati azionari in generale, fa parte della community di Techopedia dal 2023, fornendo la sua opinione sui più importanti avvenimenti correlati al mondo economico-finanziario e divulgando contenuti informativi sugli ultimi progetti del settore crypto.