Cos’è il Turing Test?
Il test di Turing è uno strumento di valutazione dell’intelligenza artificiale (AI) introdotto nel 1950 dal Dr. Alan Turing, matematico e informatico britannico. Turing stava cercando un modo semplice per rispondere alla domanda “Le macchine possono pensare?”.
Invece di immergersi nella questione filosofica di cosa significhi “pensare”, Turing riformulò il problema proponendo un test concreto e operativo: se una macchina poteva imitare le risposte umane in modo abbastanza convincente da ingannare un interrogatore umano, allora, per tutti gli scopi pratici, si poteva dire che “pensava”. La strategia da lui proposta è diventata uno dei primi parametri di riferimento per la valutazione dell’intelligenza delle macchine.
Per raccogliere dati qualitativi sull’intelligenza delle macchine, Turing propose un gioco basato sull’indagine, che in seguito divenne noto come “Gioco dell’imitazione” o, più comunemente, “Test di Turing”.
Cos’è l’Imitation Game?
Il test di Turing per l’intelligenza delle macchine si basa su un gioco di società popolare in epoca vittoriana. Il gioco originale richiedeva tre persone: un uomo, una donna e un interrogatore (l’uomo e la donna venivano messi in una stanza e l’interrogatore in un’altra).
L’interrogatore inizia il gioco ponendo una serie di domande e facendo scrivere ai partecipanti le loro risposte. Per rendere il gioco più impegnativo, a un partecipante era consentito mentire e inventare le risposte, mentre all’altro era richiesto di dire sempre la verità. L’obiettivo del gioco era che l’interrogatore indovinasse quali risposte erano state scritte dall’uomo e quali dalla donna.
Come funziona il Turing Test?
Come descritto nel suo documento del 1950 “Computing Machinery and Intelligence“, anche la versione di Turing del gioco dell’imitazione richiedeva un interrogatore e due partecipanti. Nella versione di Turing, tuttavia, uno dei partecipanti sarebbe stato umano e l’altro sarebbe stato una macchina informatica.
In sostanza, la versione di Turing del gioco era uno sforzo pionieristico per stabilire un punto di riferimento pratico per l’intelligenza delle macchine, evitando la questione filosofica di cosa significhi “pensare”. Turing propose che se l’interrogatore non poteva distinguere in modo affidabile tra le risposte della macchina e quelle dell’uomo, si poteva dire che la macchina dimostrava processi di pensiero e intelligenza simili a quelli umani.
I criteri esatti per determinare l’intelligenza di una macchina sono sempre stati oggetto di dibattito, ma sulla base del documento di Turing, si è spesso sostenuto che se una giuria di interrogatori crede di comunicare con un altro essere umano almeno il 70% delle volte – mentre in realtà sta parlando con un programma informatico – i creatori del software possono legittimamente affermare che la loro programmazione AI ha superato il Test di Turing.
Perché il Test di Turing è importante?
Il Turing Test è storicamente importante perché ha spostato il dibattito dalla capacità delle macchine di pensare alla capacità delle macchine di emulare una conversazione simile a quella umana. Questo cambiamento di focus ha fornito alla comunità emergente dell’informatica un quadro pragmatico per valutare i progressi.
Nel corso degli anni, la validità del Test di Turing ha alimentato molti dibattiti tra informatici, filosofi e psicologi cognitivi. La sua resistenza risiede nella capacità di essere sia un punto di riferimento tecnico che uno strumento filosofico per esaminare e discutere se una macchina possa o meno essere veramente intelligente.
L’uso della conversazione come criterio primario per l’intelligenza, tuttavia, ha involontariamente creato una prospettiva più ristretta dell’intelligenza e ha negato l’importanza di altri tipi di intelligenza, come l’intelligenza emotiva, l’intelligenza spaziale o l’intelligenza creativa.
Con i progressi odierni nel campo dell’apprendimento automatico (Machine Learning) e nelle reti neurali, è sempre più possibile creare chatbot con architetture in grado di imitare accuratamente i modelli nei dati di formazione. Ad esempio, ChatGPT-4 e Google Bard sono molto abili nel gestire un’ampia gamma di argomenti di conversazione e, in molti casi, possono produrre una risposta indistinguibile da quella di un umano.
Tuttavia, questo non significa necessariamente che il chatbot sia intelligente. Nelle interazioni prolungate, i grandi modelli linguistici che supportano i chatbot possono avere delle allucinazioni e generare risultati incoerenti, contraddittori o illogici.
Obiezioni iniziali al Turing Test
È importante notare che, anche se Turing è oggi riconosciuto come un visionario, durante la sua vita era piuttosto controverso e il suo lavoro non era sempre apprezzato. Molti accademici e teologi dubitavano che le macchine potessero mai emulare il pensiero umano, e le idee piuttosto radicali di Turing sull’intelligenza delle macchine suscitarono un acceso dibattito filosofico e teologico.
Tuttavia, Turing anticipò le obiezioni alle sue idee e offrì delle controargomentazioni sul perché credeva che le macchine potessero replicare il pensiero umano. Questa convinzione è spiegata nella tesi Church-Turing.
La tesi Church-Turing propone che qualsiasi calcolo o problema matematico che può essere risolto da un essere umano utilizzando una serie specifica di istruzioni può essere risolto anche da una macchina. Questo concetto è cresciuto fino a diventare la base dell’informatica moderna.
Turing Machine vs. Universal Turing Machine
Turing introdusse per la prima volta il concetto di intelligenza della macchina nel suo articolo del 1936 “On Computable Numbers, with an Application to the Entscheidung’s Problem“. In questo documento, Turing introdusse un semplice dispositivo teorico che avrebbe potuto, in linea di principio, calcolare qualsiasi sequenza di numeri se gli fossero state fornite le istruzioni adeguate.
Una Macchina di Turing è un modello matematico astratto per la computazione. Nella mente di Turing, la sua macchina immaginaria consisteva in un nastro infinito diviso in celle, una testina del nastro che poteva muoversi a sinistra o a destra e una serie di stati e regole che decidevano il modo in cui la testina del nastro leggeva e scriveva sul nastro. Egli prevedeva che ogni macchina di Turing fosse progettata per eseguire un compito o una computazione specifica.
Turing propose anche una macchina di Turing universale. Si tratterebbe di un tipo speciale di macchina di Turing che sarebbe in grado di simulare qualsiasi altra macchina di Turing. In teoria, quando a una UTM viene fornita una descrizione di un’altra macchina di Turing (e il suo input), la UTM potrebbe utilizzare quelle informazioni come proprio input.
Il concetto di Macchina di Turing Universale introdusse l’idea che una macchina di calcolo potesse simulare qualsiasi altra macchina di calcolo, se le venivano forniti gli input giusti. Questo è diventato il fondamento dei programmi informatici di oggi e ha rappresentato un passo importante nello sviluppo dei computer generici.
Il Turing Test è ancora uno strumento di valutazione valido?
Il Test di Turing è considerato principalmente uno strumento storico per valutare l’IA oggi.
Tuttavia, si parla ancora del test per il suo impatto sulla ricerca sull’IA. Essenzialmente, Turing ha spostato la domanda filosofica “Le macchine possono pensare?” su un’altra domanda che poteva effettivamente avere una risposta ed essere supportata dai dati.
Questo è importante, perché alla nuova domanda “Le macchine possono comportarsi in modo indistinguibile dagli esseri umani durante una conversazione?” si poteva rispondere in modo definitivo utilizzando il metodo scientifico.
Questo sottile (ma profondo) cambiamento di prospettiva ha avuto un impatto enorme e ha incoraggiato i primi ricercatori di intelligenza artificiale a porre maggiore enfasi sullo studio dell’elaborazione del linguaggio naturale (NLP), della comprensione del linguaggio naturale (NLU) e della generazione del linguaggio naturale (NLG).
IA conversazionale e il Test di Turing
Nei decenni successivi alla sua morte, il ruolo di Turing nel decifrare il Codice Enigma è diventato di dominio pubblico e i suoi contributi e le sue intuizioni sull’intelligenza delle macchine sono stati riesaminati. Le tecnologie e i concetti seguenti condividono un filo comune con il Test di Turing: tutti cercano di replicare accuratamente il comportamento umano in un contesto macchina.
Chatbots: applicazioni software progettate per simulare la conversazione umana. I primi esempi miravano a simulare interazioni simili a quelle umane ed erano un cenno diretto agli obiettivi del Test di Turing.
Voice Assistants: tecnologie come Alexa di Amazon, Google Assistant, Siri e Cortana sono progettate per comprendere e rispondere ai comandi degli utenti in modo simile a quello umano, riecheggiando i parametri di conversazione del Test di Turing.
Natural Language Processing (NLP): l’attenzione del Test di Turing alla conversazione ha stimolato la ricerca sulla comprensione e la generazione del linguaggio umano, portando allo sviluppo di strumenti e algoritmi NLP per le aziende.
Machine Learning: sebbene non siano esclusive del Test di Turing, le tecniche di apprendimento automatico, soprattutto in aree come l’apprendimento profondo per i modelli linguistici (ad esempio, la serie GPT di OpenAI), possono essere viste come sforzi per generare output più simili a quelli umani e superare il Test di Turing.
Piattaforme di Conversational AI: strumenti e piattaforme, come Dialogflow di Google o Bot Framework di Microsoft, consentono di creare agenti conversazionali e interfacce utente conversazionali (CUI).
CAPTCHA: questi test, spesso utilizzati sui siti web per distinguere gli esseri umani dai bot, sono una sorta di Test di Turing inverso. Sono progettati per essere facili da completare per gli esseri umani, ma difficili da completare per le macchine.
Turing Number: si tratta di un altro processo di screening degli utenti umani online e di distinzione dai bot.
Strumenti di analisi del sentimento: sebbene questi strumenti si concentrino sulla comprensione delle emozioni nel testo, il loro obiettivo è quello di cogliere un aspetto umano della comunicazione che ricorda il Test di Turing.
Narrazione interattiva e PNG (Personaggi Non Giocanti): nei videogiochi, i PNG con dialoghi avanzati e alberi decisionali cercano di fornire interazioni simili a quelle umane, riflettendo gli ideali del Test di Turing.
Bot di assistenza clienti: questi bot, comuni nei siti web e nei canali di assistenza, cercano di rispondere alle domande in modo simile a un essere umano, prima di passare le conversazioni a un vero essere umano, se necessario.
Generative Adversarial Networks (GAN): il processo contraddittorio che le GAN utilizzano per generare nuovi dati ricorda in qualche modo il Test di Turing. In entrambi i casi, l’obiettivo è produrre un output indistinguibile da una fonte “reale” o “autentica”.
Il Test di Turing e l’IA generativa
Il Test di Turing viene spesso citato negli articoli sull’IA generativa, e questo perché il Test di Turing è intrinsecamente generativo. Quando un modello linguistico genera una storia, un articolo o una poesia, non si tratta semplicemente di mettere insieme delle parole; sta cercando di creare un contenuto che sembri creato da un essere umano.
Uno dei primi programmi informatici a tentare una conversazione interattiva è stato ELIZA, un chatterbot creato negli anni ’60 da Joseph Weizenbaum al MIT. ELIZA viene spesso citato nelle discussioni sul Test di Turing, perché è stato uno dei primi programmi informatici in grado di imitare una conversazione simile a quella umana e di ingannare le persone facendogli credere che stavano interagendo con una persona reale.
Nel contesto dell’epoca, ELIZA poteva essere considerato un programma generativo, perché produceva risposte diverse senza che uno sceneggiatore umano specificasse ogni possibile svolta della conversazione.
Tentativi famosi di superare il di Turing
Sebbene ELIZA non sia stata progettata specificamente per superare il Test di Turing, la capacità del chatbot di emulare alcuni tipi di interazioni umane lo ha reso una pietra miliare significativa nella storia dell’intelligenza artificiale e dell’interazione uomo-computer.
Ironicamente, le risposte e le reazioni delle persone a ELIZA hanno anche evidenziato la tendenza umana ad attribuire alle macchine altre qualità umane. Questo fenomeno, noto come Effetto Eliza, può essere utilizzato come sinonimo di personificazione nel contesto della tecnologia informatica.
Oltre a ELIZA, altri chatbot degni di nota associati all’AI conversazionale e al Test di Turing sono:
PARRY (1972): Progettato dallo psichiatra Kenneth Colby, PARRY simulava un paziente affetto da schizofrenia paranoide. Quando PARRY usava la telescrivente per “parlare” con una serie di psichiatri, alcuni medici credevano di comunicare con un vero essere umano.
Racter (1980): I suoi creatori hanno affermato che Racter è stato il primo programma di intelligenza artificiale ad aver scritto un libro intitolato “La barba del poliziotto è costruita a metà“. C’è stato un dibattito significativo, tuttavia, su quanto sia stato coinvolto l’intervento umano nella creazione del libro.
Jabberwacky (1990): Creato dal programmatore britannico Rollo Carpenter, Jabberwacky è stato progettato per imitare una conversazione di tipo umano e imparare dalle sue interazioni. È stato seguito da Cleverbot, che ha partecipato a un test di Turing formale al festival Techniche 2011 in India.
Eugene Goostman (2014): Questo chatbot, che è stato progettato per simulare la conversazione di un ragazzo ucraino di 13 anni, sostiene di aver superato il Test di Turing durante una competizione presso la Royal Society di Londra. Il bot Goostman ha partecipato a diversi concorsi di test di Turing sin dalla sua creazione, e si è classificato al secondo posto nei concorsi del 2005 e del 2008 del Premio Loebner.
Google Duplex (2018): Google Duplex è stato progettato per effettuare prenotazioni di ristoranti, appuntamenti in salone e compiti simili per gli utenti. Sebbene il bot non sia mai stato un concorrente del Test di Turing in senso tradizionale, la programmazione si distingue per la sua capacità di condurre conversazioni naturali al telefono, includendo anche suoni di riempimento come “umm” e “ahh”.
OpenAI GPT-3 (2020): La terza iterazione del chatbot OpenAI Generative Pre-trained Transformer ha suscitato un rinnovato interesse e dibattito sulla natura dei contenuti generati dalle macchine e sui limiti del Test di Turing.
Competizioni famose di Turing Test
Nel corso degli anni, diverse competizioni hanno utilizzato il controverso Test di Turing per valutare la programmazione dell’intelligenza artificiale. Tra gli esempi storici più noti vi sono:
- Il Premio Loebner, istituito nel 1990 da Hugh Loebner in collaborazione con il Cambridge Center for Behavioral Studies, è uno dei concorsi più noti del Test di Turing. Il Premio Loebner è stato interrotto nel 2020.
- La Chatterbox Challenge è stata una competizione annuale iniziata all’inizio degli anni 2000 e che si è svolta per diversi anni. Nel suo periodo di massimo splendore, la Chatterbox Challenge era una delle principali competizioni di chatbot.
- Il sito web Chatbot Battle Arena mette diversi chatbot l’uno contro l’altro e consente agli spettatori di determinare quale sia il bot vincitore. In questa competizione simile al Test di Turing, lo spettatore determina i propri criteri di vittoria.
- Turing100 è stato organizzato dall’Associazione Europea per l’Intelligenza Artificiale nel 2012. Faceva parte delle celebrazioni in onore del 100° anniversario della nascita di Alan Turing.
- Il 2K BotPrize è stato un concorso organizzato nel contesto del videogioco “Unreal Tournament 2004”. Invece di concentrarsi sulla conversazione, la sfida consisteva nel creare un bot che si comportasse in modo così umano nel gioco da essere scambiato per un giocatore umano.
Alternative al Test di Turing
Sono state proposte varie alternative e integrazioni al Test di Turing per compensare i suoi limiti. Alcune di queste valutazioni sono pensate per valutare l’intelligenza delle macchine al di là dell’IA conversazionale:
Il Chinese Room Argument è un esperimento di pensiero proposto dal filosofo John Searle che ha sfidato la validità del Test di Turing e ha cercato di dimostrare che è impossibile per i computer digitali comprendere il linguaggio o pensare.
Il Lovelace Test prende il nome da Ada Lovelace, la prima donna programmatrice. Questo test valuta la capacità di una macchina di creare contenuti originali e artistici che non sono stati esplicitamente programmati.
Il Marcus Test è un test di intelligenza artificiale proposto da Gary Marcus, scienziato cognitivo della New York University. È progettato per valutare la capacità di un’intelligenza artificiale di comprendere e rispondere agli eventi del mondo reale.
Come viene utilizzato oggi il Test di Turing?
Sebbene il Test di Turing non abbia più lo stesso status di un tempo per quanto riguarda l’intelligenza delle macchine, la sua eredità persiste. Il test rimane un prezioso strumento di discussione e di marketing. Ecco alcuni modi in cui il Test di Turing viene utilizzato oggi:
Concorsi di AI: Sebbene il Premio Loebner non venga più offerto, esistono ancora alcune piccole competizioni per sviluppatori di chatbot che incorporano vagamente il Test di Turing nei loro criteri di valutazione della qualità dei risultati dei concorrenti.
Benchmarking delle capacità di elaborazione del linguaggio naturale (NLP): Il Test di Turing viene talvolta utilizzato in modo informale nella comunità dell’AI come parametro di riferimento per le prestazioni degli algoritmi NLP. Se un modello NLP è in grado di generare risposte simili a quelle umane, spesso si dice che è Turing Complete o Turing Test-Capable, anche se il modello non è stato sottoposto a un test formale.
Strumento educativo: Il Test di Turing è spesso discusso nei corsi accademici relativi all’AI, all’informatica cognitiva e alla filosofia. The Imitation Game è ancora utile come punto di partenza per esplorazioni più approfondite sull’intelligenza delle macchine senzienti e sul concetto di coscienza.
Media e cultura pop: Il Test di Turing è spesso citato nei film, nella letteratura e nelle discussioni relative a robot, androidi e macchine autocoscienti.
Etica: I recenti progressi, in particolare nei modelli di AI generativa basati su voce, video e testo, hanno portato a rinnovate discussioni sulle implicazioni del Test di Turing. Se una macchina è in grado di imitare in modo convincente un essere umano, ci sono potenziali conseguenze in termini di inganno e fiducia, oltre all’uso etico di tali tecnologie.
Marketing: Le aziende che sviluppano chatbot, assistenti vocali e altri agenti conversazionali fanno spesso riferimento al Test di Turing come misura di quanto sia ‘umano’ il loro software generativo. In questo contesto, il Test di Turing è utilizzato più come termine promozionale che come vero e proprio parametro di riferimento.