O teste de Turing é uma ferramenta de avaliação de inteligência artificial (IA) introduzida em 1950 pelo Dr. Alan Turing, um matemático e cientista da computação britânico. Assim, saiba o que é o teste de turing, como funciona e qual o seu significado.
O que é o Teste de Turing?
Turing estava procurando uma maneira simples de responder à pergunta “As máquinas podem pensar?”
A estratégia que ele propôs se tornou um dos primeiros parâmetros para avaliar a inteligência da máquina .
Para reunir dados qualitativos sobre a inteligência das máquinas, Turing propôs um jogo baseado em investigação, que mais tarde se tornou popularmente conhecido como “Jogo da Imitação” ou, mais comumente, “O Teste de Turing”.
O que é o Jogo da Imitação?
O teste de Turing para inteligência de máquina é baseado em um jogo de salão que era popular durante a era vitoriana.
O jogo original exigia três pessoas: um homem, uma mulher e um interrogador. (O interrogador poderia ser um homem ou uma mulher.) O homem e a mulher eram colocados em uma sala, e o interrogador era colocado em outra sala.
O interrogador começou o jogo fazendo uma série de perguntas e pedindo aos participantes que escrevessem (ou digitassem) suas respostas.
Para tornar o jogo mais desafiador, um participante podia mentir e fabricar respostas, e o outro participante era obrigado a sempre dizer a verdade.
O objetivo do jogo era que o interrogador adivinhasse corretamente quais respostas foram escritas pelo homem — e quais foram escritas pela mulher.
Como funciona o teste de Turing?
Conforme descrito em seu artigo de 1950 “ Computing Machinery and Intelligence ,” a versão de Turing do jogo da Imitação também exigia um interrogador e dois participantes. Na versão de Turing, no entanto, um dos participantes seria humano, e o outro seria uma máquina de computação.
Essencialmente, a versão do jogo de Turing foi um esforço pioneiro para definir um parâmetro prático para a inteligência da máquina que contornou a questão filosófica do que significa “pensar”.
Turing propôs que, se o interrogador não conseguisse distinguir de forma confiável entre as respostas da máquina e as respostas humanas, a máquina poderia demonstrar processos de pensamento e inteligência semelhantes aos humanos.
O critério exato para determinar a inteligência de uma máquina sempre foi objeto de debate, mas com base no artigo de Turing, muitas vezes foi argumentado que se um júri de interrogadores acredita que está se comunicando com outro ser humano pelo menos 70% do tempo — quando na verdade estava falando com um programa de computador — os criadores do software podem legitimamente alegar que sua programação de IA passou no Teste de Turing.
Por que o teste de Turing é importante?
O teste de Turing é historicamente importante porque mudou o debate de se as máquinas podem pensar para se as máquinas podem emular conversas semelhantes às humanas.
Essa mudança de foco forneceu à comunidade emergente de ciência da computação uma estrutura pragmática para avaliar o progresso.
Ao longo dos anos, a validade do Teste de Turing alimentou muito debate entre cientistas da computação, filósofos e psicólogos cognitivos.
Sua resistência está em sua capacidade de ser tanto um benchmark técnico quanto uma ferramenta filosófica para examinar e discutir se uma máquina pode ou não ser verdadeiramente inteligente .
No entanto, usar a conversação como critério principal para inteligência criou inadvertidamente uma perspectiva mais restrita de inteligência e negou a importância de outros tipos de inteligência, como inteligência emocional , inteligência espacial ou inteligência criativa.
Com os avanços atuais em machine learning (ML) e redes neurais , está se tornando cada vez mais possível criar chatbots com arquiteturas que podem imitar com precisão padrões em dados de treinamento.
Por exemplo, ChatGPT-4 e Google Bard são bastante adeptos a lidar com uma ampla gama de tópicos de conversação e, em muitos casos, podem produzir uma resposta que é indistinguível da de um humano.
Isso não significa necessariamente que o chatbot seja inteligente, no entanto. Em interações prolongadas, os grandes modelos de linguagem que dão suporte aos chatbots podem alucinar e gerar resultados inconsistentes, contraditórios ou ilógicos.
Objeções iniciais ao teste de Turing
É importante notar que, embora Turing seja agora reconhecido como um visionário, ele foi bastante controverso durante sua vida, e seu trabalho nem sempre foi apreciado.
Muitos acadêmicos e teólogos duvidaram que as máquinas pudessem emular o pensamento humano, e as ideias bastante radicais de Turing sobre a inteligência das máquinas estimularam muitos debates filosóficos e teológicos acalorados.
Turing antecipou objeções às suas ideias, no entanto, e ofereceu contra-argumentos para o porquê de ele acreditar que máquinas poderiam replicar o pensamento humano. Essa crença é explicada na tese de Church-Turing .
A tese de Church-Turing propõe que qualquer problema computacional ou matemático que pode ser resolvido por um humano usando um conjunto específico de instruções também pode ser resolvido por uma máquina.
Esse conceito cresceu para se tornar a base da ciência da computação moderna .
Máquina de Turing vs. Máquina de Turing Universal
Turing introduziu pela primeira vez o conceito de inteligência de máquina em seu artigo de 1936 “ Sobre números computáveis, com uma aplicação ao problema da Entscheidung ”. Neste artigo, Turing introduziu um dispositivo teórico simples que poderia, em princípio, computar qualquer sequência de números se recebesse as instruções adequadas.
Uma Máquina de Turing (TM) é um modelo matemático abstrato para computação.
Na mente de Turing, sua máquina imaginária consistia em uma fita infinita dividida em células, uma cabeça de fita que podia se mover para a esquerda ou direita e um conjunto de estados e regras que ditavam como a cabeça da fita lia e escrevia na fita. Ele imaginou que cada máquina de Turing seria projetada para executar uma tarefa ou computação específica.
Turing também propôs uma máquina de Turing Universal. Este seria um tipo especial de máquina de Turing que seria capaz de simular qualquer outra máquina de Turing. Em teoria, quando uma UTM recebia uma descrição de outra máquina de Turing (e sua entrada), a UTM poderia usar essa informação como sua própria entrada.
O conceito de Máquina de Turing Universal introduziu a ideia de que uma máquina de computação poderia simular qualquer outra máquina de computação se recebesse as entradas corretas. Isso se tornou a base para os programas de computador de hoje e foi um passo importante no desenvolvimento de computadores de propósito geral.
O Teste de Turing ainda é uma ferramenta de avaliação válida?
O Teste de Turing é considerado principalmente uma ferramenta histórica para avaliar a IA hoje.
O teste ainda é falado, no entanto, por causa de seu impacto na pesquisa de IA. Essencialmente, Turing mudou a questão filosófica “As máquinas podem pensar?” para outra questão que poderia realmente ser respondida e apoiada por dados.
Isso é importante porque a nova questão: “As máquinas podem se comportar de uma maneira indistinguível dos humanos durante uma conversa?” pode ser respondida de forma definitiva usando o método científico .
Essa mudança sutil (mas profunda) de perspectiva teve um enorme impacto e encorajou os primeiros pesquisadores de inteligência artificial a dar mais ênfase ao estudo do processamento de linguagem natural (PLN), compreensão de linguagem natural (NLU) e geração de linguagem natural (NLG).
IA conversacional e o teste de Turing
Nas décadas seguintes à sua morte, o papel de Turing em quebrar o Código Enigma tornou-se publicamente conhecido, e suas contribuições e insights sobre inteligência de máquina foram reexaminados.
As seguintes tecnologias e conceitos compartilham um fio condutor com o Teste de Turing – todos eles buscam replicar com precisão o comportamento humano em um contexto de máquina.
Chatbots : São aplicativos de software projetados para simular conversas humanas . Os primeiros exemplos visavam imitar interações semelhantes às humanas e eram um aceno direto aos objetivos do Teste de Turing.
Assistentes de voz : tecnologias como Alexa, Google Assistant, Siri e Cortana da Amazon são projetadas para entender e responder aos comandos do usuário de maneira semelhante à humana, ecoando os padrões de conversação do Teste de Turing.
Processamento de Linguagem Natural (PLN) : O foco do Teste de Turing na conversação impulsionou pesquisas para entender e gerar linguagem humana , levando ao desenvolvimento de ferramentas e algoritmos de PNL para negócios.
Aprendizado de máquina : embora não sejam exclusivas do Teste de Turing, as técnicas de aprendizado de máquina, especialmente em áreas como aprendizado profundo para modelos de linguagem (por exemplo, a série GPT da OpenAI), podem ser vistas como esforços para gerar resultados mais semelhantes aos humanos e passar no Teste de Turing.
Plataformas de IA conversacional : ferramentas e plataformas, como o Dialogflow do Google ou o Bot Framework da Microsoft, permitem a criação de agentes conversacionais e interfaces de usuário conversacionais (CUIs).
CAPTCHAs : Esses testes, frequentemente usados em sites para distinguir humanos de bots , são um tipo de Teste de Turing inverso. Eles são projetados para serem fáceis para humanos completarem, mas difíceis para máquinas completarem.
Número de Turing : Este é outro processo para rastrear usuários humanos online e distingui-los de bots.
Ferramentas de análise de sentimentos : embora essas ferramentas se concentrem na compreensão da emoção no texto , seu objetivo é capturar um aspecto humano da comunicação que lembra o Teste de Turing.
Narrativa interativa e NPCs (personagens não jogáveis) : em videogames, NPCs com diálogos avançados e árvores de decisão se esforçam para fornecer interações semelhantes às humanas , refletindo os ideais do Teste de Turing.
Bots de suporte ao cliente : esses bots, comuns em sites e canais de suporte, tentam responder a perguntas de maneira semelhante à humana antes de encaminhar as conversas para um humano real, se necessário.
Redes Adversariais Generativas (GANs) : O processo adversarial que as GANs usam para gerar novos dados lembra um pouco o Teste de Turing. Em ambos os casos, o objetivo é produzir uma saída que seja indistinguível de uma fonte “real” ou “autêntica” .
O Teste de Turing e a IA Generativa
O Teste de Turing é frequentemente mencionado em artigos sobre IA generativa , e isso porque o Teste de Turing é inerentemente generativo.
Quando um modelo de linguagem gera uma história, um artigo ou um poema , não se trata apenas de juntar palavras; está tentando criar conteúdo que pareça ter sido criado por um humano.
Um dos primeiros programas de computador a tentar uma conversa interativa foi o ELIZA, um chatterbot criado na década de 1960 por Joseph Weizenbaum no MIT.
O ELIZA é frequentemente mencionado em discussões sobre o Teste de Turing porque foi um dos primeiros programas de computador que conseguiu imitar uma conversa humana e enganar as pessoas, fazendo-as pensar que estavam interagindo com uma pessoa real .
No contexto de sua época, ELIZA poderia ser vista como generativa porque produzia respostas variadas sem um roteirista humano especificando cada possível rumo da conversa.
Tentativas famosas de passar no teste de Turing
Embora o ELIZA não tenha sido projetado especificamente para passar no Teste de Turing, a capacidade do chatbot de emular certos tipos de interações humanas o tornou um marco significativo na história da inteligência artificial e da interação humano-computador .
Ironicamente, as respostas e reações das pessoas a ELIZA também destacaram a tendência humana de atribuir às máquinas outras qualidades humanas.
Esse fenômeno, conhecido como Efeito Eliza , pode ser usado como sinônimo de personificação no contexto da tecnologia da informação.
Além do ELIZA, outros chatbots notáveis associados à IA conversacional e ao Teste de Turing incluem:
PARRY (1972): Projetado pelo psiquiatra Kenneth Colby, PARRY simulou um paciente com esquizofrenia paranoide . Quando PARRY usou teletipo para “falar” com uma série de psiquiatras, alguns médicos acreditaram que estavam se comunicando com um ser humano real.
Racter (década de 1980): Seus criadores alegaram que o Racter foi o primeiro programa de inteligência artificial a ter escrito um livro intitulado “ A barba do policial está meio construída ”. Houve um debate significativo, no entanto, sobre quanta intervenção humana estava envolvida na criação do livro.
Jabberwacky (década de 1990): Criado pelo programador britânico Rollo Carpenter, o Jabberwacky foi projetado para imitar conversas semelhantes às humanas e aprender com suas interações. Ele foi sucedido pelo Cleverbot , que participou de um teste de Turing formal no festival Techniche de 2011 na Índia.
Eugene Goostman (2014): Este chatbot, que foi projetado para simular a conversa de um garoto ucraniano de 13 anos, afirma ter passado no Teste de Turing durante uma competição na Royal Society em Londres. O bot Goostman competiu em uma série de concursos de teste de Turing desde sua criação, e terminou em segundo lugar no concurso do Prêmio Loebner de 2005 e 2008 .
Google Duplex (2018): O Google Duplex foi projetado para fazer reservas em restaurantes, compromissos em salões e tarefas semelhantes para usuários. Embora o bot nunca tenha sido um concorrente do Teste de Turing no sentido tradicional, a programação é notável por sua capacidade de conduzir conversas que soam naturais pelo telefone, incluindo até mesmo sons de preenchimento como “umm” e “ahh”.
GPT-3 da OpenAI (2020): A terceira iteração do chatbot OpenAI Generative Pre-trained Transformer despertou interesse e debate renovados sobre a natureza do conteúdo gerado por máquina e as limitações do Teste de Turing.
Competições famosas de teste de Turing
Ao longo dos anos, várias competições usaram o controverso Teste de Turing para avaliar a “inteligência” da programação de inteligência artificial. Exemplos históricos bem conhecidos incluem:
- O Prêmio Loebner, que foi estabelecido em 1990 por Hugh Loebner em conjunto com o Cambridge Center for Behavioral Studies, é uma das competições de Teste de Turing mais conhecidas . O Prêmio Loebner foi descontinuado em 2020.
- O Chatterbox Challenge foi uma competição anual que começou no início dos anos 2000 e foi realizada por vários anos. Em seu auge, o Chatterbox Challenge foi uma das principais competições de chatbot.
- O site Chatbot Battle Arena coloca diferentes chatbots uns contra os outros e permite que o espectador determine qual bot deve ser o vencedor. Nessa competição semelhante ao Teste de Turing, o espectador determina seus próprios critérios para a vitória.
- O Turing100 foi organizado pela Associação Europeia de Inteligência Artificial em 2012. Foi parte das comemorações realizadas em homenagem ao 100º aniversário do nascimento de Alan Turing .
- O 2K BotPrize foi uma competição realizada no contexto do videogame “Unreal Tournament 2004”. Em vez de focar na conversa, o desafio era para os programadores criarem um bot que se comportasse de forma tão humana no jogo que fosse confundido com um jogador humano.
Alternativas ao teste de Turing
Várias alternativas e suplementos ao Teste de Turing foram propostos para compensar as limitações do teste. Algumas dessas avaliações são projetadas para avaliar a inteligência da máquina além da IA conversacional:
O Argumento da Sala Chinesa é um experimento mental proposto pelo filósofo John Searle que desafiou a validade do Teste de Turing e buscou provar que é impossível para computadores digitais entenderem a linguagem ou pensarem.
O Teste Lovelace recebeu esse nome em homenagem a Ada Lovelace , a primeira mulher programadora. Esse teste avalia a capacidade de uma máquina de criar conteúdo artístico original que não foi explicitamente programado nela.
O Marcus Test é um teste de inteligência artificial proposto por Gary Marcus, um cientista cognitivo da New York University. Ele é projetado para avaliar a capacidade de uma IA de entender e responder a eventos do mundo real.
Como o Teste de Turing é usado hoje?
Embora o Teste de Turing possa não ter o mesmo status que já teve em relação à inteligência de máquina, seu legado persiste.
O teste continua sendo uma ferramenta valiosa de discussão e marketing. Aqui estão algumas maneiras pelas quais o Teste de Turing é usado hoje:
Competições de IA : embora o Prêmio Loebner não esteja mais sendo oferecido, ainda existem algumas pequenas competições para desenvolvedores de chatbots que incorporam vagamente o Teste de Turing em seus critérios para avaliar a qualidade dos resultados dos concorrentes.
Benchmarking de capacidades de processamento de linguagem natural (NLP) : O teste de Turing é algumas vezes usado informalmente na comunidade de IA como um benchmark para o desempenho de algoritmos de NLP. Se um modelo de NLP pode gerar respostas semelhantes às humanas , geralmente é dito que ele é Turing Complete ou Turing Test-Capable – mesmo que o modelo não tenha passado por um teste formal.
Ferramenta Educacional : O Teste de Turing é frequentemente discutido em cursos acadêmicos relacionados a IA, computação cognitiva e filosofia. O Jogo da Imitação ainda tem seus usos como um ponto de partida para explorações mais profundas na inteligência de máquina senciente e no conceito de consciência.
Mídia e cultura pop : O Teste de Turing é frequentemente referenciado em filmes, literatura e discussões relacionadas a robôs, andróides e máquinas autoconscientes.
Ética : Avanços recentes, particularmente em modelos de IA generativa baseados em voz, vídeo e texto, levaram a discussões renovadas sobre as implicações do Teste de Turing. Se uma máquina pode imitar um humano de forma convincente, há consequências potenciais em termos de engano e confiança , bem como o uso ético de tais tecnologias .
Marketing : Empresas que desenvolvem chatbots, assistentes de voz e outros agentes de conversação frequentemente fazem referência ao Teste de Turing como uma medida de quão “semelhante a humanos” seu software generativo é . Neste contexto, o Teste de Turing é usado mais como um termo promocional do que como um benchmark real.