Test de Turing

¿Qué es el Test de Turing?

La prueba de Turing es una herramienta de evaluación de la inteligencia artificial (IA) introducida en 1950 por el Dr. Alan Turing, matemático e informático británico. Turing buscaba una forma sencilla de responder a la pregunta “¿Pueden pensar las máquinas?”.

En lugar de sumergirse en la cuestión filosófica de qué significa “pensar”, Turing replanteó el problema proponiendo una prueba concreta y operativa: si una máquina podía imitar respuestas humanas de forma lo suficientemente convincente como para engañar a un interrogador humano, entonces, a efectos prácticos, podía decirse que “pensaba”.

La estrategia que propuso se convirtió en uno de los primeros puntos de referencia para evaluar la inteligencia de las máquinas.

Para reunir datos cualitativos sobre la inteligencia de las máquinas, Turing propuso un juego basado en la indagación, que más tarde se conoció popularmente como el “Juego de imitación” o, más comúnmente, “el test de Turing”.

¿Qué es el Juego de imitación?

El test de Turing para la inteligencia de las máquinas se basa en un juego de salón muy popular en la época victoriana. El juego original requería tres personas: un hombre, una mujer y un interrogador. (El hombre y la mujer estaban en una habitación y el interrogador en otra.

El interrogador comienza el juego haciendo una serie de preguntas y haciendo que los participantes escriban (o tecleen) sus respuestas. Para que el juego fuera más difícil, uno de los participantes podía mentir e inventar sus respuestas, mientras que el otro debía decir siempre la verdad.

El objetivo del juego era que el interrogador adivinara correctamente qué respuestas habían sido escritas por el hombre y cuáles por la mujer.

¿Cómo funciona el Test de Turing?

Como se describe en su artículo de 1950 “Computing Machinery and Intelligence”, la versión de Turing del juego de la imitación también requería un interrogador y dos participantes. En la versión de Turing, sin embargo, uno de los participantes sería humano y el otro sería una máquina de computación.

Esencialmente, la versión de Turing del juego fue un esfuerzo pionero para establecer un punto de referencia práctico para la inteligencia de las máquinas que eludía la cuestión filosófica de lo que significa “pensar”.

Turing propuso que si el interrogador no podía distinguir con fiabilidad entre las respuestas de una máquina y las de un ser humano, podía decirse que la máquina demostraba procesos de pensamiento e inteligencia similares a los humanos.

Los criterios exactos para determinar la inteligencia de una máquina siempre han sido objeto de debate, pero basándose en el artículo de Turing, a menudo se ha argumentado que si un jurado de interrogadores cree que se está comunicando con otro ser humano al menos el 70 % de las veces -cuando en realidad ha estado hablando con un programa informático-, los creadores del software pueden afirmar legítimamente que su programación de IA ha superado esta prueba de Turing.

¿Por qué es importante el Test de Turing?

La prueba de Turing es históricamente importante porque desplazó el debate de si las máquinas pueden pensar a si las máquinas pueden emular una conversación similar a la humana. Este cambio de enfoque proporcionó a la emergente comunidad informática un marco pragmático para evaluar los avances.

A lo largo de los años, la validez del Test de Turing ha alimentado muchos debates entre informáticos, filósofos y psicólogos cognitivos. Su resistencia radica en su capacidad para ser tanto un punto de referencia técnico como una herramienta filosófica para examinar y debatir si una máquina puede llegar a ser verdaderamente inteligente.

Sin embargo, el uso de la conversación como principal criterio de inteligencia creó inadvertidamente una perspectiva más estrecha de la inteligencia y negó la importancia de otros tipos de inteligencia, como la emocional, la espacial o la creativa.

Con los avances actuales en aprendizaje automático y redes neuronales, cada vez es más posible crear chatbots con arquitecturas capaces de imitar con precisión los patrones de los datos de entrenamiento.

Por ejemplo, ChatGPT-4 y Google Bard son bastante hábiles en el manejo de una amplia gama de temas de conversación y, en muchos casos, pueden producir una respuesta que es indistinguible de la de un humano.

Sin embargo, eso no significa necesariamente que el chatbot sea inteligente. En interacciones prolongadas, los grandes modelos lingüísticos que soportan los chatbots pueden alucinar y generar resultados incoherentes, contradictorios o ilógicos.

Objeciones iniciales a la prueba de Turing

Es importante señalar que, aunque ahora se reconoce a Turing como un visionario, en vida fue bastante controvertido, y su trabajo no siempre fue apreciado.

Muchos académicos y teólogos dudaban de que las máquinas pudieran llegar a emular el pensamiento humano, y las ideas más bien radicales de Turing sobre la inteligencia de las máquinas suscitaron un acalorado debate filosófico y teológico.

Sin embargo, Turing se anticipó a las objeciones a sus ideas y ofreció contraargumentos de por qué creía que las máquinas podían replicar el pensamiento humano. Esta creencia se explica en la tesis de Church-Turing.

La tesis de Church-Turing propone que cualquier cálculo o problema matemático que pueda ser resuelto por un ser humano utilizando un conjunto específico de instrucciones también puede ser resuelto por una máquina. Este concepto se convirtió en la base de la informática moderna.

Máquina de Turing frente a máquina universal de Turing

Turing introdujo por primera vez el concepto de inteligencia de máquina en su artículo de 1936 “On Computable Numbers, with an Application to the Entscheidung’s Problem”. En este artículo, Turing presentó un sencillo dispositivo teórico que, en principio, podía calcular cualquier secuencia de números si se le daban las instrucciones adecuadas.

Una máquina de Turing (MT) es un modelo matemático abstracto para la computación. En la mente de Turing, su máquina imaginaria consistía en una cinta infinita dividida en celdas, un cabezal de cinta que podía moverse a izquierda o derecha y un conjunto de estados y reglas que dictaban cómo el cabezal de cinta leía y escribía en la cinta.

Turing imaginó que cada máquina de Turing estaría diseñada para ejecutar una tarea o cálculo específico.

Turing también propuso una máquina de Turing universal. Ésta sería un tipo especial de máquina de Turing capaz de simular cualquier otra máquina de Turing.

En teoría, cuando a una UTM se le diera una descripción de otra máquina de Turing (y su entrada), la UTM podría utilizar esa información como su propia entrada.

El concepto de máquina de Turing universal introdujo la idea de que una máquina de computación podía simular cualquier otra máquina de computación si se le daban las entradas adecuadas. Esto se convirtió en la base de los programas informáticos actuales y fue un paso importante en el desarrollo de los ordenadores de propósito general.

¿Sigue siendo el Test de Turing una herramienta de evaluación válida?

El Test de Turing se considera principalmente una herramienta histórica para evaluar la IA en la actualidad.

Sin embargo, se sigue hablando de él por su impacto en la investigación de la IA. Esencialmente, Turing trasladó la pregunta filosófica “¿Pueden pensar las máquinas?” a otra pregunta que podía responderse realmente y apoyarse en datos.

Esto es importante, porque la nueva pregunta “¿Pueden las máquinas comportarse de forma indistinguible de los humanos durante una conversación?” podía responderse de forma definitiva utilizando el método científico.

Este sutil (aunque profundo) cambio de perspectiva tuvo una enorme repercusión y animó a los primeros investigadores en inteligencia artificial a poner más énfasis en el estudio del procesamiento del lenguaje natural (PLN), la comprensión del lenguaje natural (NLU) y la generación del lenguaje natural (NLG).

La IA conversacional y el Test de Turing

En las décadas posteriores a su muerte, el papel de Turing en el desciframiento del Código Enigma pasó a ser de dominio público y se reexaminaron sus aportaciones y conocimientos sobre la inteligencia artificial.

Las siguientes tecnologías y conceptos comparten un denominador común con la prueba de Turing: todos tratan de reproducir con precisión el comportamiento humano en el contexto de una máquina.

  • Chatbots: Son aplicaciones de software diseñadas para simular la conversación humana. Los primeros ejemplos pretendían imitar las interacciones humanas y eran un guiño directo a los objetivos del Test de Turing.
  • Asistentes de voz: Tecnologías como Alexa de Amazon, Google Assistant, Siri y Cortana están diseñadas para comprender y responder a los comandos del usuario de una manera similar a la humana, haciéndose eco de los puntos de referencia conversacionales de la Prueba de Turing.
  • Procesamiento del lenguaje natural (PLN): El enfoque de la Prueba de Turing en la conversación ha impulsado la investigación sobre la comprensión y la generación del lenguaje humano, lo que ha llevado al desarrollo de herramientas y algoritmos de PNL para las empresas.
  • Aprendizaje automático: Aunque no son exclusivas del Test de Turing, las técnicas de aprendizaje automático, especialmente en áreas como el aprendizaje profundo para modelos lingüísticos (por ejemplo, la serie GPT de OpenAI), pueden considerarse esfuerzos para generar resultados más parecidos a los humanos y superar el Test de Turing.
  • Plataformas de IA conversacional: Herramientas y plataformas como Dialogflow de Google o Bot Framework de Microsoft permiten crear agentes conversacionales e interfaces de usuario conversacionales (CUI).
  • CAPTCHAs: Estas pruebas, a menudo utilizadas en los sitios web para distinguir a los humanos de los bots, son una especie de Test de Turing inverso. Están diseñados para que sean fáciles de completar para los humanos, pero difíciles para las máquinas.
  • Número de Turing: Se trata de otro proceso para examinar a los usuarios humanos en línea y distinguirlos de los bots.
  • Herramientas de análisis de sentimiento: Aunque estas herramientas se centran en comprender la emoción en el texto, su objetivo es captar un aspecto humano de la comunicación que recuerda al Test de Turing.
  • Narrativa interactiva y PNJ (personajes no jugadores): En los videojuegos, los PNJ con diálogos avanzados y árboles de decisión se esfuerzan por ofrecer interacciones similares a las humanas, reflejando los ideales del Test de Turing.
  • Bots de atención al cliente: Estos bots, habituales en sitios web y canales de asistencia, intentan responder a las consultas de forma similar a la humana antes de escalar las conversaciones a un humano real, si es necesario.
  • Redes Generativas Adversariales (GAN): El proceso adversarial que utilizan las GAN para generar nuevos datos recuerda en cierto modo al Test de Turing. En ambos casos, el objetivo es producir un resultado que no se distinga de una fuente “real” o “auténtica.

El Test de Turing y la IA Generativa

El Test de Turing se menciona con frecuencia en los artículos sobre IA generativa, y eso se debe a que el Test de Turing es inherentemente generativo.

Cuando un modelo lingüístico genera una historia, un artículo o un poema, no se limita a encadenar palabras, sino que intenta crear un contenido que parezca elaborado por un ser humano.

Uno de los primeros programas informáticos que intentó entablar una conversación interactiva fue ELIZA, un chatterbot creado en los años 60 por Joseph Weizenbaum en el MIT. ELIZA se menciona a menudo en los debates sobre el Test de Turing porque fue uno de los primeros programas informáticos capaces de imitar una conversación humana y de hacer creer a los usuarios que estaban interactuando con una persona real.

En el contexto de su época, ELIZA podía considerarse generativo porque producía respuestas variadas sin necesidad de que un guionista humano especificara cada posible giro de la conversación.

Intentos famosos de superar el Test de Turing

Aunque ELIZA no se diseñó específicamente para superar el Test de Turing, la capacidad del chatbot para emular ciertos tipos de interacciones humanas lo convirtió en un hito importante en la historia de la inteligencia artificial y la interacción persona-ordenador.

Irónicamente, las respuestas y reacciones de la gente ante ELIZA también pusieron de manifiesto la tendencia humana a atribuir a las máquinas otras cualidades humanas. Este fenómeno, conocido como Efecto Eliza, puede utilizarse como sinónimo de personificación en el contexto de la tecnología de la información.

Además de ELIZA, otros chatbots notables asociados a la IA conversacional y al Test de Turing son:

PARRY (1972): Diseñado por el psiquiatra Kenneth Colby, PARRY simulaba a un paciente con esquizofrenia paranoide. Cuando PARRY utilizó el teletipo para “hablar” con una serie de psiquiatras, algunos médicos creyeron que se estaban comunicando con un ser humano real.

Racter (década de 1980): Sus creadores afirmaron que Racter fue el primer programa de inteligencia artificial que escribió un libro titulado “La barba del policía está medio hecha”. Sin embargo, se ha debatido mucho sobre el grado de intervención humana en la creación del libro.

Jabberwacky (década de 1990): Creado por el programador británico Rollo Carpenter, Jabberwacky fue diseñado para imitar la conversación humana y aprender de sus interacciones. Le sucedió Cleverbot, que participó en una prueba formal de Turing en el festival Techniche de 2011 en la India.

Eugene Goostman (2014): Este chatbot, que fue diseñado para simular la conversación de un niño ucraniano de 13 años, afirma haber superado la prueba de Turing durante una competición en la Royal Society de Londres. El bot Goostman ha competido en varios concursos de la prueba de Turing desde su creación, y quedó segundo en el concurso del Premio Loebner de 2005 y 2008.

Google Duplex (2018): Google Duplex fue diseñado para hacer reservas en restaurantes, citas en salones de belleza y tareas similares para los usuarios. Aunque el bot nunca fue un contendiente de la Prueba de Turing en el sentido tradicional, la programación es notable por su capacidad para mantener conversaciones de sonido natural por teléfono, incluso incluyendo sonidos de relleno como “umm” y “ahh.”

GPT-3 de OpenAI (2020): La tercera iteración del chatbot Generative Pre-trained Transformer de OpenAI despertó un renovado interés y debate sobre la naturaleza del contenido generado por máquinas y las limitaciones del Test de Turing.

Concursos famosos del Test de Turing

A lo largo de los años, varias competiciones utilizaron el controvertido Test de Turing para evaluar la “inteligencia” de la programación de inteligencia artificial. Entre los ejemplos históricos más conocidos se incluyen:

  • El Premio Loebner, creado en 1990 por Hugh Loebner en colaboración con el Cambridge Center for Behavioral Studies, es uno de los concursos del Test de Turing más conocidos. El Premio Loebner se suspendió en 2020.
  • El Chatterbox Challenge fue una competición anual que comenzó a principios de la década de 2000 y se celebró durante varios años. En su mejor momento, el Chatterbox Challenge fue una de las principales competiciones de chatbot.
  • El sitio web Chatbot Battle Arena enfrenta a diferentes chatbots y permite al espectador determinar qué bot debe ser el ganador. En esta competición similar al Test de Turing, el espectador determina sus propios criterios de victoria.
  • Turing100 fue organizado por la Asociación Europea de Inteligencia Artificial en 2012. Formaba parte de las celebraciones en honor del centenario del nacimiento de Alan Turing.
  • El 2K BotPrize fue un concurso celebrado en el contexto del videojuego “Unreal Tournament 2004”. En lugar de centrarse en la conversación, el reto consistía en que los programadores crearan un bot que se comportara de forma tan humana en el juego que se confundiera con un jugador humano.

Alternativas al Test de Turing

Se han propuesto varias alternativas y complementos al Test de Turing para compensar las limitaciones de la prueba. Algunas de estas evaluaciones están diseñadas para evaluar la inteligencia de las máquinas más allá de la IA conversacional:

El argumento de la habitación china es un experimento mental propuesto por el filósofo John Searle que cuestionaba la validez del Test de Turing y pretendía demostrar que es imposible que los ordenadores digitales entiendan el lenguaje o piensen.

El Test de Lovelace debe su nombre a Ada Lovelace, la primera mujer programadora. Esta prueba evalúa la capacidad de una máquina para crear contenidos originales y artísticos que no hayan sido programados explícitamente en ella.

El Test de Marcus es una prueba de inteligencia artificial propuesta por Gary Marcus, científico cognitivo de la Universidad de Nueva York. Está diseñado para evaluar la capacidad de una IA para comprender y responder a acontecimientos del mundo real.

¿Cómo se utiliza el Test de Turing hoy en día?

Aunque puede que el Test de Turing no tenga el mismo estatus que tuvo en su día en relación con la inteligencia de las máquinas, su legado persiste. La prueba sigue siendo una valiosa herramienta de debate y marketing. Estas son algunas de las formas en que se utiliza el Test de Turing hoy en día:

Concursos de IA: Aunque el Premio Loebner ya no se ofrece, todavía hay algunas pequeñas competiciones para desarrolladores de chatbot que incorporan vagamente el Test de Turing en sus criterios para evaluar la calidad de los resultados de los competidores.

Evaluación comparativa de las capacidades de procesamiento del lenguaje natural (PLN): El Test de Turing se utiliza a veces de manera informal en la comunidad de IA como referencia para el rendimiento de los algoritmos de PLN. Si un modelo de PNL puede generar respuestas similares a las humanas, suele decirse que es Turing Completo o apto para la Prueba de Turing, aunque el modelo no se haya sometido a una prueba formal.

Herramienta educativa: El Test de Turing se discute con frecuencia en cursos académicos relacionados con la IA, la computación cognitiva y la filosofía. The Imitation Game sigue siendo útil como punto de partida para exploraciones más profundas sobre la inteligencia de las máquinas sensibles y el concepto de conciencia.

Medios de comunicación y cultura popular: A menudo se hace referencia al Test de Turing en películas, literatura y debates relacionados con robots, androides y máquinas conscientes de sí mismas.

Ética: Los recientes avances, sobre todo en los modelos de IA generativa basados en voz, vídeo y texto, han dado lugar a nuevos debates sobre las implicaciones de la Prueba de Turing. Si una máquina puede imitar de forma convincente a un ser humano, pueden producirse consecuencias en términos de engaño y confianza, así como en el uso ético de estas tecnologías.

Marketing: Las empresas que desarrollan chatbots, asistentes de voz y otros agentes conversacionales suelen hacer referencia al Test de Turing como medida de lo “humano” que es su software generativo. En este contexto, el Test de Turing se utiliza más como término promocional que como referencia real.

Temas relacionados

Margaret Rouse

Margaret Rouse es una galardonada escritora técnica y profesora conocida por su habilidad para explicar temas técnicos complejos a una audiencia de negocios no técnica. Durante los últimos veinte años, sus explicaciones han aparecido en sitios web de TechTarget y ha sido citada como autoridad en artículos del New York Times, Time Magazine, USA Today, ZDNet, PC Magazine y Discovery Magazine. La idea de diversión de Margaret es ayudar a profesionales de TI y negocios a aprender a hablar los idiomas altamente especializados de cada uno. Si tienes una sugerencia para una nueva definición o cómo mejorar una explicación técnica,…