La IA interactiva es la próxima fase de la IA generativa

Fiabilidad
Resumen

El artículo explora la transición de la IA Generativa a la IA Interactiva, haciendo hincapié en la importancia de romper las barreras lingüísticas entre las distintas tecnologías. Analiza los avances de la IA en la resolución de problemas, el uso de herramientas externas y su capacidad para seguir instrucciones humanas. La colaboración entre investigadores y tecnólogos está impulsando la IA hacia la orquestación eficaz de tareas complejas, lo que supone un salto significativo en este campo.

Imagínate un mundo muy parecido a la legendaria Torre de Babel, donde cada uno destaca en su campo pero habla en lenguas diferentes.

Tu misión es construir esta gran torre. Para conquistar esta tarea monumental, hay que planificar meticulosamente, dividir la tarea en pasos manejables, reunir el equipo adecuado para cada función, descodificar sus idiomas para una comunicación fluida y garantizar una coordinación perfecta.

Este esfuerzo hercúleo requiere una planificación magistral, un profundo conocimiento de la experiencia de cada persona, fluidez multilingüe y una coordinación eficaz.

Durante años, ha gestionado con pericia esta compleja tarea. Entonces, se topa con un intérprete, alguien que puede traducir sin esfuerzo sus instrucciones de su idioma a los diversos idiomas de su equipo.

Aunque este descubrimiento supone un gran alivio, sus responsabilidades de planificación, selección de equipos y coordinación persisten.

Pero, ¿y si este intérprete pudiera convertirse en algo más que un simple traductor? ¿Y si pudiera ser un genio estratégico, un cazatalentos y un coordinador maestro?

Esta analogía refleja a la perfección el panorama tecnológico actual, en el que cada tecnología destaca en un ámbito específico y se comunica en su propio idioma.

Nosotros somos los constructores de esta torre digital, y nos apoyamos en diversas tecnologías para alcanzar nuestros objetivos. El intérprete que hemos descubierto es la IA generativa.

Capacitar a la IA generativa para que asuma todas nuestras responsabilidades y ejecute las tareas marca una frontera innovadora en el campo de la inteligencia artificial, un ámbito conocido como IA interactiva.

¿Qué es la IA interactiva?

El término «IA interactiva» fue acuñado el mes pasado por Mustafa Suleyman, cofundador de DeepMind, definiéndola como la siguiente evolución de la IA generativa, centrada en el desarrollo de robots capaces de ejecutar tareas asignadas orquestando otros programas informáticos y recursos humanos.

Aunque este término ha generado un gran revuelo en Internet, sigue faltando información sobre lo que hace que estos sistemas interactivos de IA sean tan eficaces. En este artículo, nos adentramos en el mundo de la IA interactiva, tratando de comprender sus fundamentos y evaluando los avances realizados en este campo.

El papel de la IA generativa

La IA Generativa, abreviatura de Inteligencia Artificial Generativa, se refiere a un subconjunto de tecnologías de inteligencia artificial diseñadas para generar contenidos, datos o información. Estos sistemas pueden producir contenidos nuevos y originales en lugar de limitarse a tomar decisiones o hacer predicciones basadas en datos existentes.

La IA generativa funciona aprendiendo patrones, estilos y estructuras a partir de grandes conjuntos de datos y utilizando después estos conocimientos para crear algo nuevo.

Una de las aplicaciones más conocidas de la IA generativa es el procesamiento del lenguaje natural, donde se han desarrollado modelos como ChatGPT (siglas de Generative Pre-trained Transformer) para generar texto similar al humano. Estos modelos pueden escribir textos coherentes y contextualmente relevantes, responder preguntas, generar textos creativos e incluso realizar traducciones.

La transición de la IA generativa a la IA interactiva

En el contexto de nuestra analogía de la Torre de Babel, en la que pretendemos capacitar a la IA Generativa (actuando como intérprete) para que asuma todas las tareas relacionadas con la construcción de la torre, reconocemos que la IA Generativa necesita tres capacidades fundamentales:

1)La capacidad de seguir instrucciones humanas

2)Acceso a diversas tecnologías (denominadas «trabajadores»)

3)Capacidades de planificación.

Aunque la IA Generativa no se diseñó inicialmente con estas capacidades en mente, están surgiendo investigaciones en el ámbito para abarcarlas. En las secciones siguientes se explican los trabajos en curso en estos ámbitos.

Dotar a la IA Generativa de capacidades de planificación y resolución de problemas

La IA generativa, que trabaja con textos similares a los humanos, está mejorando su capacidad de pensar y resolver problemas mediante el «aprendizaje en contexto». Esto implica dar a la IA cierta información (indicaciones y respuestas) antes de una tarea creativa.

Por ejemplo, una técnica llamada «Chain-of-Thought Prompting», desarrollada por Google, entrena a la IA dándole indicaciones y respuestas en una secuencia. Esto ayuda a la IA a pensar de forma lógica y a elaborar planes eficaces para resolver problemas.

Para problemas más complejos con múltiples soluciones, investigadores de la Universidad de Princeton y DeepMind de Google han desarrollado el «árbol del pensamiento». El ToT organiza las indicaciones en forma de árbol de decisiones, lo que permite a la IA explorar diferentes enfoques y encontrar soluciones creativas.

El «Algorithm of Thoughts (AoT)» de Microsoft va un paso más allá, permitiendo a la IA razonar y resolver problemas matemáticos como los humanos. AoT es eficiente, ya que agiliza el proceso de pensamiento en un único contexto, a diferencia de otros métodos que requieren numerosas consultas.

Potenciar la IA Generativa para utilizar herramientas externas

Una apasionante frontera de la IA Generativa es permitir que estos sistemas de IA utilicen herramientas externas. Los investigadores de Meta han dado un paso importante en esta dirección al presentar «Toolformer», un modelo lingüístico. Este modelo está diseñado para utilizar de forma independiente herramientas externas como motores de búsqueda y calculadoras, todo ello sin necesidad de una amplia orientación humana.

Además, un esfuerzo de colaboración entre investigadores de la UC Berkeley y Microsoft Research ha ampliado las capacidades de los grandes modelos lingüísticos (LLM).

Han creado un modelo llamado «Gorilla», basado en LLaMa, un modelo lingüístico de código abierto de Meta. Gorilla está preparado para interactuar con una amplia gama de herramientas a través de llamadas a la API, lo que abre nuevas posibilidades de integración de la IA con diversos programas y plataformas.

Este enfoque se ve reforzado por la creación del «conjunto de datos APIBench», que engloba una variada colección de llamadas a API de plataformas como HuggingFace, TorchHub y TensorHub. Este desarrollo está dando forma al futuro de la IA Generativa, haciéndola aún más versátil y capaz de utilizar recursos externos.

Capacitar a la IA Generativa para seguir instrucciones

Los modelos lingüísticos de la IA Generativa no están diseñados principalmente para seguir instrucciones. Su entrenamiento inicial gira en torno a la predicción de la siguiente palabra del texto, lo cual es muy distinto del objetivo de que sigan las instrucciones del usuario. Sin embargo, el campo de la IA Generativa está avanzando rápidamente en esta dirección.

Un método eficaz que está ganando adeptos es el «aprendizaje por refuerzo a partir de comentarios humanos (RLHF), en el que se guía a un modelo lingüístico preentrenado para que siga instrucciones humanas basándose en los comentarios de los usuarios. Un ejemplo de este enfoque es «InstructGPT», un modelo GPT perfeccionado diseñado explícitamente para seguir instrucciones humanas.

Otro avance digno de mención es el estudio sobre «Aprendizaje de instrucciones en contexto», que emplea técnicas de aprendizaje en contexto para mejorar la capacidad de los modelos lingüísticos de seguir instrucciones.

Aunque este estudio se centra principalmente en tareas específicas, demuestra cómo el entrenamiento basado en instrucciones puede mejorar significativamente la alineación entre la intención humana y el comportamiento de la IA.

En resumen

El viaje de la IA generativa a la IA interactiva está marcado por avances significativos en el equipamiento de los sistemas de IA con la capacidad de planificar, resolver problemas, utilizar herramientas externas y seguir instrucciones.

A medida que vayamos rompiendo las barreras lingüísticas entre las distintas tecnologías y ámbitos, la IA interactiva está llamada a revolucionar la forma en que interactuamos con los sistemas basados en IA y les sacamos partido.

Los esfuerzos interdisciplinarios de investigadores y tecnólogos nos acercan a un futuro en el que la IA pueda orquestar sin problemas tareas complejas, convirtiéndose en algo más que meros intérpretes y evolucionando hacia genios estratégicos que nos capaciten de formas sin precedentes.

Temas relacionados

Artículos relacionados

Dr. Tehseen Zia
Tenured Associate Professor
Dr. Tehseen Zia
Profesor titular asociado, Universidad COMSATS de Islamabad (CUI)

El Dr. Tehseen Zia tiene un doctorado y más de 10 años de experiencia investigadora postdoctoral en Inteligencia Artificial (IA). Es profesor titular asociado y dirige la investigación sobre IA en la Universidad Comsats de Islamabad, y coinvestigador principal en el Centro Nacional de Inteligencia Artificial de Pakistán. En el pasado, trabajó como consultor de investigación en el proyecto Dream4cars, financiado por la Unión Europea.