Si ha seguido la evolución de la IA generativa desde que ChatGPT debutó en 2022 y luego la proliferación del espacio con chatbots de IA de diversas capacidades, estará de acuerdo en que estamos llegando a un punto de saturación.
A mediados de 2024, la llegada de nuevos grandes modelos lingüísticos (LLM) para generar vídeos, textos y códigos fue recibida con indiferencia, y a medida que llegaban más, perdían su punto de venta único. Ahora la atención se centra en los agentes de IA. Más concretamente, ¿serán capaces de “saltar a un sistema operativo y empezar a utilizarlo”?
Microsoft estudió la capacidad de una serie de sistemas de inteligencia artificial para navegar por las interfaces gráficas cotidianas. En este eslabón que falta para que la IA funcione con nuestras herramientas cotidianas, el resultado es desigual.
Puntos clave
- Los agentes GUI de IA pretenden automatizar tareas navegando por interfaces informáticas como Windows o MacOS.
- Los Large Action Models (LAM) especializados podrían proporcionar una vía para que la IA interactúe con nuestras herramientas y programas cotidianos.
- Los agentes de IA están llegando rápidamente, y se prevé que el mercado mundial de agentes de IA crezca hasta los 47.000 millones de dólares en 2030, pero la tecnología desde el punto de vista de la interfaz gráfica de usuario no está del todo lista para la corriente principal.
- Los estudios de Microsoft son prometedores entre los servicios de IA convencionales, pero también ponen de relieve la complejidad y las lagunas en los conjuntos de datos.
- Las preocupaciones éticas y la pérdida de puestos de trabajo se ciernen a medida que aumenta la adopción.
El hambre de asistentes de IA en la empresa
Cuando la startup de IA Anthropic anunció «Computer Use» en octubre de 2024, se consideró el próximo gran salto en la carrera de la GenAI y, quizás, con razón.
Básicamente, «uso del ordenador» describe un agente de interfaz gráfica de usuario (GUI) o agente de IA que puede hacer clic por nosotros, o como Anthropic lo puso, un agente de IA que puede «utilizar los ordenadores de la misma manera que lo hacen las personas.»
La perspectiva de automatizar tareas a partir de una simple descripción de texto es increíblemente tentadora.
Aunque Anthropic se ha adelantado en la carrera al ser el primero en lanzar un agente de IA (en beta pública), otros actores como Microsoft y Google han anunciado hazañas similares. Al parecer, OpenAI está preparando uno, cuyo nombre en clave es «Operator», para lanzarlo en enero.
El apetito por los agentes de IA se está disparando debido a su potencial para aumentar la productividad y reducir los costes de las empresas.
Según PRNewswire, se prevé que el mercado mundial de agentes de IA despegue el año que viene, pasando de 5.000 millones de dólares en 2024 a 47.000 millones en 2030.
A medida que nos acercamos al final de 2024, las empresas se apresuran a hacerse un hueco en este lucrativo mercado. Salesforce, por ejemplo, ya ha contratado a más de 200 empresas para implantar sus agentes de IA, entre ellas grandes nombres como Accenture, FedEx e IBM.
Con tanto en juego, la carrera por los agentes de IA para empresas se está poniendo al rojo vivo, y cualquiera puede ganar.
¿Están preparados los agentes de IA para el escritorio? Estudio de Microsoft
Para comprender sus capacidades y su precisión, especialmente en los lugares de trabajo de las empresas, los investigadores de Microsoft y sus socios académicos trataron de averiguar hasta qué punto se pueden aplicar a los flujos de trabajo los agentes con interfaz gráfica de usuario impulsados por la IA.
El estudio también exploró cómo estos agentes manejan navegaciones de software complejas en diferentes sistemas operativos (PDF) e interfaces móviles y de escritorio.
En el lado positivo, descubrieron que, a diferencia de los agentes de software tradicionales, los agentes basados en LLM pueden procesar datos visuales de las pantallas y seguir instrucciones habladas o escritas, lo que les permite gestionar tareas intrincadas sin intervención humana directa.
También descubrieron que estos agentes se adaptan rápidamente a nuevas tareas dentro de entornos de software familiares.
El estudio también puso a prueba su capacidad para manejar instrucciones ambiguas y adaptarse a distintas aplicaciones informáticas.
Los resultados mostraron que podían entender órdenes poco claras y cambiar entre entornos de escritorio y web con facilidad. Esto abre la puerta a la integración de estos agentes en sistemas de IA más amplios, ampliando aún más su utilidad.
En el lado negativo, el estudio concluye que los agentes de interfaz gráfica de escritorio se ven defraudados por la relativa falta de conjuntos de datos específicos, sobre todo en comparación con las plataformas móviles y web. Y ello a pesar del papel crucial que desempeña el escritorio en aplicaciones como las herramientas de productividad y el software empresarial.
Además, aunque los agentes de GUI actuales, que se construyen a partir de modelos fundacionales como GPT-4o y Claude 3.5 Sonnet (Uso del ordenador), son lo suficientemente inteligentes como para servir de punto de partida, los investigadores señalan que se quedan cortos a la hora de abordar las complejidades únicas de las tareas basadas en GUI.
Estos resultados corroboran los de un estudio reciente según el cual el agente de IA Claude 3.5 de Anthropic carece de capacidad para manejar operaciones complejas de varios pasos. Y ello a pesar de mostrar una tasa de éxito del 87% en tareas informáticas básicas y del 92% en tareas de navegación.
Son cifras excelentes, pero quizá no lo bastante buenas como para dejar que la IA se encargue de tu hoja de cálculo.
Los agentes de IA basados en LLM pueden quedarse cortos sin los LAM
Para mejorar la eficacia y precisión de los agentes de la interfaz gráfica de usuario, los investigadores de Microsoft proponen basarse en los grandes modelos lingüísticos fundamentales para convertirlos en grandes modelos de acción especializados (LAM).
Los agentes especializados están «diseñados para mejorar el rendimiento y la eficacia de los agentes GUI». Estos LAM tienden un puente entre las capacidades de propósito general y las demandas específicas de las interacciones basadas en GUI».
También sostienen que los LAM permitirían a los agentes GUI manejar tareas intrincadas de forma más fluida y coherente.
Este cambio no sólo mejoraría su eficacia general, sino que también ayudaría a las empresas a confiar más en estos agentes para reducir las tareas repetitivas y mejorar la productividad en general.
Para subsanar la falta de conjuntos de datos dedicados a los agentes GUI de escritorio, los investigadores recomiendan dar prioridad al desarrollo de conjuntos de datos especializados y de alta calidad adaptados a los entornos de escritorio.
Los investigadores sostienen que con estos conjuntos de datos específicos, los desarrolladores pueden entrenar a los modelos de acción generalizada (Large Action Models, LAM) para que comprendan mejor las dificultades específicas de las interfaces de escritorio y se desenvuelvan mejor en ellas.
Subrayan que dedicar recursos a la creación de estos conjuntos de datos no sólo reduciría la diferencia de rendimiento entre los agentes de escritorio y los diseñados para plataformas móviles o web, sino que también allanaría el camino para una adopción más amplia de los agentes de IA por parte de las empresas.
Conclusión
Los agentes de IA representan una frontera prometedora en la automatización de tareas y el aumento de la eficiencia mediante la inteligencia artificial. Sam Altman, CEO de OpenAI, los llama «el próximo gran avance».
A pesar de que los estudios sugieren que aún necesitan un gran ajuste, es probable que los agentes de IA los introduzcan en el mercado antes de 2025.
Cuando las cosas tomen la forma adecuada, el potencial de los agentes de IA para encargarse de una amplia gama de tareas, desde la atención al cliente hasta la gestión de proyectos, está ahí. Sin duda, se perderán puestos de trabajo.
Si hay que obligar a los agentes de IA a entrar en el mercado, los grandes actores deben proporcionar una supervisión humana adecuada. Los organismos reguladores también tendrán un papel de gobernanza que desempeñar para garantizar que no se pierda la prudencia cuando estos agentes empiecen a hacer clic por nosotros.