El código abierto y otros factores para sacar más partido a la IA

Fiabilidad

Al introducir la inteligencia artificial (IA) en el mundo laboral, los desarrolladores y las organizaciones suelen invertir en la licencia de los mejores modelos de grandes lenguajes (LLM) y luego compran las GPU más caras. ¿Quién no quiere el modelo premium?

Sin embargo, hay otras formas de maximizar el rendimiento de la IA de forma rentable, desde el despliegue de código abierto hasta la maximización del uso de la unidad de procesamiento gráfico (GPU), como equilibrar cuidadosamente las demandas del sistema y prestar atención a la disipación del calor.

A medida que los modelos LLM de código abierto empiezan a ganar terreno frente a la IA de código cerrado, Techopedia habla con expertos en la materia para saber cómo los desarrolladores y las empresas de cualquier tamaño pueden maximizar los recursos existentes mediante técnicas como la gestión de la GPU y el aprovechamiento de las tecnologías de código abierto.

Las empresas pueden pensar que la mejor solución para desarrollar sistemas de IA de alto rendimiento es arrojar dinero al problema, pero este enfoque de fuerza bruta tiene un precio elevado.

Puntos clave

  • Aunque las tendencias actuales muestran que las empresas están tirando el dinero en el problema de la IA comprando potentes modelos LLM y GPU para impulsar la IA, los expertos dicen que hay formas más inteligentes de sobrealimentar la IA.
  • Merece la pena explorar nuevos modelos de código abierto en comparación con sus homólogos de pago.
  • Las soluciones de código abierto como ClearML son capaces de dividir, gestionar y controlar el uso de la GPU y maximizar la eficiencia y el rendimiento de la IA.
  • Los sistemas de energía y refrigeración de la GPU y las herramientas y tecnologías de código abierto pueden ayudar a las organizaciones con una tecnología económica, ética y rentable.

Más allá de la fuerza bruta: Estrategias inteligentes para el desarrollo de la IA

Mientras el mundo oye hablar mucho de hacer que la IA generativa sea más accesible, libre y transparente, los desarrolladores tienen conocimientos internos sobre cómo tomar un camino diferente para alcanzar los mismos objetivos.

Ya se trate de desarrollar, escalar o entrenar modelos de IA, las herramientas de código abierto pueden impulsar la eficiencia energética dentro de las propias GPU, reduciendo costes y mejorando al mismo tiempo la precisión, el rendimiento y el tiempo de implementación.

Sylvester Kaczmarek, director técnico de OrbiSky Systems y antiguo colaborador en proyectos de la NASA y la ESA, habló sobre las demandas de computación de IA-ML, la gestión de GPU y otras soluciones de código abierto.

Kaczmarek afirmó

“La IA y los modelos de aprendizaje automático requieren importantes recursos computacionales debido a la complejidad y el volumen de datos que procesan. El entrenamiento de estos modelos implica múltiples iteraciones sobre vastos conjuntos de datos para ajustar y optimizar los parámetros que guían sus procesos de toma de decisiones.

“Las GPU son fundamentales en este contexto porque pueden manejar miles de hilos simultáneamente, lo que acelera considerablemente las tareas de cálculo y procesamiento de datos, algo vital para la eficiencia y escalabilidad de los sistemas de IA”.

En cuanto a la gestión del uso de la GPU, Kaczmarek destacó varias innovaciones:

“Una de las formas más innovadoras que tienen los desarrolladores de gestionar el uso de la GPU para maximizar el rendimiento de la IA es mediante la asignación dinámica y la programación eficiente.

“Técnicas como la multitenencia, en la que varias tareas de IA comparten los mismos recursos de la GPU sin entrar en conflicto, y la programación predictiva, que asigna los recursos de la GPU en función de la carga de trabajo prevista, son cruciales”.

Kaczmarek explicó que las tecnologías de contenedorización como Docker, junto con Kubernetes para la orquestación, permiten un despliegue escalable y eficiente de las aplicaciones de IA, optimizando la utilización de la GPU en los clústeres.

“Existen varias soluciones de código abierto notables para gestionar, supervisar y configurar el uso de la GPU”, afirmó Kaczmarek.

Kaczmarek destacó el Data Center GPU Manager (DCGM) de NVIDIA, junto con el GPUView gratuito -parte del kernel de Linux que ofrece información exhaustiva sobre el rendimiento y la utilización de la GPU- y el Prometheus de código abierto, junto con Grafana, que puede utilizarse para monitorizar las métricas de la GPU en tiempo real, lo que permite un análisis detallado y la optimización del uso de la GPU en proyectos de IA.

Energía para la IA: Tecnología para la eficiencia de la IA

El informe 2024 de la Agencia Internacional de la Energía (AIE) predice que el consumo de energía de los centros de datos, la IA y el blockchain podría duplicar el consumo mundial de energía del sector para 2026.

El informe revela que tras consumir globalmente unos 460 teravatios-hora (TWh) en 2022, el consumo total de electricidad de los centros de datos podría alcanzar más de 1.000 TWh en 2026.

Rick Bentley, director general de Cloudastructure -empresa de vigilancia y vigilancia remota de IA y asesor de Google en el momento en que Tensorflow se hizo de código abierto-, habló con Techopedia sobre el consumo de energía de la IA y cómo puede ayudar también a maximizar los recursos.

“El suministro de energía -la primera parte de nuestra ecuación- siempre equivale a calor. Disipar el calor es un reto.

“Cada vatio que consume una GPU en un centro de datos tiene que ser refrigerado por el sistema HVAC. Los sistemas HVAC pueden consumir 2 vatios para enfriar 1 vatio de calor. Esos 3 vatios necesarios para hacer funcionar y enfriar 1 vatio tienen que estar respaldados por el sistema eléctrico en caso de que se pierda la alimentación del edificio”.

Ahí es donde entra en juego la refrigeración por agua. “Cuando una tarjeta se calienta, hay que estrangularla”, explicó Bentley.

“Esto significa que estás pagando por una GPU muy cara y potente que sólo puedes hacer funcionar quizá al 50% de potencia hasta que vuelva a enfriarse”.

“La refrigeración por aire, es decir, tener un gran disipador de calor metálico en la tarjeta por el que soplan aire los ventiladores, no es tan eficaz como la refrigeración por agua. Con la refrigeración por agua, colocas un bloque de agua en la tarjeta y haces correr agua fría a través de él.

“El agua se calienta en la tarjeta y se conduce a través de mangueras a un radiador para disipar el calor. Esto puede estar fuera del centro de datos y aliviarlo de los 2 vatios de HVAC gastados para disipar cada vatio de calor”.

Empresas como Lenovo ofrecen ahora nuevas soluciones diseñadas exclusivamente para soportar la arquitectura de NVIDIA. La tecnología de colación, llamada Neptune, está diseñada como ingeniería de vanguardia para permitir una computación más eficiente de las cargas de trabajo intensas de IA, con un enfoque en la reducción del consumo de energía incluso a altos niveles de GPU.

Bentley afirmó que, al refrigerar con agua la infraestructura de IA, se gestionan mejor los recursos. Además, Bentley dijo que los pequeños cambios pueden tener un impacto, por ejemplo ejecutando modelos de entrenamiento en el hardware en horas de poco uso.

¿Por qué son vitales las tecnologías de código abierto para la transformación de la IA de género?

Para muchos en la industria, no hay debate sobre el papel que la tecnología de código abierto tiene para el futuro de la GenAI. Populares entre los desarrolladores, las tecnologías de IA de código abierto ofrecen numerosas ventajas sobre las soluciones de código cerrado.

Erik Sereringhaus, fundador y director general de Bloomfilter, habló con Techopedia sobre el tema y sobre por qué cree que el código abierto es el lugar adecuado para la revolución de la GenAI.

“Todo el mundo está invitado. Las herramientas de código abierto nivelan el campo de juego, dando a todo el mundo acceso a la tecnología de IA de vanguardia sin arruinarse. Con el software de código abierto, puedes echar un vistazo bajo el capó, ajustar las cosas y ver exactamente lo que está pasando. Es como tener visión de rayos X para tu código”.

Sereringhaus añadió que la comunidad de código abierto es “un grupo de desarrolladores que colaboran, comparten ideas y hacen cosas geniales juntos”.

“Con los conocimientos y herramientas adecuados, puedes liberar todo el potencial de tu GPU y subirte a la ola de la revolución GenAI como un jefe”.

Sereringhaus afirmó que el código abierto ayuda a los equipos de IA a hacer que esas GPU trabajen de forma más inteligente, no más dura. Pidió a los desarrolladores que introdujeran los datos en las GPU por lotes, recortaran la “grasa” de sus modelos de IA sin sacrificar el rendimiento y dividieran el trabajo entre varias GPU.

ClearML lanza una tecnología gratuita para dividir el uso de la GPU y supervisar los recursos de IA

Las tecnologías y plataformas de código abierto como ClearML trabajan para democratizar el acceso a la infraestructura de IA y permitir que cualquier desarrollador contribuya a los avances en el aprendizaje profundo y la IA generativa y se beneficie de ellos.

El 18 de marzo, ClearML -la popular plataforma de ML gratuita y de código abierto utilizada por más de 250.000 desarrolladores– anunció la capacidad gratuita de GPU fraccionaria para usuarios de código abierto, lo que permite el multi-tenancy para todas las GPU NVIDIA y nuevas capacidades de orquestación para ampliar el control sobre la gestión de la infraestructura de IA y el coste computacional.

Diseñada para una amplia gama de profesionales del campo de la IA y el aprendizaje automático, incluidos los líderes de infraestructura de IA y los científicos de datos, la plataforma ayuda a las organizaciones que necesitan optimizar sus crecientes cargas de trabajo de GPU al tiempo que optimizan los recursos de hardware de GPU y mejoran la eficiencia sin incurrir en costes de hardware adicionales.

Moses Guttmann, director general y cofundador de ClearML, declaró a Techopedia:

“Nuestra nueva tecnología permite a los usuarios de código abierto particionar dinámicamente una sola GPU, permitiéndole ejecutar simultáneamente múltiples tareas de IA dentro de un contenedor seguro limitado por la memoria.

“Esto se consigue particionando la GPU en unidades más pequeñas y distintas que pueden manejar de forma independiente diferentes cargas de trabajo de IA y limitaciones de memoria de la GPU.

“Este método aprovecha la tecnología de división temporal de NVIDIA, así como nuestro nuevo limitador de contenedor con controlador de memoria, lo que permite un uso más eficiente de la capacidad de procesamiento de la GPU.

“También es valioso para las industrias en las que la IA y el aprendizaje automático evolucionan rápidamente y en las que la utilización eficiente de los recursos es fundamental”.

Guttman señala que existen otras herramientas de código abierto que pueden ayudar parcialmente a gestionar los recursos de la GPU; por ejemplo, Kubernetes puede utilizarse para orquestar aplicaciones en contenedores y optimizar el uso de la GPU en los clusters.

Equilibrar los estándares de velocidad, energía, memoria y precisión

En el mundo del aprendizaje automático, donde los ordenadores aprenden a partir de grandes cantidades de datos, la forma en que se almacenan y procesan los números desempeña un papel crucial. Tres estándares clave, FP32, FP16 e INT8, representan diferentes niveles de precisión.

FP32, también conocido como punto flotante de precisión única, es el formato más común. Ofrece un alto nivel de detalle, garantizando la exactitud de los cálculos. Sin embargo, esta precisión tiene un coste. FP32 requiere más memoria y potencia de procesamiento, lo que conlleva cálculos más lentos y un mayor consumo de energía.

FP16 (coma flotante de media precisión) e INT8 (entero de 8 bits) están diseñados para lograr un equilibrio entre rendimiento y uso de recursos.

FP16 utiliza la mitad de memoria que FP32, lo que permite realizar cálculos más rápidos y reducir las necesidades energéticas.

Sin embargo, esto conlleva una ligera reducción de la precisión que, en la mayoría de las aplicaciones, es insignificante.

INT8 lleva esta eficiencia aún más lejos. Al utilizar sólo 8 bits para representar números, ofrece la mayor velocidad de procesamiento y la menor huella de memoria. Sin embargo, INT8 sacrifica la mayor precisión, por lo que es adecuado para tareas en las que la alta precisión es menos crítica.

Bentley habló de cómo estos estándares pueden gestionarse de forma innovadora.

“Una de las otras formas inteligentes de mejorar la eficiencia es utilizar la precisión FP16 o INT8 para los cálculos en lugar de la precisión FP32, más comúnmente utilizada.

“En el aprendizaje profundo, las entradas y los valores intermedios suelen normalizarse o estandarizarse para tener valores que caigan dentro de un rango específico, normalmente en torno a 0, con pequeñas desviaciones estándar. Así que no necesitamos grandes números para almacenarlos.

“Además, al utilizar una precisión menor, se reduce la cantidad de datos que hay que procesar y almacenar en un momento dado, lo que también puede conducir a un menor uso del ancho de banda de la memoria y a unos requisitos de memoria potencialmente menores”.

Bentley añadió que las GPU modernas y los aceleradores de hardware especializados están cada vez más diseñados para soportar estos formatos de menor precisión de forma eficiente, con unidades de hardware optimizadas específicamente para operaciones FP16 e INT8.

“Esto significa que el cambio a una precisión más baja no sólo ahorra recursos, sino que también puede ser aprovechado plenamente por el hardware para lograr mejoras de rendimiento aún mayores.”

Lo esencial

Aunque las herramientas mencionadas por Sereringhaus, como NVIDIA CUDA Toolkit, TensorFlow y PyTorch, Kubernetes con soporte para GPU y RAPIDS, son bien conocidas en la comunidad por su capacidad de gestión de la GPU y racionalización de la eficiencia de la IA, seguirán apareciendo nuevas herramientas de código abierto. Como nos dijo Kaczmarek

El código abierto promueve la colaboración, reduce las barreras de entrada y fomenta la innovación al poner las herramientas y los marcos de trabajo a disposición de una comunidad de desarrolladores más amplia. También se alinea con los principios de transparencia y desarrollo ético de la IA”.

Más personas trabajando en el mismo problema y compartiendo sus resultados nos aportarán soluciones mucho más rápidamente.

Temas relacionados

Artículos relacionados

Maria Webb
Tech Journalist
Maria Webb
Periodista especializada en tecnología

Especialista en contenidos con más de 5 años de experiencia periodística, Maria Webb es actualmente una periodista especializada en tecnología para Business2Community y Techopedia, y se especializa en artículos basados en datos. Tiene especial interés en la IA y el posthumanismo. Su trayectoria periodística incluye dos años como periodista estadística en Eurostat, donde elaboró atractivos artículos centrados en datos, y tres años en Newsbook.com.mt, donde cubrió noticias locales e internacionales.