El límite físico de la IA: Es hora de un poco de realidad

Creo que todos pasamos los últimos dos años escuchando a visionarios que prometían una escalabilidad infinita y cerebros digitales que resolverían todos los problemas corporativos. Propusieron un futuro donde el código se escribe solo y el software empresarial funciona con puro pensamiento. Bueno, probablemente se olvidaron de revisar el inventario de hardware.

Hace unos días, MarketWatch publicó un artículo claro: las empresas de IA están limitando los recursos computacionales para contener los costos operativos descontrolados.

La razón fundamental es física y matemática. No hay suficientes chips para todos, y la memoria de las computadoras ya se ha encarecido debido a las infinitas demandas de la IA. Estamos presenciando el choque entre el ciclo de la euforia tecnológica y las leyes de la física.

El RAMpocalipsis y la situación del hardware

Estamos experimentando lo que los analistas de la industria han comenzado a llamar el RAMpocalipsis. Los fabricantes de semiconductores han desviado enormes porciones de su capacidad de producción para satisfacer las demandas de la IA.

Están dando prioridad a la memoria de alto ancho de banda (HBM, por sus siglas en inglés) necesaria para operar centros de datos de IA masivos. Las fundiciones tienen un espacio físico limitado, y la modernización de una planta de fabricación lleva años, no meses.

El resultado del mercado es despiadado para todos los demás. Los precios de la memoria DRAM se han disparado un 171% en el último año. El coste de los módulos DDR5 estándar se ha cuadruplicado.

Ni siquiera los presupuestos multimillonarios de Google o Microsoft pueden alterar la realidad de la cadena de suministro global.

No pueden imprimir silicio de la nada. No pueden generar más electricidad para refrigerar centros de datos a hiperescala.

Calcular el racionamiento

Entre bastidores, los proveedores de modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) están aplicando técnicas extremas de racionamiento para gestionar la carga de sus servidores. La computación en la nube ilimitada que dábamos por sentada está mostrando sus límites.

Estamos hablando de degradaciones silenciosas y una reducción de parámetros activos. Un usuario empresarial de alto nivel que paga un precio superior podría recibir la máxima potencia de cálculo disponible.

Sin embargo, las llamadas estándar a la API se redirigen a configuraciones más ligeras y con menos capacidad. Esto ocurre sin previo aviso al usuario final ni al desarrollador que utiliza dicha API.

Construir un ecosistema corporativo fiable sobre una infraestructura que limita tus recursos cuando los servidores se sobrecargan es una receta perfecta para un gran desastre.

Al igual que muchos otros consultores, he visto de primera mano las consecuencias de una infraestructura impredecible. Gestionar una cadena de suministro global con un sistema que decide "pensar más despacio" durante las horas punta es una pesadilla.

El SaaSpocalipsis siempre fue una fantasía

Esto me lleva de nuevo a una dinámica que abordé hace unas semanas al hablar de la ilusión del SaaSpocalypse. La narrativa de Silicon Valley era audaz.

Nos prometieron que los agentes de IA autónomos reescribirían sistemas enteros sobre la marcha. Los visionarios afirmaban que el modelo SaaS tradicional sería reemplazado por código personalizado generado en tiempo real por inteligencia artificial.

Fue una narrativa fascinante que generó cierto pánico en el mercado. Su error fatal fue dar por sentado que la capacidad de procesamiento era infinita, barata y accesible. Construir un modelo de negocio empresarial estable y escalable sobre una base de procesamiento racionado es una batalla perdida. La prometedora generación de ERP en tiempo real se desmorona cuando el motor subyacente tiene dificultades para procesar las solicitudes API básicas durante los picos de tráfico.

La obsesión por la aceleración frente a la realidad energética

El mundo empresarial está obsesionado con la palabra "aceleración". Todos los proveedores prometen flujos de trabajo más rápidos y agentes autónomos. Hemos eliminado por completo el término "ahorro de energía" de nuestro vocabulario.

Existe la creencia errónea de que los modelos de IA más recientes son cada vez más eficientes. Sin embargo, los datos reales demuestran lo contrario. Los modelos más nuevos y de mayor tamaño requieren una cantidad de energía exponencialmente mayor.

El entrenamiento de un modelo básico como GPT-3 consumía aproximadamente 1287 megavatios-hora (MWh), lo que equivale al consumo eléctrico anual de 120 hogares estadounidenses. Los modelos de razonamiento avanzados actuales requieren mucha más capacidad de procesamiento.

Una búsqueda web estándar consume aproximadamente 0,3 vatios-hora. Una consulta estándar de IA consume casi diez veces esa cantidad. Si se utilizan modelos de razonamiento profundo que analizan los pasos antes de responder, una sola consulta puede llegar a consumir hasta 45 vatios-hora.

Estás cargando tu teléfono inteligente cada vez que le haces una pregunta compleja a la IA.

No podemos ignorar las consecuencias de esta enorme huella ambiental. La demanda de energía de los centros de datos crece a un ritmo sin precedentes, lo que ejerce una presión extrema sobre las redes eléctricas locales. Los gigantes tecnológicos están intentando reactivar centrales nucleares desmanteladas para mantener los servidores en funcionamiento.

Estamos sacrificando el crecimiento sostenible por un enfoque de computación basado en la fuerza bruta.

Cadenas de suministro deterministas en un mundo probabilístico

Todas estas limitaciones físicas (escasez de chips, racionamiento de recursos informáticos y restricciones energéticas) acaban afectando a la planta de producción. Cuando se gestiona una cadena de suministro global, la latencia del software no es solo un inconveniente; supone un obstáculo insalvable para las operaciones.

Si un operario de almacén tiene que esperar a que un sistema LLM con recursos limitados valide un simple movimiento de palé, el envío no sale del muelle. Estamos intentando adaptar un sistema con limitaciones de procesamiento impredecibles a entornos que requieren precisión absoluta.

El conflicto fundamental reside aquí entre las necesidades empresariales deterministas y la tecnología probabilística. Un sistema ERP que gestiona millones de euros en inventario debe ser determinista.

Cuando se traslada un producto del contenedor A al contenedor B, la base de datos debe reflejar esa transacción con exactitud. Se requiere precisión binaria. El software tradicional, a pesar de sus defectos, está diseñado precisamente para esto.

Los modelos de lenguaje a gran escala, por su propia naturaleza, son probabilísticos. Adivinan la siguiente mejor palabra o acción basándose en ponderaciones estadísticas.

Intentar forzar a una IA genérica probabilística a gestionar un flujo de almacén determinista es un error arquitectónico. Al añadir las limitaciones físicas del racionamiento computacional, el sistema resultante es impredecible en su lógica y poco fiable en su velocidad.

Por eso el mercado está experimentando un duro golpe de realidad. Estamos volviendo a valorar las arquitecturas tradicionales, los costes predecibles y los modelos especializados.

Por qué los modelos locales pequeños (SLM) son la respuesta pragmática

Como analicé en mi artículo sobre los Modelos Locales Pequeños (MLP), la verdadera evolución empresarial no depende de enormes cerebros digitales centralizados que procesen cada clic, sino de modelos compactos y eficientes.

Un sistema de gestión de niveles de servicio (SLM) entrenado con los datos de su empresa puede ejecutarse localmente o en una pequeña instancia dedicada en la nube. Este enfoque ofrece claras ventajas frente a la dependencia de la infraestructura pública.

  • Requiere una fracción del hardware.
  • Garantiza la privacidad de los datos.
  • No compite por recursos con millones de otros usuarios que le piden a un chatbot público que escriba poesía.

Esta configuración permite a una empresa controlar la capacidad de procesamiento, la latencia y los costos. El modelo realiza una tarea específica, la realiza bien y opera con requisitos de hardware predecibles. Así es como las implementaciones de IA triunfan en un entorno corporativo sin sucumbir al caos tecnológico.

El regreso a la arquitectura componible

El impulso hacia los sistemas ERP componibles y las soluciones de vanguardia sigue siendo el camino pragmático a seguir. La estrategia consiste en construir un ecosistema de herramientas especializadas que se comuniquen entre sí mediante API estándar.

No deberíamos intentar reemplazarlos con una IA que consuma muchos recursos computacionales y que podría verse limitada durante los procedimientos de cierre de fin de mes. La atención se centra ahora en integraciones sólidas y la excelencia operativa.

Mi conclusión es muy sencilla: el software tradicional nunca ha muerto.

Estaba latente, esperando a que la burbuja de la infraestructura presentara una factura generosa. La factura ha llegado, y las limitaciones físicas del hardware están obligando a la industria a volver a la realidad. Mi experiencia confirma que es hora de retomar el diseño de arquitecturas que funcionen en la planta de producción.

Dejemos los cuentos de hadas a quienes necesitan vender suscripciones de software que aún no existen a empresas que no las necesitan.

Escrito por Andrea Guaccio 

21 de abril de 2026