Les limites physiques de l'IA : il est temps de revenir à la réalité

Je crois que ces deux dernières années, nous avons tous écouté des visionnaires promettre une évolutivité infinie et des intelligences numériques capables de résoudre tous les problèmes des entreprises. Ils nous ont présenté un avenir où le code s'écrirait tout seul et où les logiciels d'entreprise fonctionneraient par la seule force de la pensée. Eh bien, ils ont probablement oublié de vérifier l'inventaire du matériel.

Il y a quelques jours, MarketWatch a publié un article clair à ce sujet : les entreprises spécialisées en IA limitent leurs ressources de calcul afin de contenir l’explosion de leurs coûts opérationnels.

La raison sous-jacente est à la fois physique et mathématique. Les puces sont trop peu nombreuses et la mémoire informatique est déjà devenue onéreuse en raison des requêtes infinies de l'IA. Nous assistons à la confrontation entre le cycle de surmédiatisation technologique et les lois de la physique.

L'apocalypse de la RAM et la situation du matériel

Nous vivons actuellement ce que les analystes du secteur appellent la RAMpocalypse. Les fabricants de semi-conducteurs ont réorienté une part importante de leur capacité de production pour répondre aux exigences de l'IA.

Ils privilégient la mémoire à large bande passante (HBM) nécessaire au fonctionnement des immenses centres de données d'IA. Les fonderies disposent d'un espace physique limité, et la reconversion d'une usine de fabrication prend des années, et non des mois.

Le marché en subit les conséquences de manière impitoyable pour tous les autres. Les prix de la mémoire DRAM ont explosé de 171 % au cours de l'année écoulée. Le coût des modules DDR5 standard a quadruplé.

Même les budgets colossaux de Google ou de Microsoft ne peuvent pas changer le cours des choses et modifier la réalité de la chaîne d'approvisionnement mondiale.

Ils ne peuvent pas imprimer du silicium à partir de rien. Ils ne peuvent pas produire davantage d'électricité pour refroidir les centres de données à très grande échelle.

Calculer le rationnement

En coulisses, les fournisseurs de modèles de langage volumineux (LLM) appliquent des techniques de rationnement extrêmes pour gérer la charge de leurs serveurs. La puissance de calcul illimitée du cloud, que nous considérions comme acquise, montre ses limites.

Il s'agit de déclassements silencieux et d'une réduction des paramètres actifs. Un utilisateur entreprise haut de gamme payant un abonnement premium pourrait ainsi bénéficier de la puissance de calcul maximale disponible.

Les appels d'API standard sont toutefois acheminés vers des configurations allégées et moins performantes. Ce changement s'effectue sans avertissement préalable pour l'utilisateur final ni pour le développeur qui utilise cette API.

Bâtir un écosystème d'entreprise fiable sur une infrastructure qui limite vos ressources lorsque les serveurs sont surchargés est la recette parfaite pour un désastre.

Comme beaucoup d'autres consultants, j'ai pu constater de visu les conséquences d'une infrastructure imprévisible. Gérer une chaîne d'approvisionnement mondiale sur un système qui ralentit aux heures de pointe est un véritable cauchemar.

L'apocalypse Saa n'a jamais été qu'un fantasme

Cela me ramène à une dynamique que j'ai abordée il y a quelques semaines en parlant de l' illusion de la SaaSpocalypse. Le discours de la Silicon Valley était audacieux.

On nous avait promis que des agents d'IA autonomes réécriraient des systèmes entiers à la volée. Des visionnaires affirmaient que le modèle SaaS traditionnel serait remplacé par du code personnalisé généré en temps réel par l'intelligence artificielle.

Ce récit, aussi fascinant qu'efficace, a semé la panique sur le marché. Son erreur fatale ? Considérer la puissance de calcul comme infinie, bon marché et accessible à tous. Bâtir un modèle économique stable et évolutif sur une puissance de calcul rationnée est voué à l'échec. La promesse d'une génération ERP en temps réel s'effondre lorsque le moteur sous-jacent peine à suivre le rythme des requêtes API de base lors des pics de trafic.

L'obsession de l'accélération contre la réalité énergétique

Le monde de l'entreprise est obsédé par le mot « accélération ». Tous les fournisseurs promettent des flux de travail plus rapides et des agents autonomes. Nous avons complètement abandonné le terme « économies d'énergie » de notre vocabulaire.

On croit souvent, à tort, que les nouveaux modèles d'IA deviennent plus efficaces. Or, les données réelles montrent le contraire : les modèles plus récents et plus volumineux consomment une quantité d'énergie exponentiellement plus importante.

L'entraînement d'un modèle de base comme GPT-3 consommait environ 1 287 mégawattheures (MWh), soit l'équivalent de la consommation électrique annuelle de 120 foyers américains. Les modèles de raisonnement avancés actuels requièrent une puissance de calcul bien supérieure.

Une recherche web standard consomme environ 0,3 wattheure. Une requête d'IA standard consomme près de dix fois plus. Si vous utilisez des modèles de raisonnement profond qui analysent les étapes avant de répondre, une seule requête peut exiger jusqu'à 45 wattheures.

Votre smartphone se recharge à chaque fois que vous posez une question complexe à l'IA.

On ne peut ignorer les conséquences de cette empreinte écologique colossale. La demande en énergie des centres de données croît à un rythme sans précédent, mettant à rude épreuve les réseaux électriques locaux. Les géants de la tech tentent de remettre en service des centrales nucléaires désaffectées pour assurer la continuité de leurs serveurs.

Nous troquons une croissance durable contre une approche de calcul par force brute.

Chaînes d'approvisionnement déterministes dans un monde probabiliste

Toutes ces contraintes matérielles (pénuries de puces, rationnement des ressources de calcul et limitations énergétiques) finissent par impacter les chaînes de production. Dans une chaîne d'approvisionnement mondiale, la latence logicielle n'est pas un simple désagrément : elle paralyse les opérations.

Si un opérateur d'entrepôt doit attendre qu'un serveur LLM saturé valide un simple mouvement de palette, l'expédition ne quitte pas le quai. Nous prenons un système paralysé par une limitation de puissance de calcul imprévisible et nous essayons de l'adapter à des environnements exigeant une précision absolue.

Le conflit fondamental réside ici entre les besoins déterministes de l'entreprise et la technologie probabiliste. Un système ERP gérant des millions d'euros d'inventaire doit être déterministe.

Lorsqu'un produit est déplacé de l'emplacement A vers l'emplacement B, la base de données doit refléter exactement cette transaction. Cela exige une précision binaire. Les logiciels traditionnels, malgré leurs imperfections, sont conçus précisément pour cela.

Les grands modèles de langage sont, par nature, probabilistes. Ils devinent le mot ou l'action la plus appropriée en fonction de pondérations statistiques.

Tenter de faire gérer un flux d'entrepôt déterministe par une IA générale probabiliste est une erreur d'architecture. Si l'on ajoute à cela les limites physiques du rationnement des ressources de calcul, le système résultant est imprévisible sur le plan logique et peu fiable en termes de vitesse.

C’est pourquoi le marché subit un sérieux retour à la réalité. Nous revenons à la valeur des architectures traditionnelles, des coûts prévisibles et des modèles spécialisés.

Pourquoi les modèles locaux à petite échelle (SLM) constituent la réponse pragmatique

Comme je l'ai analysé dans mon article sur les modèles locaux à petite échelle (SLM), la véritable évolution des entreprises ne repose pas sur d'immenses systèmes informatiques centralisés traitant chaque clic. Elle repose sur des modèles compacts et efficaces.

Un SLM entraîné sur les données de votre entreprise peut fonctionner en local ou sur une petite instance cloud dédiée. Cette approche présente des avantages indéniables par rapport à l'utilisation d'une infrastructure publique.

Il nécessite une fraction du matériel.
Elle garantit la confidentialité des données.
Il n'entre pas en concurrence pour les ressources avec des millions d'autres utilisateurs qui demandent à un chatbot public d'écrire de la poésie.

Cette configuration permet à une entreprise de maîtriser la puissance de calcul, la latence et les coûts. Le modèle remplit une fonction spécifique, l'exécute parfaitement et fonctionne avec des exigences matérielles prévisibles. C'est ainsi que les implémentations d'IA réussissent en entreprise sans être victimes de la crise de l'intelligence artificielle.

Le retour à l'architecture composable

Le développement de progiciels de gestion intégrés (ERP) modulaires et de solutions de pointe demeure la voie pragmatique à suivre. Cette stratégie repose sur la mise en place d'un écosystème d'outils spécialisés communiquant entre eux via des API standard.

Il ne faut pas chercher à les remplacer par une IA gourmande en ressources de calcul, dont la puissance pourrait être bridée lors des opérations de clôture de fin de mois. L'accent est désormais mis sur des intégrations robustes et l'excellence opérationnelle.

En résumé, ma conclusion est simple : les logiciels traditionnels n'ont jamais été morts.

Elle restait en retrait, attendant que la bulle des infrastructures présente une facture salée. La facture est arrivée, et les limites physiques du matériel contraignent l'industrie à se confronter à la réalité. Mon expérience confirme qu'il est temps de revenir à la conception d'architectures adaptées à la production en usine.

Laissons les contes de fées à ceux qui ont besoin de vendre des abonnements logiciels qui n'existent pas encore à des entreprises qui n'en ont pas besoin.

Écrit par Andrea Guaccio

21 avril 2026