De fysieke grens van AI: tijd voor wat realiteit

Ik denk dat we de afgelopen twee jaar allemaal geluisterd hebben naar visionairs die oneindige schaalbaarheid en digitale breinen beloofden die elk bedrijfsprobleem zouden oplossen. Ze schetsten een toekomst waarin code zichzelf schrijft en bedrijfssoftware puur op gedachten draait. Tja, ze zijn waarschijnlijk vergeten de hardwarevoorraad te controleren.

Enkele dagen geleden publiceerde MarketWatch een helder artikel. AI-bedrijven beperken hun rekenkracht om de uit de hand gelopen operationele kosten in te dammen.

De onderliggende reden is zowel fysiek als wiskundig. Er zijn niet genoeg chips beschikbaar en computergeheugen is door de oneindige vraag van AI al duur geworden. We zijn getuige van een botsing tussen de hype rond technologie en de natuurwetten.

De RAMpocalyps en de hardwaresituatie

We maken momenteel iets mee wat industrieanalisten de RAMpocalypse. Fabrikanten van halfgeleiders hebben enorme delen van hun productiecapaciteit ingezet om aan de vraag naar AI te voldoen.

Ze geven prioriteit aan het High Bandwidth Memory (HBM) dat nodig is om enorme AI-datacenters te laten draaien. Chipfabrieken hebben beperkte fysieke ruimte en het ombouwen van een fabriek duurt jaren, geen maanden.

Het marktresultaat is meedogenloos voor alle anderen. De prijzen van DRAM-geheugen zijn het afgelopen jaar met 171% gestegen. De kosten van standaard DDR5-modules zijn verviervoudigd.

Zelfs de miljardenbudgetten van Google of Microsoft kunnen de realiteit van de wereldwijde toeleveringsketen niet veranderen.

Ze kunnen geen silicium uit het niets printen. Ze kunnen niet meer elektriciteit opwekken om hyperscale datacenters te koelen.

Bereken de rantsoenering

Achter de schermen passen aanbieders van Large Language Models (LLM) extreme rantsoeneringstechnieken toe om hun serverbelasting te beheersen. De oneindige cloudcomputing die we als vanzelfsprekend beschouwden, laat zijn harde grenzen zien.

We hebben het hier over stille downgrades en een vermindering van actieve parameters. Een zakelijke gebruiker in het topsegment die een premiumtarief betaalt, krijgt mogelijk de maximaal beschikbare rekenkracht.

Standaard API-aanroepen worden echter doorgestuurd naar lichtere, minder krachtige configuraties. Dit gebeurt zonder waarschuwing voor de eindgebruiker of de ontwikkelaar die van die API gebruikmaakt.

Het bouwen van een betrouwbaar bedrijfsecosysteem op een infrastructuur die je resources afknijpt wanneer servers overbelast raken, is een recept voor een grote ramp.

Net als vele andere consultants heb ik de gevolgen van onvoorspelbare infrastructuur aan den lijve ondervonden. Het runnen van een wereldwijde toeleveringsketen op een systeem dat tijdens piekuren besluit om "langzamer te denken" is een nachtmerrie.

De SaaSpocalypse was altijd al een fantasie

Dit brengt me terug naar een dynamiek die ik een paar weken geleden aansneed toen ik het had over de illusie van de SaaSpocalypse. Het verhaal vanuit Silicon Valley was nogal gewaagd.

Ons werd beloofd dat autonome AI-agenten complete systemen razendsnel zouden herschrijven. Visionairs beweerden dat het traditionele SaaS-model zou worden vervangen door op maat gemaakte code die in realtime door kunstmatige intelligentie werd gegenereerd.

Het was een fascinerend verhaal dat voor paniek op de markt zorgde. De fatale fout was echter dat men er ten onrechte van uitging dat rekenkracht oneindig, goedkoop en toegankelijk was. Het bouwen van een stabiel, schaalbaar bedrijfsmodel op basis van beperkte rekenkracht is een verloren zaak. De veelbelovende realtime ERP-generatie stort in elkaar wanneer de onderliggende engine moeite heeft om de meest basale API-verzoeken tijdens piekuren te verwerken.

De obsessie met versnelling versus de energierealiteit

Het bedrijfsleven is geobsedeerd door het woord 'acceleratie'. Elke leverancier belooft snellere workflows en autonome systemen. De term 'energiebesparing' hebben we volledig uit ons vocabulaire geschrapt.

Er bestaat een wijdverbreide misvatting dat nieuwere AI-modellen efficiënter worden. De fysieke data vertellen echter een ander verhaal. Nieuwere, grotere modellen verbruiken exponentieel meer energie.

Het trainen van een basismodel zoals GPT-3 verbruikte ongeveer 1287 megawattuur (MWh), wat overeenkomt met het jaarlijkse stroomverbruik van 120 Amerikaanse huishoudens. De geavanceerde redeneermodellen van vandaag vereisen aanzienlijk meer rekenkracht.

Een standaard zoekopdracht op internet verbruikt ongeveer 0,3 wattuur. Een standaard AI-query verbruikt bijna tien keer zoveel. Als je gebruikmaakt van geavanceerde redeneermodellen die stappen analyseren voordat ze een antwoord geven, kan een enkele query tot wel 45 wattuur verbruiken.

Je laadt je smartphone op elke keer dat je de AI een complexe vraag stelt.

We kunnen niet doen alsof deze enorme impact geen gevolgen heeft. De vraag naar stroom voor datacenters groeit in een ongekend tempo, wat de lokale elektriciteitsnetten zwaar belast. Techreuzen proberen ontmantelde kerncentrales opnieuw op te starten om de servers draaiende te houden.

We ruilen duurzame groei in voor een brute-force-aanpak van computerberekeningen.

Deterministische toeleveringsketens in een probabilistische wereld

Al deze fysieke beperkingen (chiptekorten, beperkte rekenkracht en energielimieten) hebben uiteindelijk gevolgen voor de productievloer. Bij een wereldwijde toeleveringsketen is softwarevertraging niet zomaar een ongemak. Het kan de bedrijfsvoering volledig stilleggen.

Als een magazijnmedewerker moet wachten tot een LLM (Locked Logistics Manager) met een beperkte rekenkracht een simpele palletbeweging valideert, verlaat de zending het laadperron niet. We nemen een systeem dat wordt belemmerd door onvoorspelbare rekenkrachtbeperkingen en proberen het te gebruiken in omgevingen die absolute precisie vereisen.

De fundamentele botsing hier betreft de tegenstelling tussen deterministische bedrijfsbehoeften en probabilistische technologie. Een ERP-systeem dat miljoenen euro's aan voorraad beheert, moet deterministisch zijn.

Wanneer je een product van bak A naar bak B verplaatst, moet de database die transactie exact weergeven. Dat vereist binaire precisie. Traditionele software is, ondanks de gebreken, juist hiervoor ontworpen.

Grote taalmodellen zijn van nature probabilistisch. Ze raden het eerstvolgende beste woord of de eerstvolgende beste actie op basis van statistische gewichten.

Het is een architectonische fout om een probabilistische GenAI te dwingen een deterministische magazijnstroom te beheren. Wanneer de fysieke beperkingen van rekenkracht hierbij komen kijken, is het resulterende systeem onvoorspelbaar qua logica en onbetrouwbaar qua snelheid.

Dit is de reden waarom de markt een enorme realitycheck ondergaat. We hechten weer waarde aan traditionele architectuur, voorspelbare kosten en gespecialiseerde modellen.

Waarom kleine lokale modellen (SLM's) het pragmatische antwoord zijn

Zoals ik analyseerde in mijn artikel over Small Local Models (SLM's), is echte bedrijfsevolutie niet afhankelijk van enorme, gecentraliseerde digitale breinen die elke klik verwerken. Het is afhankelijk van compacte, efficiënte modellen.

Een SLM (Software Learning Module) die is getraind op uw bedrijfsgegevens kan lokaal of op een kleine, dedicated cloud-instantie draaien. Deze aanpak biedt duidelijke voordelen ten opzichte van het gebruik van openbare infrastructuur.

Het vereist slechts een fractie van de hardware.
Het garandeert gegevensbescherming.
Het concurreert niet om resources met miljoenen andere gebruikers die een openbare chatbot vragen om gedichten te schrijven.

Deze opzet stelt een bedrijf in staat de rekenkracht, de latentie en de kosten te beheersen. Het model voert één specifieke taak uit, doet dat goed en werkt met voorspelbare hardwarevereisten. Zo slagen AI-implementaties in een bedrijfsomgeving zonder ten prooi te vallen aan de Bla-Bla-Bla-Apocalyps.

De terugkeer naar composeerbare architectuur

De focus op combineerbare ERP-systemen en de beste oplossingen in hun soort blijft de meest pragmatische weg voorwaarts. Deze strategie omvat het opbouwen van een ecosysteem van gespecialiseerde tools die met elkaar communiceren via standaard API's.

We moeten ze niet proberen te vervangen door een rekenintensieve AI die mogelijk overbelast raakt tijdens de afsluitingsprocedures aan het einde van de maand. De focus verschuift naar robuuste integraties en operationele excellentie.

Mijn conclusie is heel simpel: traditionele software is nooit dood geweest.

Het lag op de achtergrond te wachten tot de infrastructuurbubbel een genereuze rekening zou presenteren. Die rekening is er nu, en de fysieke beperkingen van de hardware dwingen de industrie terug naar de realiteit. Mijn ervaring bevestigt dat het tijd is om weer architecturen te bouwen die werken op de fabrieksvloer.

Laat de sprookjes maar over aan degenen die softwareabonnementen moeten verkopen die nog niet bestaan aan bedrijven die ze niet nodig hebben.

Geschreven door Andrea Guaccio

21 april 2026