AI:s fysiska gräns: Tid för lite verklighet

Jag tror att vi alla har tillbringat de senaste två åren med att lyssna på visionärer som lovat oändlig skalning och digitala hjärnor som skulle lösa alla företagsproblem. De presenterade en framtid där kod skriver sig själv och företagsprogramvara körs på ren tanke. Tja, de glömde förmodligen att kontrollera hårdvaruinventeringen.
För några dagar sedan publicerade MarketWatch en tydlig artikel. AI-företag begränsar sina beräkningsresurser för att hålla nere okontrollerbara driftskostnader.
Den underliggande orsaken är fysisk och matematisk. Det finns inte tillräckligt med chips, och datorminne har redan blivit dyrt på grund av oändliga AI-förfrågningar. Vi bevittnar kollisionen mellan teknikhypecykeln och fysikens lagar.
RAMpokalypsen och hårdvarusituationen
Vi upplever vad branschanalytiker har börjat kalla RAM-pokalypsen. Halvledartillverkare har omdirigerat stora delar av sin produktionskapacitet för att hålla jämna steg med AI-kraven.
De prioriterar det högbandbreddsminne (HBM) som krävs för att driva massiva AI-datacenter. Gjuterier har begränsat fysiskt utrymme, och att omstrukturera en tillverkningsanläggning tar år, inte månader.
Marknadsresultatet är skoningslöst för alla andra. DRAM-minnespriserna har exploderat med 171 % under det senaste året. Kostnaden för vanliga DDR5-moduler har fyrdubblats.
Inte ens Googles eller Microsofts miljardbudgetar kan förändra verkligheten i den globala leveranskedjan.
De kan inte skriva ut kisel ur tomma intet. De kan inte generera mer elektricitet för att kyla ner hyperskaliga datacenter.
Beräkna ransonering
Bakom kulisserna tillämpar leverantörer av stora språkmodeller (LLM) extrema ransoneringstekniker för att hantera sin serverbelastning. Den oändliga molnberäkning som vi tog för given visar sina hårda begränsningar.
Vi pratar om tysta nedgraderingar och en minskning av aktiva parametrar. En företagsanvändare i toppklass som betalar en premiumnivå kan få maximal tillgänglig datorkraft.
Standard-API-anrop dirigeras dock till lättare, mindre kapabla konfigurationer. Detta sker utan förvarning till slutanvändaren eller utvecklaren som förlitar sig på det API:et.
Att bygga ett pålitligt företagsekosystem på en infrastruktur som stryper dina resurser när servrar blir överbelastade är ett sött recept för en stor katastrof.
Precis som många andra konsulter har jag sett konsekvenserna av oförutsägbar infrastruktur på nära håll. Att driva en global leveranskedja på ett system som bestämmer sig för att "tänka långsammare" under rusningstid är en mardröm.
SaaApocalypsen var alltid en fantasi
Detta leder mig tillbaka till en dynamik jag tog upp för några veckor sedan när jag diskuterade illusionen av SaaSpocalypse. Berättelsen från Silicon Valley var djärv.
Vi blev lovade att autonoma AI-agenter skulle skriva om hela system i farten. Visionärer hävdade att den traditionella SaaS-modellen skulle ersättas av anpassad kod som genereras i realtid av artificiell intelligens.
Det var en fascinerande berättelse som skapade panik på marknaden. Dess fatala brist var att man tog för givet att datorkraften var oändlig, billig och tillgänglig. Att bygga en stabil, skalbar affärsmodell för företag på en grund av ransonerad beräkningsförmåga är ett förlustspel. Lovande ERP-generering i realtid faller samman när den underliggande motorn kämpar för att hålla jämna steg med grundläggande API-förfrågningar under högtrafik.
Accelerationsbesattheten kontra energiverkligheten
Företagsvärlden är besatt av ordet ”acceleration”. Varje leverantör lovar snabbare arbetsflöden och autonoma agenter. Vi har helt slopat termen ”energibesparing” från vårt ordförråd.
Det finns en vanlig missuppfattning att nyare AI-modeller blir effektivare. De fysiska data berättar en annan historia. Nyare, större modeller kräver exponentiellt mer kraft.
Att träna en basmodell som GPT-3 förbrukade ungefär 1 287 megawattimmar (MWh), vilket motsvarar den årliga elförbrukningen för 120 amerikanska hushåll. Dagens avancerade resonemangsmodeller kräver betydligt mer beräkningsförmåga.
En vanlig webbsökning använder cirka 0,3 wattimmar. En vanlig AI-fråga förbrukar nästan tio gånger så mycket. Om du använder djupgående resonemangsmodeller som analyserar steg innan svar ges, kan en enda fråga kräva upp till 45 wattimmar.
Du laddar din smartphone varje gång du ställer en komplex fråga till AI:n.
Vi kan inte låtsas att detta enorma fotavtryck inte har några konsekvenser. Efterfrågan på el i datacenter växer i en aldrig tidigare skådad takt, vilket sätter stora pressar på lokala elnät. Teknikjättar försöker starta om avvecklade kärnkraftverk för att hålla servrarna igång.
Vi byter hållbar tillväxt mot en brutal beräkningsmetod.
Deterministiska leveranskedjor i en probabilistisk värld
Alla dessa fysiska begränsningar (chipbrist, ransonering av datorer och energibegränsningar) når så småningom fabriksgolvet. När man driver en global leveranskedja är programvarufördröjning inte bara en olägenhet. Det är ett hårt stopp för verksamheten.
Om en lageroperatör måste vänta på att en begränsad LLM ska validera en enkel pallförflyttning, lämnar inte leveransen dockan. Vi tar ett system som är lamslaget av oförutsägbar beräkningsransonering och försöker tvinga in det i miljöer som kräver absolut precision.
Den grundläggande konflikten här är mellan deterministiska affärsbehov och probabilistisk teknologi. Ett ERP-system som hanterar miljontals euro i lager måste vara deterministiskt.
När du flyttar en produkt från fack A till fack B måste databasen återspegla exakt den transaktionen. Det kräver binär precision. Traditionell programvara, trots sina brister, är byggd just för detta.
Stora språkmodeller är till sin natur probabilistiska. De gissar det näst bästa ordet eller den näst bästa handlingen baserat på statistiska vikter.
Att försöka tvinga en probabilistisk GenAI att hantera ett deterministiskt lagerflöde är ett arkitektoniskt misstag. När man lägger till de fysiska begränsningarna för beräkningsransonering blir det resulterande systemet oförutsägbart i logik och opålitligt i hastighet.
Det är därför marknaden upplever en massiv verklighetskontroll. Vi återgår till att värdesätta traditionella arkitekturer, förutsägbara kostnader och specialiserade modeller.
Varför små lokala modeller (SLM) är det pragmatiska svaret
Som jag analyserade i min artikel om små lokala modeller (SLM)bygger inte verklig företagsutveckling på stora, centraliserade digitala hjärnor som bearbetar varje klick. Den bygger på kompakta, effektiva modeller.
En SLM som är tränad på era företagsdata kan köras lokalt eller på en liten, dedikerad molninstans. Denna metod erbjuder tydliga fördelar jämfört med att förlita sig på offentlig infrastruktur.
- Det kräver en bråkdel av hårdvaran.
- Det garanterar datasekretess.
- Den konkurrerar inte om resurser med miljontals andra användare som ber en offentlig chatbot att skriva poesi.
Den här uppsättningen gör det möjligt för ett företag att kontrollera beräkningsförmågan, kontrollera latensen och kontrollera kostnaderna. Modellen gör ett specifikt jobb, den gör det bra och den fungerar med förutsägbara hårdvarukrav. Det är så här AI-implementeringar lyckas i en företagsmiljö utan att bli offer för Bla-Bla-Bla-apokalypsen.
Återgången till komponerbar arkitektur
Strävan efter sammansättningsbara ERP-system och de bästa lösningarna är fortfarande den pragmatiska vägen framåt. Strategin innebär att bygga ett ekosystem av specialiserade verktyg som kommunicerar med varandra via standardiserade API:er.
Vi bör inte försöka ersätta dem med en datorkrävande AI som kan strypas under månadsavslutsprocedurerna. Fokus flyttas till robusta integrationer och operativ excellens.
Min slutsats här är helt enkelt: traditionell programvara var aldrig död.
Den satt i bakgrunden och väntade på att infrastrukturbubblan skulle presentera en generös räkning. Räkningen har kommit, och hårdvarans fysiska begränsningar tvingar branschen tillbaka till verkligheten. Min erfarenhet bekräftar att det är dags att återgå till att bygga arkitekturer som fungerar på fabriksgolvet.
Lämna sagorna till de som behöver sälja mjukvaruabonnemang som inte finns än till företag som inte behöver dem.
Skriven av Andrea Guaccio
21 april 2026