Fizyczna granica sztucznej inteligencji: czas na odrobinę rzeczywistości

Myślę, że wszyscy spędziliśmy ostatnie dwa lata słuchając wizjonerów obiecujących nieskończoną skalowalność i cyfrowe mózgi, które rozwiążą każdy problem korporacyjny. Zapowiadali przyszłość, w której kod pisze się sam, a oprogramowanie korporacyjne działa w oparciu o czystą myśl. Cóż, prawdopodobnie zapomnieli sprawdzić stan sprzętu.

Kilka dni temu MarketWatch opublikował jasny artykuł. Firmy zajmujące się sztuczną inteligencją ograniczają zasoby obliczeniowe, aby utrzymać koszty operacyjne na niskim poziomie.

Przyczyna jest fizyczna i matematyczna. Nie ma wystarczającej liczby chipów, a pamięć komputerowa stała się już droga z powodu nieskończonych żądań sztucznej inteligencji. Jesteśmy świadkami zderzenia cyklu hype'u technologicznego z prawami fizyki.

RAMpocalypse i sytuacja sprzętowa

Doświadczamy tego, co analitycy branżowi zaczęli nazywać RAMpokalipsą. Producenci półprzewodników przekierowali ogromne części swoich mocy produkcyjnych, aby sprostać zapotrzebowaniu na sztuczną inteligencję.

Priorytetem jest pamięć o dużej przepustowości (HBM) niezbędna do obsługi ogromnych centrów danych AI. Odlewnie mają ograniczoną przestrzeń fizyczną, a modernizacja zakładu produkcyjnego zajmuje lata, a nie miesiące.

Sytuacja na rynku jest bezlitosna dla wszystkich. Ceny pamięci DRAM wzrosły o 171% w ciągu ostatniego roku. Koszt standardowych modułów DDR5 wzrósł czterokrotnie.

Nawet wielomiliardowe budżety firm Google czy Microsoft nie są w stanie zmienić rzeczywistości globalnego łańcucha dostaw.

Nie mogą drukować krzemu z powietrza. Nie mogą wytwarzać więcej energii elektrycznej do chłodzenia centrów danych o ogromnej skali.

Racjonowanie obliczeń

Dostawcy usług LLM (Large Language Model) stosują za kulisami ekstremalne techniki racjonowania, aby zarządzać obciążeniem serwerów. Nieskończona moc obliczeniowa w chmurze, którą uważaliśmy za oczywistość, ujawnia swoje twarde granice.

Mówimy o cichych obniżkach i redukcji aktywnych parametrów. Użytkownik korporacyjny najwyższego szczebla, płacący premium, może otrzymać maksymalną dostępną moc obliczeniową.

Standardowe wywołania API są jednak kierowane do lżejszych, mniej wydajnych konfiguracji. Dzieje się to bez ostrzeżenia dla użytkownika końcowego lub programisty korzystającego z tego API.

Zbudowanie niezawodnego ekosystemu korporacyjnego w oparciu o infrastrukturę, która ogranicza zasoby, gdy serwery zostaną przeciążone, to słodka recepta na wielką katastrofę.

Jak wielu innych konsultantów, widziałem na własne oczy konsekwencje nieprzewidywalnej infrastruktury. Zarządzanie globalnym łańcuchem dostaw w systemie, który postanawia „myśleć wolniej” w godzinach szczytu, to koszmar.

SaaSpocalypse zawsze była fantazją

To sprowadza mnie z powrotem do dynamiki, którą poruszałem kilka tygodni temu, omawiając iluzję SaaSpocalypse. Narracja z Doliny Krzemowej była odważna.

Obiecano nam, że autonomiczni agenci AI będą przepisywać całe systemy na bieżąco. Wizjonerzy twierdzili, że tradycyjny model SaaS zostanie zastąpiony niestandardowym kodem generowanym w czasie rzeczywistym przez sztuczną inteligencję.

To była fascynująca narracja, która wywołała panikę na rynku. Jej fatalną wadą było przyjmowanie za pewnik, że moc obliczeniowa jest nieskończona, tania i dostępna. Zbudowanie stabilnego, skalowalnego modelu biznesowego przedsiębiorstwa na fundamencie racjonowanej mocy obliczeniowej to przegrana gra. Obiecujące generowanie ERP w czasie rzeczywistym rozpada się, gdy silnik bazowy ma problemy z nadążaniem za podstawowymi żądaniami API w szczytowym ruchu.

Obsesja na punkcie przyspieszenia kontra rzeczywistość energetyczna

Wszechświat korporacyjny ma obsesję na punkcie słowa „przyspieszenie”. Każdy dostawca obiecuje szybsze przepływy pracy i autonomicznych agentów. Całkowicie wyrzuciliśmy z naszego słownika termin „oszczędzanie energii”.

Panuje błędne przekonanie, że nowsze modele sztucznej inteligencji stają się coraz wydajniejsze. Dane fizyczne pokazują co innego. Nowsze, większe modele wymagają wykładniczo więcej energii.

Wytrenowanie modelu bazowego, takiego jak GPT-3, pochłonęło około 1287 megawatogodzin (MWh), co odpowiada rocznemu zużyciu energii przez 120 amerykańskich gospodarstw domowych. Dzisiejsze zaawansowane modele wnioskowania wymagają znacznie większych mocy obliczeniowych.

Standardowe wyszukiwanie w internecie zużywa około 0,3 watogodziny. Standardowe zapytanie AI zużywa prawie dziesięciokrotnie więcej. Jeśli używasz głębokich modeli wnioskowania, które analizują kroki przed udzieleniem odpowiedzi, pojedyncze zapytanie może pochłonąć nawet 45 watogodzin.

Za każdym razem, gdy zadajesz sztucznej inteligencji złożone pytanie, ładujesz swój smartfon.

Nie możemy udawać, że ta ogromna powierzchnia nie ma żadnych konsekwencji. Zapotrzebowanie na energię w centrach danych rośnie w niespotykanym dotąd tempie, poważnie obciążając lokalne sieci energetyczne. Giganci technologiczni próbują ponownie uruchomić zamknięte elektrownie jądrowe, aby utrzymać działanie serwerów.

Zamieniamy zrównoważony wzrost na siłowe podejście do obliczeń.

Deterministyczne łańcuchy dostaw w świecie probabilistycznym

Wszystkie te ograniczenia fizyczne (niedobory chipów, racjonowanie mocy obliczeniowej i limity energetyczne) w końcu uderzają w halę produkcyjną. W globalnym łańcuchu dostaw opóźnienia w oprogramowaniu to nie tylko niedogodność. To nieuchronne zatrzymanie działalności.

Jeśli operator magazynu musi czekać na ograniczony przepływ LLM, aby zatwierdzić prosty ruch palety, przesyłka nie opuszcza doku. Bierzemy system sparaliżowany przez nieprzewidywalne racjonowanie mocy obliczeniowej i próbujemy go wymusić w środowiskach wymagających absolutnej precyzji.

Zasadniczy konflikt dotyczy tu deterministycznych potrzeb biznesowych i technologii probabilistycznej. System ERP zarządzający zapasami o wartości milionów euro musi być deterministyczny.

Kiedy przenosisz produkt z pojemnika A do pojemnika B, baza danych musi odzwierciedlać tę konkretną transakcję. Wymaga to precyzji binarnej. Tradycyjne oprogramowanie, pomimo swoich wad, jest stworzone właśnie do tego celu.

Duże Modele Językowe, ze swej natury, są probabilistyczne. Odgadują one kolejne najlepsze słowo lub czynność na podstawie wag statystycznych.

Próba wymuszenia na probabilistycznym GenAI zarządzania deterministycznym przepływem danych w magazynie to błąd architektoniczny. Dodając do tego fizyczne ograniczenia związane z racjonowaniem mocy obliczeniowej, powstały system jest nieprzewidywalny pod względem logiki i zawodny pod względem szybkości.

Właśnie dlatego rynek przechodzi przez gruntowną weryfikację rzeczywistości. Wracamy do tradycyjnych architektur, przewidywalnych kosztów i wyspecjalizowanych modeli.

Dlaczego małe lokalne modele (SLM) są pragmatycznym rozwiązaniem

Jak analizowałem w moim artykule na temat małych modeli lokalnych (SLM), prawdziwa ewolucja przedsiębiorstw nie opiera się na wielkich, scentralizowanych cyfrowych mózgach przetwarzających każde kliknięcie. Opiera się na kompaktowych, wydajnych modelach.

Rozwiązanie SLM przeszkolone na danych Twojej firmy może działać lokalnie lub na małej, dedykowanej instancji w chmurze. Takie podejście oferuje wyraźne korzyści w porównaniu z bazą na infrastrukturze publicznej.

Wymaga ułamka sprzętu.
Gwarantuje prywatność danych.
Nie konkuruje o zasoby z milionami innych użytkowników, którzy proszą publicznego chatbota o napisanie wiersza.

Taka konfiguracja pozwala firmie kontrolować moc obliczeniową, opóźnienia i koszty. Model wykonuje jedno konkretne zadanie, robi je dobrze i działa z przewidywalnymi wymaganiami sprzętowymi. W ten sposób wdrożenia sztucznej inteligencji odnoszą sukces w środowisku korporacyjnym, nie padając ofiarą Bla-Bla-Bla-Apokalipsy.

Powrót do architektury kompozycyjnej

Dążenie do komponowalnych systemów ERP i najlepszych w swojej klasie rozwiązań pozostaje pragmatyczną drogą naprzód. Strategia ta zakłada zbudowanie ekosystemu wyspecjalizowanych narzędzi, które komunikują się ze sobą za pośrednictwem standardowych interfejsów API.

Nie powinniśmy próbować zastępować ich sztuczną inteligencją, która wymaga dużej mocy obliczeniowej i może zostać ograniczona podczas procedur zamykania miesiąca. Skupiamy się na solidnej integracji i doskonałości operacyjnej.

Mój wniosek jest prosty: tradycyjne oprogramowanie nigdy nie umarło.

Siedział w tle, czekając, aż bańka infrastrukturalna przedstawi hojny rachunek. Rachunek już nadszedł, a fizyczne ograniczenia sprzętu zmuszają branżę do powrotu do rzeczywistości. Moje doświadczenie potwierdza, że nadszedł czas, aby wrócić do tworzenia architektur, które działają w hali fabrycznej.

Zostaw te bajki tym, którzy muszą sprzedawać subskrypcje oprogramowania, które jeszcze nie istnieje, firmom, które ich nie potrzebują.

Napisane przez Andreę Guaccio

21 kwietnia 2026