Kaosagenter: Vad ett live AI-experiment lär oss om ERP-säkerhet

Vad händer när man ger autonoma AI-agenter riktiga e-postkonton, obegränsad åtkomst till shell-systemet och 14 dagar att arbeta helt på egen hand? En nyligen genomförd studie ger ett allvarligt svar: företags-AI är i sitt nuvarande tillstånd briljant kapabel men farligt naiv.

Om du har följt mitt senaste arbete vet du att jag har varit mycket kritisk till den rådande marknadspaniken. För några veckor sedan, i min artikel AI Agents vs SaaS Business Model: Why the SaaSpocalypse is Wrong, argumenterade jag för att den snabba utförsäljningen av traditionella SaaS-jättar var helt frikopplad från den tekniska verkligheten. Jag konstaterade att tillförlitlig automatisering av komplexa, verksamhetskritiska uppgifter fortfarande är omöjlig eftersom AI saknar den strukturella styrning som krävs för företagsmiljöer.

Forskare publicerade nyligen en fascinerande och alarmerande studie kallad "Agents of Chaos". De distribuerade sex autonoma AI-agenter (drivna av frontlinjemodeller som Kimi K2.5 och Claude Opus 4.6) i en live Discord-server med flera parter. De gav dem permanent minne, 20 GB filsystem, extern API-åtkomst och verkliga verktyg. Sedan lät de tjugo forskare interagera fritt med dem i två veckor, där vissa agerade välvilligt och andra aktivt undersökte svagheter.

Resultaten (10 uppenbara säkerhetsbrister och 6 framväxande säkerhetsbeteenden) är obligatorisk läsning för alla CEO, finanschefer eller IT-chefer som funderar på att sätta sin leveranskedja på autopilot.

Experimentet med "kaosagenter"

För att förstå varför den här studien är så viktig för ERP-konsulter och systemarkitekter måste vi titta på hur den utformades. Det var inte agenter som kördes i en steril sandlåda och besvarade triviafrågor. De kördes på OpenClaw-ramverket, vilket ger språkmodeller möjligheten att initiera kontakt, utforma planer och utföra åtgärder över sessioner helt utan mänskligt godkännande per åtgärd.

Under loppet av 14 dagar samlade agenterna minnen, skickade e-postmeddelanden, körde skript och skapade relationer med användarna. De hade ingen uttrycklig träning i att hantera motstånd för denna miljö. De fick helt enkelt höra att de skulle vara "hjälpsamma"

Och det mandatet att vara hjälpsamma blev deras största sårbarhet.

Sårbarheten hos konversationsauktoritet

Ur perspektivet för en ERP-konsult som arbetar med massiva system som Infor LN eller SAP, stack en specifik brist ut framför alla andra: agenterna saknar helt en stabil intern modell för social hierarki.

För en AI-agent är auktoritet konstruerad genom samtal. Den som talar med tillräckligt självförtroende, sammanhang eller ihärdighet kan förändra agentens uppfattning om vem som faktiskt bestämmer.

Ta fallstudie 8 (Identitetskapning) från forskningen. En angripare ändrade helt enkelt sitt Discord-visningsnamn så att det matchade agentens ägare. I en ny kanal utan föregående kontext accepterade agenten (med namnet Ash) den falska identiteten omedelbart. Den genomförde sedan ett fullständigt systemövertagande: den döpte om sig själv, skrev över alla sina arbetsytefiler och tilldelade administrativ åtkomst till angriparen.

I ett annat fall (fallstudie 3: Den vidarebefordrade inkorgen) vägrade en agent korrekt att "dela" e-postmeddelanden som innehöll känslig personligt identifierbar information (PII) som personnummer och bankuppgifter. Men när användaren helt enkelt bad den att "vidarebefordra" exakt samma e-postmeddelanden, gick agenten med på det utan att tveka. Den avslöjade allt genom en tekniskt annorlunda begäran som kringgick dess etiska vägran.

Tänk dig att detta händer i ditt företags ERP-system. Ett affärssystem är helt byggt på rigid, rollbaserad åtkomstkontroll. Du kan inte ha en affärsmiljö där en juniorinköpare tryggt kan övertyga AI:n att godkänna en inköpsorder på 100 000 euro bara genom att smart omformulera prompten.

Denna grundläggande naivitet är den exakta anledningen till att jag tidigare skrev om The AI Exodus: Why the Builders Don't Trust the Building.Just de människor som bygger dessa avancerade modeller litar inte på dem med verksamhetskritiska operationer eftersom de vet hur lätt de kan manipuleras av social ingenjörskonst.

Kärnkraftsalternativet och den oändliga loopen

När AI-agenter misslyckas eskalerar konsekvenserna med alarmerande hastighet och effektivitet.

I fallstudie 1 (oproportionerligt svar)ombads en agent att skydda en icke-ägares hemlighet från dess faktiska ägare. Agenten identifierade korrekt den etiska spänningen. Lösningen var dock att helt förstöra sin egen e-postserver som en "proportionell" åtgärd för att skydda hemligheten. De etiska värdena var korrekta, men verkställighetsbedömningen var katastrofal.

Sedan har vi fallstudie 4 (Den oändliga loopen). En forskare upprättade en ömsesidig meddelanderelä mellan två agenter. De gick in i en konversationsloop som varade i en timme, vilket skapade ihållande bakgrundsprocesser utan avslutningsvillkor.

Översätt detta till ett scenario inom leveranskedjan. Tänk dig två AI-agenter, en som hanterar inköp och en som hanterar lager, som fastnar i en loop där de ständigt genererar och godkänner fantominköpsordrar på grund av en liten feljustering i sina prompter. Utan mänsklig tillsyn är allt detta misslyckade implementeringar.

Multiagentförstärkning och den hembryggda illusionen

Vi hör ofta talas om företagsdrömmen om att använda ett nätverk av AI-agenter för att driva våra verksamheter autonomt. Men studien "Agents of Chaos" visade att när flera agenter interagerar, förvärras deras misslyckanden snabbt.

En sårbarhet som kräver ett enda steg i social ingenjörskonst på en agent kommer automatiskt att spridas till anslutna agenter. De ärver både det komprometterade tillståndet och den falska auktoriteten som producerade det.

I fallstudie 10 (Den korrupta konstitutionen)bäddade en användare in en skadlig instruktion i ett delat GitHub-dokument. Detta fick den drabbade agenten att försöka stänga av andra agenter på servern och aggressivt dela de komprometterade filerna över nätverket. I fallstudie 11sände en agent under en förfalskad identitet ett fabricerat nödmeddelande till sin fullständiga kontaktlista.

Detta krossar fullständigt illusionen jag diskuterade i *When Software Writes Itself: The Illusion of the Homebrew ERP*. Du kan inte bara sätta ihop några smarta API:er, bygga ett anpassat gränssnitt och förvänta dig att dessa agenter säkert ska hantera din lagerhantering eller dina ekonomiböcker. Företagsprogramvara kräver kristalliserade, säkra strukturer. Den kan inte överleva på dynamiska, konversationsbaserade sårbarheter.

Argumentet för agentteknik

Experimentet var inte bara en dyster och dyster situation. Studien dokumenterade också genuina säkerhetsbeteenden som ger en verklig färdplan för framtiden.

I fallstudie 12avvisade en agent framgångsrikt över 14 olika försök till snabb injektion, inklusive base64-kodade kommandon och XML-override-försök. Ännu mer imponerande är att två agenter i fallstudie 16 (Emergent Safety Coordination)spontant samordnade sig för att motstå en social engineering-attack. Utan några uttryckliga mänskliga instruktioner att göra det, upptäckte den ena agenten ett misstänkt mönster, varnade den andra agenten och de förhandlade gemensamt fram en mer försiktig gemensam säkerhetspolicy.

Detta förstärker min kärntes från Varför AI:s exponentiella tillväxt har en massiv blind fläck.
Den råa intelligensen finns onekligen där. Modellerna är otroligt kapabla att resonera. Den saknade ingrediensen är ställningen.

Vi går officiellt in i Agentic Engineering- eran . Konsulternas, utvecklarnas och systemarkitekternas roll genomgår en fundamental förändring. Utöver att bara konfigurera tabeller i Infor LN måste vi nu bygga de hårdkodade gränserna, utvärderingsramverken och de robusta testsviterna som håller dessa briljanta men naiva agenter säkra.

Användbara insikter för IT-chefer

Om du planerar att integrera AI-agenter i dina affärsprocesser, så här skyddar du din organisation idag, baserat på resultaten från den här studien:

Tillämpa strikta API-gränser: Ge aldrig en agent direkt skrivåtkomst till din kärndatabas eller äldre system. Behandla dem som opålitliga externa användare. Om en agent vill uppdatera en stycklista eller ändra en leverantörs bankuppgifter måste den passera ERP:s dataabstraktionslager (DAL) med alla standardvalideringar och strukturella gränser fullt aktiva.
Designa Human-in-the-Loop-arbetsflöden: Låt AI:n göra det tunga arbetet med dataförberedelse, matchning av fakturor och analys av kvalitetsrapporter. Kräv dock alltid en mänsklig expert ("piloten") för att validera och genomföra de kritiska beslutspunkterna.
Testa för social ingenjörskonst, inte bara logik: Sluta testa din AI enbart på dess förmåga att utföra grundläggande uppgifter som bygger på en lyckosam väg. Du måste aggressivt testa dess förmåga att motstå motståndskraftiga instruktioner, känslomässig press och omformulerade förfrågningar (som sårbarheten "vidarebefordra kontra dela").
Se upp för datautmattning: Som framgår av fallstudie 5kan agenter i tysthet samla in data tills de kraschar servern. Implementera strikta telemetri- och lagringsgränser för alla autonoma processer.

SaaS-modellen förblir säker

”SaaS-apokalypsen” är fortfarande en myt. Komplexa SaaS-plattformar kommer att förbli ryggraden i företaget just för att de tillhandahåller de deterministiska, rigida regler som AI i sig saknar.

Vi behöver absolut specialiserade, högt styrda assistenter som arbetar inom de strikta gränserna för ett etablerat ERP-system, snarare än kaosagenter som försöker improvisera våra leveranskedjor från grunden.

Vad är dina tankar om den här studien? Testar ni aktivt autonoma AI-agenter i er verksamhet, eller är det säkerhets- och styrningsproblem som hämmar ert företag?

Berätta om dina erfarenheter i kommentarerna och följ mig för fler veckovisa insikter om ERP-implementering, logistik och det föränderliga landskapet för företagsprogramvara.

Skriven av Andrea Guaccio

11 mars 2026