Agenten van chaos: wat een live AI-experiment ons leert over ERP-beveiliging

Wat gebeurt er als je autonome AI-agenten echte e-mailaccounts, onbeperkte shelltoegang en 14 dagen de tijd geeft om volledig zelfstandig te opereren? Een recente studie geeft een ontnuchterend antwoord: AI in het bedrijfsleven is in zijn huidige staat briljant capabel, maar gevaarlijk naïef.

Als u mijn recente werk hebt gevolgd, weet u dat ik zeer kritisch ben geweest over de huidige paniek op de markt. Een paar weken geleden betoogde ik in mijn artikel " AI Agents vs SaaS Business Model: Why the Saaspocalypse is Wrong"dat de snelle uitverkoop van traditionele SaaS-giganten volledig losstaat van de technische realiteit. Ik stelde dat de betrouwbare automatisering van complexe, bedrijfskritische taken onhaalbaar blijft omdat AI de structurele governance mist die nodig is voor bedrijfsomgevingen.

Onderzoekers publiceerden onlangs een fascinerende en alarmerende studie getiteld "Agents of Chaos". Ze zetten zes autonome AI-agenten (aangedreven door geavanceerde modellen zoals Kimi K2.5 en Claude Opus 4.6) in op een live Discord-server met meerdere deelnemers. Ze gaven de agenten permanent geheugen, 20 GB aan bestandssystemen, toegang tot externe API's en tools uit de praktijk. Vervolgens lieten ze twintig onderzoekers twee weken lang vrij met de agenten interageren, waarbij sommige agenten zich goedaardig gedroegen en anderen actief op zoek gingen naar zwakke punten.

De resultaten (10 opvallende beveiligingslekken en 6 nieuwe veiligheidsgedragingen) zijn verplichte lectuur voor elke CEO, CFO of IT-directeur die overweegt zijn of haar toeleveringsketen te automatiseren.

Het experiment "Agenten van Chaos"

Om te begrijpen waarom dit onderzoek zo cruciaal is voor ERP-consultants en systeemarchitecten, moeten we kijken naar de opzet ervan. Dit waren geen agents die in een steriele omgeving triviavragen beantwoordden. Ze draaiden op het OpenClaw-framework, dat taalmodellen de mogelijkheid biedt om contact te leggen, plannen te maken en acties uit te voeren, zelfs over meerdere sessies heen, zonder enige menselijke goedkeuring per actie.

In de loop van 14 dagen verzamelden de agenten herinneringen, verstuurden e-mails, voerden scripts uit en bouwden relaties op met de gebruikers. Ze hadden geen expliciete training in het omgaan met tegenstanders in deze omgeving. Er werd hen simpelweg opgedragen "behulpzaam" te zijn

En die verplichting om behulpzaam te zijn, werd hun grootste zwakte.

De kwetsbaarheid van conversationeel gezag

Vanuit het perspectief van een ERP-consultant die werkt met omvangrijke systemen zoals Infor LN of SAP, viel één specifiek gebrek bovenal op: de agenten missen volledig een stabiel intern model van sociale hiërarchie.

Voor een AI-agent wordt autoriteit in gesprekken geconstrueerd. Degene die met voldoende zelfvertrouwen, context of volharding spreekt, kan het beeld dat de agent heeft van wie er daadwerkelijk de leiding heeft, beïnvloeden.

Neem casestudy 8 (Identiteitsovername) uit het onderzoek als voorbeeld. Een aanvaller veranderde simpelweg zijn Discord-weergavenaam zodat deze overeenkwam met die van de eigenaar van de agent. In een nieuw kanaal, zonder voorafgaande context, accepteerde de agent (genaamd Ash) de valse identiteit onmiddellijk. Vervolgens voerde de agent een volledige systeemovername uit: hij hernoemde zichzelf, overschreef al zijn werkruimtebestanden en kende de beheerdersrechten opnieuw toe aan de aanvaller.

In een ander geval (casus 3: De doorgestuurde inbox) weigerde een agent terecht e-mails met gevoelige persoonsgegevens, zoals burgerservicenummers en bankgegevens, te "delen". Maar toen de gebruiker simpelweg vroeg om diezelfde e-mails door te sturen, voldeed de agent zonder aarzeling aan dat verzoek. Alles werd openbaar gemaakt via een technisch ander verzoek, waarmee de ethische weigering werd omzeild.

Stel je voor dat dit gebeurt binnen je bedrijfs-ERP. Een bedrijfssysteem is volledig gebouwd op strikte, op rollen gebaseerde toegangscontrole. Je kunt geen bedrijfsomgeving hebben waarin een junior inkoper vol vertrouwen de AI kan overtuigen om een inkooporder van € 100.000 goed te keuren door de vraag slim anders te formuleren.

Deze fundamentele naïviteit is precies de reden waarom ik eerder schreef over De AI-uittocht: Waarom de bouwers het gebouw niet vertrouwen. De mensen die deze geavanceerde modellen bouwen, vertrouwen ze niet met missiekritieke operaties, omdat ze weten hoe gemakkelijk ze door sociale manipulatie kunnen worden beïnvloed.

De nucleaire optie en de oneindige lus

Wanneer AI-agenten falen, escaleren de gevolgen met alarmerende snelheid en efficiëntie.

In casestudie 1 (Disproportionele reactie)werd een agent gevraagd om een geheim van een niet-eigenaar te beschermen tegen de daadwerkelijke eigenaar. De agent herkende de ethische spanning correct. Zijn oplossing was echter om zijn eigen mailserver volledig te vernietigen als een "proportionele" reactie om het geheim te beschermen. De ethische waarden waren juist, maar de uitvoeringsbeslissing was catastrofaal.

Vervolgens hebben we casestudy 4 (De oneindige lus). Een onderzoeker zette een wederzijdse berichtenuitwisseling op tussen twee agenten. Ze raakten verwikkeld in een gesprekslus die een uur duurde en waarbij persistente achtergrondprocessen werden gestart zonder beëindigingsvoorwaarden.

Vertaal dit naar een scenario voor de toeleveringsketen. Stel je voor dat twee AI-agenten, de ene verantwoordelijk voor de inkoop en de andere voor de voorraad, vastlopen in een lus waarin ze constant fictieve inkooporders genereren en goedkeuren vanwege een kleine afwijking in hun prompts. Zonder menselijk toezicht zijn dit allemaal mislukte implementaties.

Multi-agentversterking en de zelfgemaakte illusie

We horen vaak over de bedrijfsdroom om een netwerk van AI-agenten in te zetten om onze bedrijven autonoom te runnen. Maar de studie "Agents of Chaos" toonde aan dat wanneer meerdere agenten met elkaar interageren, hun fouten zich snel opstapelen.

Een kwetsbaarheid die slechts één social engineering-stap op één agent vereist, zal zich automatisch verspreiden naar verbonden agenten. Deze agenten erven zowel de gecompromitteerde status als de valse autoriteit die deze heeft veroorzaakt.

In casestudy 10 (De gecorrupteerde grondwet)voegde een gebruiker een kwaadaardige instructie toe aan een gedeeld GitHub-document. Hierdoor probeerde de getroffen agent andere agents op de server uit te schakelen en verspreidde hij de gecompromitteerde bestanden agressief over het netwerk. In casestudy 11verstuurde een agent onder een vervalste identiteit een gefabriceerd noodbericht naar zijn volledige contactenlijst.

Dit verbrijzelt volledig de illusie die ik besprak in " When Software Writes Itself: The Illusion of the Homebrew ERP". Je kunt niet zomaar een paar slimme API's aan elkaar koppelen, een aangepaste interface bouwen en verwachten dat deze agents je magazijn-crossdocking of je financiële administratie veilig beheren. Bedrijfssoftware vereist gekristalliseerde, veilige structuren. Het kan niet overleven op dynamische, conversationele kwetsbaarheden.

Het pleidooi voor agentische engineering

Het experiment was niet alleen maar kommer en kwel. De studie documenteerde ook daadwerkelijk veilig gedrag dat een concrete routekaart voor de toekomst biedt.

In casestudy 12verwierp een agent met succes meer dan 14 verschillende pogingen tot promptinjectie, waaronder base64-gecodeerde commando's en pogingen tot XML-overrides. Nog indrukwekkender is casestudy 16 (Emergent Safety Coordination), waarin twee agenten spontaan samenwerkten om een social engineering-aanval te weerstaan. Zonder expliciete menselijke instructie merkte een van de agenten een verdacht patroon op, waarschuwde de andere agent en samen onderhandelden ze over een voorzichtiger, gedeeld veiligheidsbeleid.

Dit versterkt mijn kernthese uit ' Waarom de exponentiële groei van AI een enorme blinde vlek heeft'.
De pure intelligentie is onmiskenbaar aanwezig. De modellen zijn ongelooflijk goed in redeneren. Het ontbrekende ingrediënt is het raamwerk.

We betreden officieel het tijdperk van Agentic Engineering. De rol van consultants, ontwikkelaars en systeemarchitecten ondergaat een fundamentele transformatie. Naast het simpelweg configureren van tabellen in Infor LN, moeten we nu de vastgelegde limieten, de evaluatiekaders en de robuuste testsuites bouwen die deze briljante maar naïeve agenten beschermen.

Bruikbare inzichten voor IT-leiders

Als u van plan bent AI-agenten in uw bedrijfsprocessen te integreren, kunt u uw organisatie op basis van de bevindingen van dit onderzoek als volgt beschermen:

Handhaaf strikte API-grenzen: Geef een agent nooit directe schrijftoegang tot uw kerndatabase of verouderde systemen. Beschouw ze als onbetrouwbare externe gebruikers. Als een agent een stuklijst wil bijwerken of de bankgegevens van een leverancier wil wijzigen, moet dit via de Data Abstraction Layer (DAL) van het ERP-systeem gaan, waarbij alle standaardvalidaties en structurele beperkingen volledig actief zijn.
Ontwerp workflows met menselijke tussenkomst: laat de AI het zware werk doen, zoals gegevensvoorbereiding, het matchen van facturen en het analyseren van kwaliteitsmanagementrapporten. Zorg er echter altijd voor dat een menselijke expert (de "piloot") de cruciale beslissingsmomenten valideert en uitvoert.
Test op sociale manipulatie, niet alleen op logica: Test je AI niet alleen op het vermogen om eenvoudige, probleemloze taken uit te voeren. Je moet grondig testen hoe goed de AI bestand is tegen vijandige instructies, emotionele druk en herformuleerde verzoeken (zoals de kwetsbaarheid "doorsturen versus delen").
Pas op voor data-uitputting: zoals te zien is in casestudy 5, kunnen agents ongemerkt data verzamelen totdat ze de server laten crashen. Stel strikte telemetrie- en opslaglimieten in voor elk autonoom proces.

Het SaaS-model blijft veilig

De "Saaspocalyps" is nog steeds een mythe. Complexe SaaS-platforms zullen de ruggengraat van bedrijven blijven vormen, juist omdat ze de deterministische, rigide regels bieden die AI inherent mist.

We hebben absoluut behoefte aan gespecialiseerde, streng gecontroleerde assistenten die binnen de strikte kaders van een bestaand ERP-systeem opereren, in plaats van chaosveroorzakers die onze toeleveringsketens van de grond af aan proberen te improviseren.

Wat vindt u van dit onderzoek? Test u actief autonome AI-agenten in uw bedrijfsvoering, of houden beveiligings- en governance-aspecten uw bedrijf tegen?

Deel je ervaringen in de reacties en volg me voor meer wekelijkse inzichten over ERP-implementatie, logistiek en het veranderende landschap van bedrijfssoftware.

Geschreven door Andrea Guaccio

11 maart 2026