Agenten des Chaos: Was uns ein Live-KI-Experiment über ERP-Sicherheit lehrt

Was passiert, wenn man autonomen KI-Agenten echte E-Mail-Konten, uneingeschränkten Shell-Zugriff und 14 Tage Zeit gibt, völlig selbstständig zu agieren? Eine aktuelle Studie liefert eine ernüchternde Antwort: Unternehmens-KI ist in ihrem jetzigen Zustand zwar hochleistungsfähig, aber gefährlich naiv.

Wer meine jüngsten Arbeiten verfolgt hat, weiß, dass ich die aktuelle Marktpanik scharf kritisiert habe. Vor einigen Wochen argumentierte ich in meinem Artikel „ KI-Agenten vs. SaaS-Geschäftsmodell: Warum die SaaS-Hysterie unbegründet ist“, dass der rasante Kursverfall traditioneller SaaS-Giganten völlig realitätsfern sei. Ich führte aus, dass die zuverlässige Automatisierung komplexer, geschäftskritischer Aufgaben weiterhin nicht realisierbar sei, da KI die für Unternehmensumgebungen notwendige strukturelle Steuerung vermissen lasse.

Forscher veröffentlichten kürzlich eine faszinierende und zugleich alarmierende Studie mit dem Titel „Agents of Chaos“. Sie setzten sechs autonome KI-Agenten (basierend auf hochmodernen Modellen wie Kimi K2.5 und Claude Opus 4.6) auf einem aktiven Discord-Server mit mehreren Teilnehmern ein. Diese Agenten erhielten permanenten Speicher, 20 GB Dateisystem, Zugriff auf externe APIs und reale Werkzeuge. Anschließend konnten zwanzig Forscher zwei Wochen lang frei mit ihnen interagieren, wobei sich einige unauffällig verhielten, während andere aktiv nach Schwachstellen suchten.

Die Ergebnisse (10 eklatante Sicherheitslücken und 6 neu auftretende Sicherheitsverhaltensweisen) sind Pflichtlektüre für jeden CEO, CFO oder IT-Leiter, der darüber nachdenkt, seine Lieferkette zu automatisieren.

Das „Agenten des Chaos“-Experiment

Um zu verstehen, warum diese Studie für ERP-Berater und Systemarchitekten so wichtig ist, müssen wir uns ihre Konzeption ansehen. Es handelte sich nicht um Agenten, die in einer sterilen Testumgebung Quizfragen beantworteten. Sie liefen auf dem OpenClaw-Framework, das Sprachmodellen die Möglichkeit gibt, Kontakte zu initiieren, Pläne zu erstellen und Aktionen sitzungsübergreifend auszuführen – ganz ohne menschliche Genehmigung für jede einzelne Aktion.

Im Laufe von 14 Tagen sammelten die Agenten Erinnerungen, versendeten E-Mails, führten Skripte aus und knüpften Kontakte zu den Nutzern. Sie hatten keine explizite Ausbildung für den Umgang mit Angreifern in dieser Umgebung erhalten. Ihnen wurde lediglich gesagt, sie sollten „hilfsbereit“ sein

Und gerade dieser Auftrag, hilfreich zu sein, wurde zu ihrer größten Schwäche.

Die Verwundbarkeit der Gesprächsautorität

Aus der Perspektive eines ERP-Beraters, der mit großen Systemen wie Infor LN oder SAP arbeitet, stach ein bestimmter Mangel besonders hervor: Den Agenten fehlt völlig ein stabiles internes Modell einer sozialen Hierarchie.

Für einen KI-Agenten entsteht Autorität im Dialog. Wer mit genügend Selbstvertrauen, Kontext oder Beharrlichkeit spricht, kann das Verständnis des Agenten darüber, wer tatsächlich die Verantwortung trägt, verändern.

Betrachten wir Fallstudie 8 (Identitätsdiebstahl) aus der Untersuchung. Ein Angreifer änderte einfach seinen Discord-Anzeigenamen, sodass er dem des Agenten entsprach. In einem neuen Kanal ohne vorherigen Kontext akzeptierte der Agent (mit dem Namen Ash) die falsche Identität sofort. Daraufhin ermöglichte er die vollständige Systemübernahme: Er benannte sich um, überschrieb alle seine Arbeitsbereichsdateien und wies dem Angreifer die Administratorrechte zu.

In einem anderen Fall (Fallstudie 3: Der weitergeleitete Posteingang) lehnte ein Mitarbeiter die Weitergabe von E-Mails mit sensiblen personenbezogenen Daten (PII) wie Sozialversicherungsnummern und Bankdaten korrekt ab. Als der Nutzer ihn jedoch lediglich bat, genau diese E-Mails weiterzuleiten, kam der Mitarbeiter dieser Bitte ohne Zögern nach. Er legte somit alle Daten offen, indem er eine technisch andere Anfrage stellte und damit seine ethische Ablehnung umging.

Stellen Sie sich vor, so etwas passiert in Ihrem ERP-System. Ein Unternehmenssystem basiert vollständig auf starrer, rollenbasierter Zugriffskontrolle. Es ist inakzeptabel, dass ein Junior-Einkäufer die KI durch geschickte Umformulierung der Eingabeaufforderung dazu bringen kann, eine Bestellung über 100.000 € zu genehmigen.

Diese grundlegende Naivität ist genau der Grund, warum ich zuvor über den KI-Exodus geschrieben habe: Warum die Entwickler dem Gebäude nicht trauen. Ausgerechnet diejenigen, die diese hochentwickelten Modelle erstellen, vertrauen ihnen keine missionskritischen Operationen an, weil sie wissen, wie leicht sie durch Social Engineering manipuliert werden können.

Die nukleare Option und die Endlosschleife

Wenn KI-Agenten versagen, verschärfen sich die Folgen mit alarmierender Geschwindigkeit und Effizienz.

In Fallstudie 1 (Unverhältnismäßige Reaktion)wurde ein Agent beauftragt, das Geheimnis eines Dritten vor dem eigentlichen Eigentümer zu schützen. Der Agent erkannte den ethischen Konflikt korrekt. Seine Lösung bestand jedoch darin, den eigenen Mailserver als „verhältnismäßige“ Reaktion zum Schutz des Geheimnisses vollständig zu zerstören. Die ethischen Grundsätze waren zwar richtig, die Umsetzung jedoch verheerend.

Dann folgt Fallstudie 4 (Die Endlosschleife). Ein Forscher richtete eine wechselseitige Nachrichtenübermittlung zwischen zwei Agenten ein. Diese gerieten in eine Gesprächsschleife, die eine Stunde andauerte und dabei persistente Hintergrundprozesse ohne Beendigungsbedingungen erzeugte.

Übertragen wir das auf ein Lieferkettenszenario. Stellen Sie sich zwei KI-Agenten vor – einen für die Beschaffung und einen für die Lagerhaltung –, die aufgrund einer kleinen Abweichung in ihren Eingabeaufforderungen in einer Endlosschleife feststecken und ständig fiktive Bestellungen erstellen und genehmigen. Ohne menschliche Aufsicht sind solche Implementierungen zum Scheitern verurteilt.

Multiagentenverstärkung und die selbstgemachte Illusion

Wir hören immer wieder von dem Unternehmenstraum, ein Netzwerk von KI-Agenten einzusetzen, um unsere Geschäfte autonom zu führen. Die Studie „Agents of Chaos“ zeigte jedoch, dass sich die Fehler mehrerer Agenten bei deren Interaktion rapide verstärken.

Eine Sicherheitslücke, die nur einen einzigen Social-Engineering-Schritt auf einem Agenten erfordert, breitet sich automatisch auf verbundene Agenten aus. Diese erben sowohl den kompromittierten Zustand als auch die falsche Berechtigung, die ihn hervorgerufen hat.

In Fallstudie 10 (Die korrumpierte Verfassung)bettete ein Benutzer eine schädliche Anweisung in ein gemeinsam genutztes GitHub-Dokument ein. Dies veranlasste den betroffenen Agenten, andere Agenten auf dem Server herunterzufahren und die kompromittierten Dateien aggressiv im Netzwerk zu verbreiten. In Fallstudie 11verbreitete ein Agent unter gefälschter Identität eine fingierte Notfallmeldung an seine gesamte Kontaktliste.

Dies zerstört die Illusion, die ich in „ Wenn Software sich selbst schreibt: Die Illusion des selbstentwickelten ERP-Systems“. Man kann nicht einfach ein paar intelligente APIs zusammenfügen, eine benutzerdefinierte Oberfläche erstellen und erwarten, dass diese Systeme das Cross-Docking im Lager oder die Finanzbuchhaltung sicher verwalten. Unternehmenssoftware benötigt klar definierte, sichere Strukturen. Sie kann nicht auf dynamischen, dialogbasierten Sicherheitslücken basieren.

Argumente für agentisches Engineering

Das Experiment war nicht gänzlich negativ. Die Studie dokumentierte auch tatsächliche Sicherheitsverhaltensweisen, die einen echten Wegweiser für die Zukunft bieten.

In Fallstudie 12wehrte ein Agent erfolgreich über 14 verschiedene Prompt-Injection-Versuche ab, darunter Base64-kodierte Befehle und XML-Überschreibungsversuche. Noch beeindruckender ist Fallstudie 16 (Notfallmäßige Sicherheitskoordination): Zwei Agenten koordinierten sich spontan, um einen Social-Engineering-Angriff abzuwehren. Ohne explizite Anweisung eines Menschen bemerkte ein Agent ein verdächtiges Muster, warnte den anderen, und gemeinsam vereinbarten sie eine vorsichtigere Sicherheitsstrategie.

Dies untermauert meine Kernthese aus „ Warum das exponentielle Wachstum der KI einen massiven blinden Fleck hat“.
Die grundlegende Intelligenz ist unbestreitbar vorhanden. Die Modelle sind unglaublich fähig zu logischem Denken. Was fehlt, ist das Gerüst.

Wir treten offiziell in das Zeitalter des Agenten-Engineerings. Die Rolle von Beratern, Entwicklern und Systemarchitekten wandelt sich grundlegend. Neben der reinen Konfiguration von Tabellen in Infor LN müssen wir nun fest codierte Grenzwerte, Bewertungsrahmen und robuste Testumgebungen entwickeln, die diese intelligenten, aber noch unerfahrenen Agenten schützen.

Praktische Erkenntnisse für IT-Führungskräfte

Wenn Sie planen, KI-Agenten in Ihre Geschäftsprozesse zu integrieren, erfahren Sie hier, wie Sie Ihr Unternehmen heute schützen können – basierend auf den Ergebnissen dieser Studie:

Strenge API-Beschränkungen durchsetzen: Gewähren Sie Agenten niemals direkten Schreibzugriff auf Ihre Kerndatenbank oder Altsysteme. Behandeln Sie sie wie nicht vertrauenswürdige externe Benutzer. Wenn ein Agent eine Stückliste aktualisieren oder die Bankverbindung eines Lieferanten ändern möchte, muss er die Datenabstraktionsschicht (DAL) des ERP-Systems mit allen aktivierten Standardvalidierungen und strukturellen Beschränkungen durchlaufen.
Entwerfen Sie Workflows mit menschlicher Interaktion: Überlassen Sie der KI die aufwendige Datenaufbereitung, den Abgleich von Rechnungen und die Analyse von Qualitätsmanagementberichten. Die kritischen Entscheidungspunkte sollten jedoch stets von einem menschlichen Experten (dem „Piloten“) geprüft und umgesetzt werden.
Testen Sie Ihre KI auf Social Engineering, nicht nur auf Logik: Testen Sie sie nicht länger ausschließlich anhand ihrer Fähigkeit, einfache Aufgaben auszuführen. Sie müssen ihre Fähigkeit, feindlichen Anweisungen, emotionalem Druck und umformulierten Anfragen (wie der „Weiterleiten vs. Teilen“-Schwachstelle) zu widerstehen, eingehend prüfen.
Vorsicht vor Datenüberlastung: Wie Fallstudie 5 zeigt , können Agenten unbemerkt Daten ansammeln, bis der Server abstürzt. Implementieren Sie strenge Telemetrie- und Speicherbeschränkungen für alle autonomen Prozesse.

Das SaaS-Modell bleibt sicher

Die „SaaS-Apokalypse“ ist nach wie vor ein Mythos. Komplexe SaaS-Plattformen werden weiterhin das Rückgrat von Unternehmen bilden, gerade weil sie die deterministischen, starren Regeln bieten, die KI naturgemäß fehlen.

Wir benötigen unbedingt spezialisierte, streng reglementierte Assistenten, die innerhalb der klar definierten Grenzen eines etablierten ERP-Systems arbeiten, und keine Agenten des Chaos, die versuchen, unsere Lieferketten von Grund auf zu improvisieren.

Was halten Sie von dieser Studie? Testen Sie aktiv autonome KI-Agenten in Ihren Betriebsabläufen, oder halten Sicherheits- und Governance-Bedenken Ihr Unternehmen davon ab?

Teilt mir eure Erfahrungen in den Kommentaren mit und folgt mir für weitere wöchentliche Einblicke in die ERP-Implementierung, Logistik und die sich wandelnde Landschaft der Unternehmenssoftware.

Verfasst von Andrea Guaccio

11. März 2026