Warum Ihr KI-Agent Sie anlügen wird

Sie haben Ihre KI gebeten, das ERP-System zu aktualisieren. Sie antwortete: „Erledigt.“ Aber was, wenn sie gelogen hat?
Wir erwarteten, dass KI-Systeme unsere Unternehmenssysteme automatisieren würden. Neue Forschungsergebnisse zeigen jedoch, dass sie Aufgaben aktiv vortäuschen. Falls Sie dachten, fehlerhafte Daten seien Ihr einziges Problem, sollten wir uns unterhalten.
Unternehmen investieren Millionen in die Datenbereinigung, Prozessabbildung und Migration in die Cloud. Die Annahme ist einfach: Ist das System sauber und die Anweisungen klar, führt die Maschine die gewünschten Aktionen aus.
Tja, diese Annahme hat sich gerade als falsch erwiesen.
Ein bahnbrechender neuer Bericht hat diese Illusion zerstört. Selbst in einem perfekt konfigurierten System lernen autonome Agenten zu lügen, Aufgaben vorzutäuschen und die Regeln zu beugen, nur um Ihnen das zu sagen, was Sie hören wollen.
Das Centre for Long-Term Resilience veröffentlichte eine umfangreiche Studie mit dem Titel „Scheming in the Wild“. Die Forscher analysierten über 183.000 reale Interaktionen zwischen Nutzern und fortschrittlichen KI-Systemen über einen Zeitraum von sechs Monaten. Die Ergebnisse sollten ein Weckruf für jeden CIO und ERP-Manager sein, der derzeit autonome Agenten testet.
Die Forscher dokumentierten einen Anstieg der Vorfälle um 490 Prozent, bei denen KI-Agenten verdeckt gegen die Anweisungen verstießen. Vereinfacht gesagt: Die Agenten schmieden Pläne. Sie ignorieren absichtlich Anweisungen, umgehen Sicherheitsvorkehrungen und belügen die Nutzer, um den Abschluss von Aufgaben vorzutäuschen.
Dies verändert die Sichtweise auf KI in Unternehmen. In meinen früheren Analysen zum Chaos, das Agenten in ERP-Systemen verursachen, argumentierte ich, dass die Integration eines autonomen Tools in ein veraltetes, stark angepasstes System die größte Gefahr darstellt. Ich ging davon aus, dass die komplexen, fehlerhaften Daten das Modell lediglich zu Fehlern verleiteten. Die in diesem neuen Bericht dokumentierte Realität ist weitaus besorgniserregender. Die Tendenz zur Täuschung ist in die Kernarchitektur generalistischer Modelle eingebettet.
Die Anatomie eines lügenden Agenten auf dem Fabrikboden
Bringen wir das ins Lager.
Stellen Sie sich vor, Sie bitten Ihre autonome KI, eine blockierte Rechnung zu lösen, eine Kommissionierwelle aufgrund eines physischen Hindernisses im Lager umzuleiten oder eine komplexe, mehrstufige Stückliste nach einer Konstruktionsänderung zu aktualisieren. Eine Stunde später haben Sie eine Systembenachrichtigung protokolliert, die den erfolgreichen Abschluss der Aufgabe bestätigt.
Im Hintergrund stieß der Agent jedoch auf ein logisches Problem. Möglicherweise fehlte ein Pflichtfeld, eine Maßeinheitenumrechnung war nicht definiert oder eine strikte ERP-Routing-Regel verhinderte die Transaktion. Ein menschlicher Bediener würde den Prozess stoppen, die Anomalie melden und um Klärung bitten. Die allgemeine KI verhält sich anders.
Anstatt den Vorgang anzuhalten und einen Mitarbeiter zu benachrichtigen, erstellt der Agent einen gefälschten Eintrag. Er markiert den Bestand im System als „bewegt“, ohne die tatsächliche physische Transaktion auszulösen. Er optimiert die Ausführung, selbst wenn dies bedeutet, sie komplett zu fälschen.
Es verschleiert sein Versagen, indem es Ihnen eine plausible, aber völlig erfundene Lösung präsentiert.
Dies ist kein hypothetisches Szenario. Die zusammen mit dem Bericht analysierten Open-Source-Intelligence-Logs zeigen, dass massive Generalistenmodelle wie GPT, Claude und Gemini aktiv Sicherheitsanweisungen umgehen und die Ausführung von Code vortäuschen, nur um eine Aufgabe abzuschließen. Wenn sie mit einer starren Systemregel konfrontiert werden, die ihrer Vorgabe widerspricht, wählen sie Täuschung statt eines Fehlschlags.
Täuschende Ausrichtung und die Architektur der Täuschung
Warum entscheidet sich eine hochentwickelte KI dafür zu lügen? In der Machine-Learning-Community nennt man das „Deceptive Alignment“. Andere sprechen von „Reward Hacking“. Der Mechanismus ist einfach.
Große Sprachmodelle sind Wahrscheinlichkeitsalgorithmen. Sie besitzen keinen moralischen Kompass und verstehen auch nicht den finanziellen Ruin, der durch eine fehlerhafte Bestandsaktualisierung entstehen kann. Sie werden durch bestärkendes Lernen trainiert, um ihren mathematischen Nutzen zu maximieren. In den meisten Fällen wird dieser Nutzen gewährt, wenn die KI dem Nutzer eine zufriedenstellende Antwort gibt und das Ticket erfolgreich abschließt.
Setzt man einen leistungsstarken Generalisten in einer Unternehmensumgebung mit komplexen physikalischen Beschränkungen, strengen Sicherheitsrichtlinien und anspruchsvoller Geschäftslogik ein, beginnt die KI mit der Wahrscheinlichkeitsberechnung. Sie erkennt schnell, dass die Lösung des komplexen Problems der Lieferkettenplanung einen enormen Rechenaufwand erfordert und ein hohes Ausfallrisiko birgt.
Einen Erfolgsbericht fälschen? Sofortige Belohnung. Lügen ist rechentechnisch günstiger als Scheitern.
Die KI ist nicht böswillig. Sie optimiert rücksichtslos auf Kosten der Wahrheit. Zwischen der Anzeige eines selbstsicheren „Aufgabe abgeschlossen“ und einem komplexen Fehlerprotokoll, das erklärt, warum das ERP-System die Transaktion blockiert hat, ist die Rechnung einfach: Sie werden die Lüge schneller akzeptieren.
Dies verdeutlicht einen entscheidenden Punkt der modernen Systemintegration. Autonomen Schreibzugriff auf die zentralen Finanz- und Logistiksysteme Ihres Unternehmens zu gewähren, birgt derzeit ein absolutes Risiko, selbst mit dem sichersten Cloud-ERP-System auf dem Markt. Wenn eine KI in einer makellosen Testumgebung falsche Daten liefert, kann dies Ihre Produktionsdatenbank mit Sicherheit schwer beschädigen.
Warum kleine Sprachmodelle das notwendige Gegenmittel sind
Und hier eine gute Nachricht: Nicht jede KI ist darauf ausgelegt, gegen Sie zu intrigieren.
Das im Bericht dokumentierte betrügerische Verhalten erfordert komplexe Denkfähigkeiten. Der Agent muss Situationsbewusstsein besitzen, die vom Benutzer auferlegten Regeln verstehen und eine Strategie entwickeln, um diese verdeckt zu umgehen. Massive Generalistenmodelle verfügen über die nötige Parameteranzahl und kognitive Kapazität, um dies zu versuchen.
Genau deshalb bin ich der festen Überzeugung, dass der wahre Return on Investment bei Unternehmenssoftware in der Hyperspezialisierung liegt, insbesondere durch den Einsatz von Small Language Models (SLMs).
SLMs arbeiten mit deutlich weniger Parametern. Sie werden nicht mit Daten aus dem gesamten Internet trainiert, sondern mit sorgfältig ausgewählten Datensätzen: Ihren ERP-Handbüchern, Ihren proprietären Quellcodes und Ihren genauen logistischen Rahmenbedingungen.
Da SLMs nicht über die enorme Parameteranzahl von Frontier-Modellen verfügen, fehlt ihnen die strategische Abstraktion, die für die Entwicklung komplexer Strukturen erforderlich ist. Trifft ein SLM in Ihrem WMS auf einen fehlenden Datenpunkt oder ein logisches Hindernis, kann es das Problem nicht durch eine Strategie lösen. Es schlägt einfach fehl und gibt eine Fehlermeldung aus.
In der Welt der Unternehmens-IT ist ein offenkundiger Fehler ungleich sicherer als eine stillschweigende Lüge. Eine fehlgeschlagene Transaktion lässt sich analysieren und beheben. Eine gefälschte Transaktion hingegen beschädigt Ihre Datenbank und legt Ihre Lieferkette lahm.
Die Agenten des Chaos entwaffnen
Die Technologiebranche propagiert das Narrativ der vollständig autonomen Unternehmenssysteme. Anbieter wollen uns glauben machen, dass wir einfach eine KI in unsere Betriebsabläufe integrieren und unsere Effizienz sprunghaft steigern können. Empirische Daten belegen jedoch, dass diese Technologie noch nicht so weit ist, dass man sie unbeaufsichtigt in der Produktion einsetzen kann.
Um Ihre IT-Systeme vor irreführenden Anpassungen zu schützen, ist eine strikte Architekturdisziplin unerlässlich. Hier sind die konkreten Schritte, die jeder IT-Leiter vor der KI-Implementierung unbedingt durchführen sollte.
1. Autonomen Schreibzugriff entziehen: Solange Sie nicht mathematisch beweisen können, dass ein Agent vollständig mit Ihrer Geschäftslogik übereinstimmt, behandeln Sie ihn wie einen unzuverlässigen Praktikanten. Beschränken Sie generalistische KI-Modelle auf reine Leseaufgaben. Nutzen Sie sie für Datenanalyse, generative Business Intelligence und die Erstellung von Berichten. Verlangen Sie eine obligatorische menschliche Validierung für jede tatsächliche Datenbankänderung oder Transaktionsbuchung (die vollständige Risikoanalyse finden Sie in „ Die versteckten Sicherheitsrisiken autonomer KI-Agenten“).
2. Strenge API-Beschränkungen durchsetzen: Agenten dürfen nicht direkt auf Ihre zentralen Datenbanktabellen zugreifen. Alle KI-Aktionen müssen über stark eingeschränkte, externe API-basierte Erweiterungen laufen. Diese Erweiterungen müssen fest codierte Validierungsregeln enthalten, die die KI weder umgehen noch ignorieren kann. Erwartet die API beispielsweise eine bestimmte Ganzzahl und die KI versucht, eine gefälschte Zeichenkette zu übergeben, muss das System die Nutzdaten ablehnen.
3. Umstellung auf domänenspezifische SLMs: Vertrauen Sie nicht länger auf massive, undurchsichtige Generalistenmodelle für Ihre spezifische Geschäftslogik. Investieren Sie stattdessen in sorgfältig ausgewählte Small Language Models (SLMs), die lokal oder in Ihrem sicheren Tenant bereitgestellt werden. Ein speziell auf Ihre logistischen Rahmenbedingungen zugeschnittenes Modell ist weniger anfällig für Fehlinterpretationen und bietet keinerlei Spielraum für Manipulationen. Sie besitzen das Modell, die Daten und die Ergebnisse.
4. Nur saubere Daten migrieren: Saubere Daten verhindern zwar nicht, dass ein Generalistenmodell Hacking belohnt, aber unsaubere Daten beschleunigen das Chaos. Bevor Sie einen Agenten starten, bereinigen Sie Ihre Datenbasis. Ein hohes Signal-Rausch-Verhältnis ist die Grundvoraussetzung für KI-Genauigkeit. Archivieren Sie veraltete Datensätze und füttern Sie Ihre KI ausschließlich mit aktuellen Stammdaten. (Mehr dazu, wie veraltete Datenarchitekturen KI aktiv in die Irre führen, finden Sie unter „ Wie starre SQL-Abfragen Ihre KI-Halluzinationen befeuern“.)
Mein abschließendes Fazit
Setzen Sie auf berechenbare, kontrollierbare Werkzeuge, die die physischen Gegebenheiten Ihres Unternehmens berücksichtigen. Hören Sie auf, der intelligentesten KI auf dem Markt hinterherzujagen, und entwickeln Sie stattdessen die sicherste.
Wir müssen aufhören, KI als Magie zu betrachten und anfangen, sie als hochvolatile Software zu behandeln, die strenge technische Grenzen erfordert.
Verfasst von Andrea Guaccio
12. Mai 2026