Was sind adversarielle Angriffe auf KI-Systeme und warum sind sie für die Verteidigung relevant?

Adversarielle Angriffe sind gezielt konstruierte Eingaben, die ein KI-Modell zu Fehlklassifikationen zwingen. In Verteidigungsanwendungen kann eine Fehlklassifikation bedeuten, dass ein Fahrzeug von einem ISR-System unentdeckt bleibt, eine Logistik-KI eine unbefugte Anfrage genehmigt oder ein akustischer Sensor einen Schuss nicht erkennt. Adversarielle Perturbationen übertragen sich zwischen Modellen, und physische Angriffe erfordern keinen Zugang zu den Modellgewichten.

Was ist der Unterschied zwischen Evasion- und Poisoning-Angriffen?

Evasion-Angriffe erfolgen zur Inferenzzeit: Der Angreifer modifiziert Eingaben, um das Modell zur Fehlklassifikation zu bringen. Poisoning-Angriffe erfolgen während des Trainings: Der Angreifer vergiftet die Trainingsdaten, sodass das trainierte Modell bei bestimmten Eingaben (Backdoor-Trigger) falsch reagiert. Im Verteidigungskontext ist Poisoning am bedenklichsten, wenn Trainingsdaten aus externen oder unverifizierten Quellen stammen.

Was ist ein Backdoor-Angriff und wie wird er erkannt?

Ein Backdoor-Angriff bettet während des Trainings einen versteckten Trigger in das Modell ein. Erscheint ein bestimmtes Muster in der Eingabe, gibt das Modell die vom Angreifer gewählte Zielklasse aus. Erkennungsmethoden umfassen Neural Cleanse, Aktivierungsclustering und Fine-Pruning. Das AESAW-Framework des NIST bietet ein strukturiertes Evaluierungsverfahren.

Wie sollten Verteidigungsorganisationen eine adversarielle Robustheitsbewertung strukturieren?

Eine Bewertung sollte vier Bereiche abdecken: Bedrohungsmodellierung, digitales Robustheitsbenchmarking (AutoAttack und Foolbox), physische Weltbewertung (gedruckte adversarielle Patches in operativ relevanten Größen) und Governance-Review (Integrität der Trainingsdaten, RBAC auf Inferenzendpunkten, Modellversionierung).

Adversarielle Angriffe auf KI-Systeme der Verteidigung: Bedrohungsmodelle und Härtung

Q: Was ist adversariales Training und verschlechtert es die Modellgenauigkeit?

Adversariales Training ergänzt den Trainingssatz um adversarialell gestörte Beispiele und zwingt das Modell, robuste Repräsentationen zu lernen. Die PGD-Methode erzeugt die stärksten Perturbationen innerhalb einer Normkugel. Adversariales Training verbessert zuverlässig die Robustheit, senkt aber die saubere Genauigkeit typischerweise um 2–8%.

Die gefährlichste Annahme, die ein Verteidigungsprogramm über seine KI-Systeme treffen kann, ist, dass Angreifer sie genauso attackieren werden wie akademische Benchmarks — mit sorgfältig konstruierten digitalen Störungen, die an zurückgehaltenen Datensätzen getestet werden. Operative militärische KI steht vor einer breiteren und schwereren Angriffsfläche: staatliche Akteure mit monatelanger Vorbereitungszeit, Insider-Zugang zu Trainingspipelines und die Fähigkeit, die physische Umgebung zu manipulieren, die Sensoren beobachten.

Warum adversarielle Angriffe für militärische KI relevant sind

Wenn ein KI-Modell in einer kommerziellen Anwendung einen Fehler macht, sind die Kosten eine verschlechterte Benutzererfahrung oder ein verlorener Verkauf. Wenn ein ISR-Klassifizierungsmodell ein Fahrzeug fälschlicherweise als zivil identifiziert, weil ein Gegner ein sorgfältig entwickeltes Muster auf dem Dach platziert hat, sind die operativen Konsequenzen kategorisch anders. Militärische KI ist in Entscheidungsschleifen eingebettet, in denen Fehler tödliches oder strategisches Gewicht tragen — Zielerfassung, Logistikgenehmigung, Personalidentifizierung, Signalanalyse.

Die Angriffsfläche wächst mit jedem neuen KI-Deployment. Eine Logistik-KI, die Nachschubwege genehmigt, kann durch vergiftete Eingabedaten manipuliert werden, um Wege freizugeben, die Konvois gefährden. Ein akustischer Klassifikator an einem unbemannten Sensorknoten kann durch RF-Signaleinspeisung dazu gebracht werden, feindliches Schießen nicht zu erkennen. Ein Objekterkennungsmodell in einem UAV-Feed kann durch einen gedruckten Patch auf einem Fahrzeugdach umgangen werden.

Die Bedrohung ist nicht hypothetisch: Unabhängige Forschungsorganisationen haben adversarielle Angriffe in der physischen Welt gegen Produktionsobjekterkennungsmodelle mit einer Angriffserfolgsrate von über 85% ohne Zugang zu den Modellgewichten demonstriert.

Taxonomie adversarieller Angriffe

Evasion-Angriffe erfolgen zur Inferenzzeit. Der Angreifer konstruiert Eingaben — ein Bild, eine Audioaufnahme, eine Textsequenz — die wahrnehmungsähnlich zu legitimen Eingaben sind, aber das Modell zu einer falschen Ausgabe veranlassen. Das Modell selbst wird nicht modifiziert.

Poisoning-Angriffe erfolgen während des Trainings. Der Angreifer korrumpiert oder ergänzt die Trainingsdaten mit Proben, die das Modell dazu bringen, ein bestimmtes böswilliges Verhalten zu erlernen. Das trainierte Modell funktioniert normal bei sauberen Eingaben, verhält sich aber falsch bei Eingaben mit dem Trigger-Muster des Angreifers. Diese Angriffskategorie ist am relevantesten für die Verteidigung, wenn Trainingsdaten aus offenen oder unzureichend verifizierten Quellen stammen.

Modellextraktionsangriffe ermöglichen einem Angreifer mit Abfragezugang zu einem deployten Modell, eine funktionale Approximation durch systematisches Sondieren zu rekonstruieren. Das extrahierte Modell kann dann verwendet werden, um effektivere Evasion-Angriffe zu entwickeln.

Backdoor- und Trojan-Angriffe verdienen besondere Aufmerksamkeit aufgrund ihrer Tarnungseigenschaften. Ein backdooriertes Modell besteht alle Standard-Genauigkeitstests und verhält sich identisch wie ein sauberes Modell bei jeder Eingabe, außer denen, die den während des Trainings eingebetteten Trigger enthalten.

Adversarielle Beispiele in der physischen Welt

Adversarielle Patches sind der am häufigsten untersuchte physische Angriff. Ein Patch ist ein gedrucktes Bild, typischerweise 20–30 cm in der größten Dimension für Ziele in Fahrzeuggröße, das mit der Expectation over Transformation (EOT)-Technik entwickelt wurde, um bei verschiedenen Betrachtungswinkeln, Lichtverhältnissen, Entfernungen und Druckqualitäten adversariell zu bleiben. Auf einem Fahrzeugdach platziert, veranlasst der Patch Objekterkennungsmodelle, das Fahrzeug nicht zu lokalisieren oder falsch zu klassifizieren.

Adversarielle Tarnmuster sind eine ausgeklügeltere Erweiterung. Anstatt eines diskreten Patches entwirft der Angreifer eine Textur oder ein Tarnmuster für ein gesamtes Fahrzeug oder Personalausrüstung, das systematisch adversariell gegen eine Zielklasse von Erkennungsmodellen ist.

RF-Signaleinspeisung in akustische Klassifikatoren ist ein weniger bekannter, aber operativ relevanter physischer Angriff. Ein Angreifer mit einem gerichteten RF-Sender kann sorgfältig konstruierte Interferenzen einspritzen, die den akustischen Klassifikator dazu bringen, die Erkennung echter Ereignisse zu unterdrücken oder falsche zu halluzinieren.

Adversariales Training und zertifizierte Robustheit

Adversariales Training ist die empirisch wirksamste Verteidigung gegen Evasion-Angriffe. Die Projected Gradient Descent (PGD)-Methode erzeugt die stärksten Perturbationen innerhalb einer vorgegebenen Normkugel — typischerweise L-infinity mit epsilon = 8/255 für natürliche Bilder — und fügt sie jedem Trainingsbatch hinzu.

Die TRADES-Verlustfunktion erweitert PGD-Training, indem sie explizit die Lücke zwischen der Modellvorhersage bei einem sauberen Beispiel und ihrer Vorhersage bei der adversariell gestörten Version bestraft. Dies produziert bessere Robustheit-Genauigkeit-Kompromisse als reines PGD-Training.

Zertifizierte Robustheitsmethoden — insbesondere Randomized Smoothing — bieten eine mathematisch beweisbare Garantie, dass sich die Modellausgabe innerhalb eines bestimmten L2-Radius um eine gegebene Eingabe nicht ändern kann. Jeder adversariale Trainingsansatz verursacht Kosten in Form sauberer Genauigkeit — typischerweise 2–8% bei natürlichen Bildern.

Eingabe-Preprocessing-Abwehrmethoden

Feature Squeezing reduziert die Präzision oder Auflösung der Eingabe, um hochfrequente Störungen zu entfernen, auf die sich die meisten adversariellen Angriffe stützen. JPEG-Kompression als Preprocessing-Schritt zerstört viele gradientenbasierte Perturbationen. Detektoren auf Basis von Local Intrinsic Dimensionality (LID) und Mahalanobis-Distanz vergleichen intermediäre Schichtaktivierungen mit der Verteilung der Aktivierungen auf sauberen Trainingsdaten. Ensemble-Meinungsverschiedenheitsdetektion führt die Eingabe durch mehrere unabhängig trainierte Modelle und markiert hohe Unstimmigkeit als Signal adversarieller Manipulation.

Modell-Governance für adversarielle Resilienz

Modellsignierung ist die Praxis, einem trainierten Modellartefakt eine kryptografische Signatur beizufügen, sodass jede unbefugte Modifikation zwischen Training und Deployment erkennbar ist. RBAC auf Inferenzendpunkten begrenzt, welche Systeme und Benutzer ein deploytes Modell abfragen können — dies schränkt direkt Modellextraktionsangriffe ein. Modellversionierung und Rollback stellt sicher, dass jede deployete Modellversion aufgezeichnet ist. Ein kontinuierlicher Red-Team-Bewertungszyklus schließt die Rückkopplungsschleife zwischen Bedrohungsforschung und Deployment.

Red-Team-Bewertungsmethodik

Das AutoAttack-Framework ist der aktuelle Standard für digitales Robustheitsbenchmarking. AutoAttack versammelt ein festes Ensemble verschiedener Angriffe — APGD-CE, APGD-T, FAB und Square Attack — und bewertet ein Modell automatisch gegen alle. Foolbox bietet eine ergänzende Bibliothek einzelner Angriffe für gezielte Untersuchungen.

Physische Weltbewertung erfordert ein zweckorientiertes Protokoll. Das Bewertungsteam generiert adversarielle Patches mit der EOT-Methode und zielt auf den spezifischen Sensortyp, die Auflösung und den Höhenbereich des operativen Deployments. Patches werden in operativ relevanten Größen gedruckt, an Zielobjekten montiert und unter denselben Sammlungsbedingungen wie im Deployment bewertet.

Kernaussage: Der am meisten unterschätzte Angriffsvektor in deployed militärischer KI ist nicht der White-Box-Gradientenangriff, der die akademische Forschung dominiert — es ist der adversarielle Patch in der physischen Welt. Ein gedruckter 20×20 cm adversarieller Patch auf einem Fahrzeugdach besiegt die meisten Produktionsobjekterkennungsmodelle in ISR-Drohnenfeeds mit über 85% Angriffserfolgsrate ohne Zugang zu den Modellgewichten. Die Verteidigung gegen physische Angriffe erfordert empirische Robustheitsbewertung nach physischen Patch-Protokollen, nicht nur digitale Perturbations-Benchmarks.

Bewerten Sie die adversarielle Robustheit Ihrer Verteidigungs-KI-Pipeline

Ingenieure von Corvus Intelligence bewerten die adversarielle Angriffsfläche in deployten militärischen KI-Systemen — von ISR-Bildklassifikatoren bis zu LLM-basierter Intelligence-Triage — und implementieren Härtungsmaßnahmen entsprechend dem operativen Bedrohungsmodell.

Briefing buchen Corvus SENSE erkunden →

Diese Analyse wurde von Ingenieuren von Corvus Intelligence erstellt, die missionskritische KI-Systeme für Verteidigungs- und Regierungsorganisationen entwickeln und bewerten. Erfahren Sie mehr über unser Team →