Das Training von KI-Modellen erfordert Daten. In Verteidigungsumgebungen sind genau die Daten, die die besten Trainingsproben liefern würden — operative Sensoraufzeichnungen, SIGINT-Abfangdaten, akustische Signaturen aus realen Gefechten — diejenigen, die nicht zentralisiert werden können. Sie sind klassifiziert, kompartimentiert, an vorwärts eingesetzten Knoten ohne Hochbreitband-Backhaul erzeugt oder einfach operativ zu sensibel für die Übertragung an eine zentrale Trainingseinrichtung.

Föderiertes Lernen löst dieses Dilemma. Anstatt Trainingsdaten zum Modell zu verschieben, verschiebt es das Modell zu den Daten. Jeder Sensorknoten trainiert ein lokales Modell auf seinen eigenen Beobachtungen und überträgt dann nur die resultierenden Gradientenaktualisierungen — nicht die Rohdaten — an einen Aggregationsserver. Der Server kombiniert diese Gradienten zu einem verbesserten globalen Modell und verteilt es zurück an alle Knoten. Die Roh-Sensordaten verlassen den Knoten nie.

Warum föderiertes Lernen für die Verteidigung wichtig ist

Verteidigungs-KI steht vor einem Datenproblem ohne kommerzielles Gegenstück. Bilder von einem ISR-Drohnen über einem umkämpften Gebiet sind an der Quelle klassifiziert — sie können nicht über kommerzielle Cloud-Infrastruktur für das Training geleitet werden. Die Bandbreitenbeschränkung ist ebenso grundlegend. Ein Netzwerk von vorwärts eingesetzten passiven SIGINT-Sensoren kann keine stundenlangen IQ-Daten täglich über ein taktisches Funklink mit 64 kbps an einen zentralen Server übertragen.

Architektur: Lokales Training, Gradientenaggregation, Globale Aktualisierung

Der kanonische föderierte Lernzyklus besteht aus vier Schritten über mehrere Runden: (1) Modellverteilung an alle teilnehmenden Knoten in geplanten Synchronisierungsfenstern; (2) Lokales Training des erhaltenen Modells auf lokalen Daten für 1–5 lokale Epochen ohne Datenübertragung; (3) Gradientenaggregation — jeder Knoten berechnet das Delta zwischen lokal trainierten Gewichten und anfänglichen globalen Gewichten und überträgt dieses Delta an den Server; (4) Globale Modellaktualisierung durch gewichtete Durchschnittsmethoden wie FedAvg, FedProx oder SCAFFOLD.

Herausforderungen: Non-IID-Daten und Byzantinische Knoten

Heterogene Datenverteilungen in militärischen Sensornetzwerken degradieren die Leistung von Standard-FedAvg und erfordern fortgeschrittene Aggregationsstrategien. Byzantinische Knoten — kompromittierte oder böswillige — können das aggregierte Modell durch vergiftete Gradienten korrumpieren. Abwehrmaßnahmen umfassen robuste Aggregationsalgorithmen (Krum, Bulyan, Trimmed Mean) und kryptografische Knotenidentitätsattestation für Bundeswehr-Deployments.

Wichtige Erkenntnis: Gradientenkompression reduziert den Kommunikationsaufwand des föderalen Lernens auf bandbreitenbeschränkten Bundeswehr-Verbindungen erheblich. Top-k-Ausdünnung oder Gradientenquantisierung können das Kommunikationsvolumen pro Runde um 10–100× reduzieren mit minimalem Einfluss auf die Konvergenz.

Implementierung auf Jetson: PyTorch FL-Frameworks

Für Jetson-basierte Sensorknoten sind Flower (flwr) und PySyft die zwei reifsten Open-Source-Frameworks für föderiertes Lernen. Flower ist framework-agnostisch mit einer sauberen Client-Server-Architektur und austauschbaren Aggregationsstrategien. PySyft bietet eine datenschutzorientierte Abstraktion höherer Ebene mit Unterstützung für sichere Mehrparteienberechnung.

Differenzieller Datenschutz: Datenproblem verhindern

Selbst Gradientenaktualisierungen können durch Gradienteninversionsangriffe Informationen über lokale Trainingsdaten preisgeben. Differenzieller Datenschutz (DP) löst dies durch Hinzufügen von kalibriertem Gauß- oder Laplace-Rauschen zu Gradientenaktualisierungen vor der Übertragung. Die Implementierung von DP-SGD auf Jetson-Knoten verwendet Per-Sample-Gradientenbeschneidung gefolgt von Rauschen. PyTorchs Opacus-Bibliothek bietet eine effiziente DP-SGD-Implementierung kompatibel mit Flowers Client-Interface.