Computer Vision für Verteidigungssysteme: Objekterkennung und -verfolgung auf dem Gerät

Computer Vision — die Fähigkeit einer Maschine, visuelle Daten zu interpretieren und zu verstehen — ist zu einer der operationell bedeutsamsten KI-Fähigkeiten in modernen Verteidigungssystemen geworden. Von UAV-montierten Sensoren, die Fahrzeuge in Echtzeit identifizieren, bis hin zu Perimetersicherheitssystemen, die nachts Menschen von Tieren unterscheiden — On-Device Computer Vision transformiert, wie Streitkräfte visuelle Aufklärung sammeln, verarbeiten und darauf reagieren.

Der Einsatz von Computer Vision auf Bundeswehr-Hardware unterscheidet sich grundlegend vom Einsatz in einem kommerziellen Rechenzentrum. Die Modelle müssen auf robuster, leistungsbeschränkter Hardware laufen, bei variablen Beleuchtungs-, Wetter- und Sensorbedingungen funktionieren und Latenzanforderungen in Millisekunden erfüllen. Sie müssen kontrolliert versagen, wenn Eingaben außerhalb der Trainingsverteilung liegen.

Detektionspipeline-Architektur: Vom Frame zur Bounding Box

Eine moderne Objektdetektions-Pipeline für den Verteidigungs-Edge-Einsatz besteht aus mehreren sequenziellen Stufen. Die erste Stufe ist die Vorverarbeitung: Skalierung des Eingangsframes auf die Modell-Eingangsauflösung (typischerweise 640×640 oder 1280×1280 Pixel), Normalisierung der Pixelwerte auf den Bereich [0, 1] und optionales Letterboxing zur Beibehaltung des Seitenverhältnisses. Für Wärmebildkameras (LWIR) umfasst die Vorverarbeitung zusätzliche Normalisierungsschritte für den 14- oder 16-Bit-Dynamikbereich des Sensors.

Das Erkennungsmodell — derzeit dominiert von YOLO-Varianten — nimmt den vorverarbeiteten Frame entgegen und erzeugt Kandidaten-Detektionen mit Bounding Box, Klassenwahrscheinlichkeitsvektor und Objektivitätsscore. YOLOv8 führte einen ankerlosen Detektionskopf ein, der die Kleinstobjekterkennung wesentlich verbesserte — kritisch für die Luftaufklärung der Bundeswehr, wo Ziele nur wenige Pixel einnehmen. YOLOv9 mit dem Programmable Gradient Information (PGI)-Mechanismus verbessert den Gradientenfluss während des Trainings weiter.

Die letzte Stufe ist Non-Maximum Suppression (NMS). Das Modell erzeugt typischerweise Hunderte überlappender Kandidaten; NMS filtert diese auf den Teilsatz höchstvertrauenswürdiger, nicht überlappender Detektionen mit einem IoU-Schwellenwert (typischerweise 0,45–0,65). TensorRT bietet effizientes GPU-beschleunigtes NMS für Edge-Geräte.

Hardware-Plattformen: Jetson, Hailo und Movidius im Vergleich

NVIDIA Jetson AGX Orin ist der Leistungsführer unter den robusten eingebetteten GPUs. Bei 275 TOPS (INT8) kann er mehrere große Erkennungsmodelle gleichzeitig ausführen. Der AGX Orin arbeitet bei 10–60 W je nach Energiemodus, unterstützt CUDA 11.4+, TensorRT 8.x und DeepStream SDK für Mehrkamera-Pipelines. Für fahrzeugmontierte Anwendungen der Bundeswehr mit einem Leistungsbudget von über 100 W ist dies die Standardwahl.

Hailo-8 und Hailo-8L besetzen das energiesparende Ende der Hochleistungs-KI-Inferenz. Der Hailo-8 liefert 26 TOPS bei unter 3 W im PCIe M.2- oder mPCIe-Formfaktor — geeignet für kleine UAV-Nutzlasten und dismontierte Systeme. Der Hailo-8L (13 TOPS) reduziert den Stromverbrauch weiter auf ~1,5 W. Der Kompromiss: Hailos Ökosystem ist enger als NVIDIAs.

Intel Movidius Myriad X und das Intel OpenVINO-Toolkit zielen auf die Integration von Vision-KI mit Intels Kamera- und Sensor-Ökosystem ab. Der Myriad X liefert etwa 4 TOPS bei ~1 W, geeignet für eingebettete Vision-Anwendungen mit sehr geringem Stromverbrauch.

Optimierung: TensorRT INT8-Quantisierung und Layer-Fusion

Ein in PyTorch trainiertes YOLOv8-medium-Modell mit FP32-Gewichten benötigt etwa 850 MB Speicher und läuft mit etwa 8 fps auf einem NVIDIA Jetson Orin NX. Nach TensorRT-Optimierung auf INT8 benötigt dasselbe Modell etwa 210 MB und läuft mit 65+ fps — 8-fache Durchsatzverbesserung und 4-fache Speicherreduzierung, bei typischerweise weniger als 1% mAP-Degradation auf einem repräsentativen Kalibrierungsdatensatz.

Die TensorRT-Optimierung umfasst drei Haupttechniken: INT8-Quantisierung (Konvertierung von Gewichten und Aktivierungen von 32-Bit-Gleitkomma auf 8-Bit-Integer mit Quantisierungsskalierungsfaktoren pro Schicht aus einem Kalibrierungsdatensatz von 500–1.000 repräsentativen Bildern); Layer-Fusion (Zusammenführen von Operationssequenzen — Faltung + Batch-Normalisierung + ReLU — in einen einzigen optimierten CUDA-Kernel); und Kernel-Auto-Tuning (Auswahl der schnellsten CUDA-Kernel-Implementierung für jeden Schicht auf der Ziel-GPU).

Wichtige Erkenntnis: Die Qualität der Kalibrierungsdaten ist der primäre Bestimmungsfaktor für die INT8-Genauigkeit. Die Verwendung von Bildern aus der Deployment-Domäne — passend zu Sensortyp, Beleuchtungsbedingungen und Zielklassen — liefert deutlich bessere Kalibrierungsergebnisse als ImageNet oder andere generische Datensätze. Für LWIR-Thermaleingaben ausschließlich mit Thermalbildern kalibrieren.

Multi-Objekt-Tracking: DeepSORT, ByteTrack und BoT-SORT

Objekterkennung erzeugt Per-Frame-Detektionen. Multi-Objekt-Tracking (MOT) verbindet diese Detektionen über Frames hinweg zu persistenten Tracks — jeder mit einer eindeutigen ID, Trajektorienhistorie und Geschwindigkeitsschätzung. DeepSORT verwendet Kalman-Filterung und ein leichtes ReID-Modell. ByteTrack verbessert DeepSORT durch Nutzung niedrigvertrauenswürdiger Detektionen als zusätzliche Assoziationshinweise. BoT-SORT fügt Kamerabewegungskompensation zum ByteTrack-Framework hinzu — entscheidend für UAV-montierte Plattformen der Bundeswehr, bei denen die Kamerabewegung eine scheinbare Bewegung stationärer Ziele verursacht.

Deployment-Herausforderungen: Thermaleingaben, Sensorfusion und Robustheit

LWIR-Wärmebildkameras arbeiten im Spektralbereich 8–14 µm und erzeugen 14- oder 16-Bit-Graustufenbilder. Adaptives Histogramm-Ausgleichen (CLAHE) verbessert die Zielsichtbarkeit in Thermalbildern erheblich. Die Fusion von EO- und LWIR-Kameradetektionen erfordert extrinsische Kalibrierung, zeitliche Synchronisierung und eine Fusionsstrategie. Späte Fusion ist in eingesetzten Verteidigungssystemen am häufigsten. IP67-Gehäuse und MIL-STD-810H-Qualifizierung sind Anforderungen für BMVg-beschaffte Feldhardware.