Moderne ISR-Systeme (Aufklärung, Überwachung, Erkundung) erzeugen Datenvolumina, die grundlegend die menschliche Verarbeitungskapazität übersteigen. Eine einzelne UAV mittlerer Höhe, die eine Full-Motion-Video-Nutzlast betreibt, erzeugt bei Standardauflösung etwa 2–4 TB Rohvideo pro Tag, plus zugehörige Sensorprotokolle und Metadaten. Ein eingesetztes SIGINT-Sammelsystem kann täglich Terabytes an IQ-Daten über sein überwachtes Spektrum produzieren. Der Engpass im modernen ISR ist nicht die Sammlung — sondern Verarbeitung und Analyse.

Die traditionelle Antwort auf diesen Engpass ist Bandbreite: Rohdaten an eine Bodenstation übertragen und dort Analysearbeit anwenden. Dieser Ansatz sieht sich drei strukturellen Einschränkungen in modernen Einsatzumgebungen gegenüber. Erstens das Verbindungsbudget — Satelliten- und taktische Funkverbindungen können schlicht kein hochauflösendes Video aus einer großen UAV-Flotte kontinuierlich übertragen. Zweitens der Analytikermangel — es gibt nicht genug qualifizierte Bildanalysten, um alle gesammelten Aufnahmen Bild für Bild zu überprüfen. Drittens der zeitliche Wert der Aufklärung — bis Rohvideo eine Bodenstation erreicht, in die Warteschlange gestellt wird und Analytikeraufmerksamkeit erhält, kann das Handlungsfenster für zeitkritische Ziele bereits geschlossen sein.

KI-gestützte Triage am Edge adressiert alle drei Einschränkungen gleichzeitig. Die KI-Pipeline läuft auf der Sammelplattform — dem UAV selbst oder dem Sensorknoten — und filtert den Datenstrom automatisch, behält und überträgt nur die Teile, die Objekte von Interesse enthalten, während es den Hintergrund aus leerem Gelände, Himmel und Wasser, der den Großteil der rohen ISR-Sammlung ausmacht, verwirft oder stark komprimiert.

Das ISR-Datenüberlastungsproblem

Das Ausmaß des Datenüberlastungsproblems erfordert eine präzise Einrahmung. Betrachten Sie ein eingesetztes Aufklärungs-UAV der Bundeswehr, das eine EO/IR-Dual-Sensor-Nutzlast bei 1080p-Auflösung, 30fps, für 16 Stunden pro Tag betreibt. Bei Standard-H.264-Kompression erzeugt dies etwa 50 GB Video pro Flug. Wenn nur 3% des gesammelten Filmmaterials Objekte von Interesse enthält (eine großzügige Schätzung für Weitbereichsdeckungsmissionen), dann werden 97% des Bandbreiten- und Speicherbudgets durch Daten verbraucht, die niemals handlungsfähig sein werden. Edge-KI-Triage ändert das Verhältnis grundlegend: Durch das Erkennen und Markieren nur von Frames mit Erkennungen sinkt der Übertragungsbandbreitenbedarf von 50 GB auf etwa 1,5 GB pro Flugtag — im Bereich einer Satellitenverbindung, die bei bescheidenen Datenraten operiert.

SIGINT-Sammlung steht vor einem analogen Problem. Ein Breitband-SDR-Sammelsystem, das einen 200-MHz-Spektrumschnitt überwacht, erzeugt mehrere Hundert Gigabytes an IQ-Daten pro Stunde. Nur ein kleiner Bruchteil des überwachten Spektrums ist zu jedem Zeitpunkt aktiv, und nur ein Bruchteil der aktiven Signale hat analytisches Interesse. Automatisiertes Spektrum-Scanning und Signalklassifizierung am Edge reduziert die nachgelagerte Verarbeitungslast von der vollen gesammelten Bandbreite auf nur die klassifizierten Signale von Interesse — eine Reduktion um zwei bis drei Größenordnungen.

Edge-Triage-Pipeline: Von rohem Sensoreingang zur Prioritätsbewertung

Die Edge-Triage-Pipeline für UAV-Videoverarbeitung verläuft durch vier Phasen:

1. Roher Sensoreingang. Videoframes vom EO- und/oder IR-Sensor werden an der Edge-Rechenhardware empfangen. Für eine Echtzeit-Verarbeitungsanforderung bei 30fps muss die Rechenleitung einen vollständigen Inferenzzyklus abschließen — Vorverarbeitung, Erkennungsmodell-Inferenz, Nachverarbeitung und Metadatengenerierung — innerhalb von 33ms.

2. Objekterkennung. Jeder Frame wird durch ein leichtgewichtiges Objekterkennungsmodell (YOLOv8-nano oder YOLOv8-small, auf INT8 quantisiert) verarbeitet, das das Vorhandensein und die Position von Objekten von Interesse identifiziert — Fahrzeuge, Personen, Strukturen oder sensorspezifische Ziele. Der Erkennungsausgang ist ein Satz von Begrenzungsrahmen mit Klassenbeschriftungen und Konfidenzwerten.

3. Klassifizierung und Kontextanreicherung. Frames mit Erkennungen über einem Konfidenzschwellenwert werden an eine sekundäre Klassifizierungsphase weitergeleitet. Diese Phase wendet rechenintensivere Analyse auf erkannte Objekte an: Fahrzeugtypklassifizierung (Rad gegen Kette, zivil gegen militärisches Profil), Aktivitätsklassifizierung (stationär, bewegt, gruppiert) und geospatiale Annotation (GPS-Koordinaten erkannter Objekte unter Verwendung von Gimbal- und Sensorgeometrie). Für Mehrfachobjekterkennungen identifiziert ein Clustering-Schritt, ob erkannte Objekte Gruppen bilden, die Konvoi-Formationen oder dispersen Patrouillenmuster entsprechen.

4. Prioritätsbewertung. Jedes annotierte Erkennungsereignis wird für operationelle Priorität bewertet. Bewertungsfaktoren umfassen: Objektklasse und -typ (ein Militärfahrzeug bewertet höher als ein Zivilfahrzeug); Konfidenzwert; Nähe zu zuvor identifizierten Standorten von Interesse; Aktivitätsindikatoren (bewegende Ziele bewerten typischerweise höher als stationäre); und zeitliche Dichte (mehrere Erkennungen desselben Objekttyps in einem 10-Minuten-Fenster erhöht die Priorität). Der Prioritätswert bestimmt, ob das Ereignis sofort übertragen, für Stapelübertragung eingereiht oder ohne Übertragung archiviert wird.

UAV-Videoverarbeitung: Echtzeit-Objekterkennung bei 30fps

Die Erzielung nachhaltiger 30fps-Objekterkennung auf eingebetteter GPU erfordert sorgfältige Pipeline-Entwicklung jenseits des einfachen Einsatzes eines schnellen Modells. Der Videoeingang muss effizient dekodiert und in den GPU-Speicher übertragen werden; für H.264/H.265-codierte Videostreams von Gimbal-Kameras ist hardwarebeschleunigte Dekodierung (Verwendung des Hardware-Videodekoders NVDEC des Jetson anstelle von Software-CPU-Dekodierung) unerlässlich, um den CPU-Budget zu schonen, der für Steuerung und Kommunikation benötigt wird.

NVIDIAs DeepStream SDK bietet ein GStreamer-basiertes Pipeline-Framework, das für Jetson optimiert ist und hardwarebeschleunigte Videodekodierung, Multi-Stream-Unterstützung und effizientes GPU-Speichermanagement für Erkennungsmodell-Inferenz handhabt. Eine DeepStream-Pipeline, die YOLOv8-small INT8 auf Jetson Orin NX ausführt, kann vier gleichzeitige 1080p-Videostreams bei 30fps innerhalb eines 15W-Leistungsbudgets verarbeiten — für Viersensor-Nutzlastkonfigurationen auf mittelgroßen UAVs.

Zeitliche Glättung ist eine kritische Zuverlässigkeitskomponente gemäß Bundeswehr-Anforderungen. Eine Einzelframe-Objekterkennungsmodell produziert Erkennungen, die flimmern können — ein Objekt in Frame 1 und 3 erkannt, aber nicht in Frame 2 aufgrund von Konfidenzschwell-Varianz. Eine Track-basierte Aggregationsschicht (mit ByteTrack oder ähnlichem) weist persistente Track-IDs über Frames hinweg zu und wendet zeitliche Filterung an: Nur Tracks, die für eine Mindestanzahl von Frames (typischerweise 3–5) bestehen und einen minimalen durchschnittlichen Konfidenzwert aufrechterhalten, werden zu Triageereignissen erhoben.

Mensch in der Schleife: KI-Eskalationsschwellen

Die KI-Triage-Pipeline ist nicht dafür ausgelegt, das Analystenurteil zu ersetzen — sie ist dafür ausgelegt, die Analytikeraufmerksamkeit zu fokussieren. Die Eskalationsarchitektur hat drei Ebenen:

Automatische Übertragung. Ereignisse mit Bewertungen über dem Hochprioritätsschwellenwert werden sofort über die verfügbare Downlink-Verbindung übertragen. Das Metadatenpaket — GPS-Koordinaten, Objektklasse, Konfidenzwert, Zeitstempel und ein repräsentatives Thumbnail — beträgt etwa 50 KB pro Ereignis. Ein System, das 200 Hochprioritätsereignisse pro Flugtag generiert, benötigt etwa 10 MB Übertragungsbandbreite für Metadaten allein — gut im Bereich typischer Satellitenbandbreite.

Analysten-Überprüfungswarteschlange. Ereignisse in der mittleren Prioritätsstufe werden an Bord gepuffert und im nächsten verfügbaren Hochbandbreiten-Übertragungsfenster (Satellitenkontakt, Rückkehr zur Basis) übertragen. Die Analysten-Überprüfungswarteschlange enthält sowohl die Metadaten als auch einen Videoclip (typischerweise 10–30 Sekunden um das Erkennungsereignis bei reduzierter Auflösung) zur Kontextüberprüfung.

Nur-Archiv. Ereignisse mit niedrigem Konfidenz und niedrigem Prioritätswert werden auf dem lokalen Speicher des UAV archiviert. Wenn ein nachfolgendes Hochprioritätsereignis in demselben Gebiet eine retrospektive Analyse auslöst, kann archiviertes Filmmaterial aus dem Zeitraum vor dem Hochprioritätsereignis auf vorausgehende Aktivitätsmuster überprüft werden.

Wichtige Erkenntnis: Die Bandbreiteneinsparungen durch Edge-KI-Triage sind nicht nur logistisch — sie sind operationell ermöglichend. Ein UAV, das zuvor eine Hochbandbreiten-Satellitenverbindung benötigte, um kontinuierliche Aufklärungsleistung aufrechtzuerhalten, kann nun effektiv auf einer viel schmaleren Verbindung operieren, was die Anzahl der Plattformen, die innerhalb einer gegebenen Kommunikationsarchitektur betrieben werden können, um eine Größenordnung ausweitet — ein zentraler Faktor in der Bundeswehr-UAV-Flottenstrategie.

Bandbreiteneinsparungen: Clips vs. vollständige Videostreams übertragen

Die quantifizierte Bandbreitenreduzierung durch Edge-Triage hängt von der Zieldichte im Einsatzgebiet und den Empfindlichkeitseinstellungen des Erkennungsmodells ab. In gering aktivem Gelände (offene Wüste, Wald, Ozean), wo Ziele von Interesse in weniger als 1% der Frames erscheinen, kann Edge-Triage eine 100:1-Reduzierung übertragener Daten erzielen. In hochaktiven städtischen oder umstrittenen Gebieten, wo Fahrzeugbewegung kontinuierlich ist, ist die Reduzierung kleiner — vielleicht 10:1 — aber für das Verbindungsbudgetmanagement gemäß BMVg-Anforderungen immer noch bedeutend.

Eine Thumbnail-plus-Metadaten-Übertragung für ein erkanntes Ereignis beträgt durchschnittlich etwa 50–100 KB. Ein 30-Sekunden-Videoclip bei reduzierter Auflösung (480p, H.265) beträgt durchschnittlich etwa 5–10 MB. Im Vergleich zur Übertragung von hochauflösendem Full-Motion-Video bei etwa 2 Mbps (etwa 900 MB pro Stunde) sind die Bandbreiteneinsparungen für einen Flugtag mit 200 Triageereignissen: 200 Metadatenpakete (20 MB) plus 50 mittlere Prioritätsclips (500 MB) gegenüber 14,4 GB Vollvideo — eine 20:1-Reduzierung für dieses Szenario, was die erforderliche Satellitenbandbreite von etwa 2 Mbps kontinuierlich auf etwa 200 kbps durchschnittlich reduziert.