Jedes taktische Hauptquartier arbeitet auf Basis von SITREPs — Lageberichten, die Beobachtungen von der Zugebene aufwärts zu einem kohärenten Bild der Gefechtslage zusammenfassen. Das Problem: Ein großer Teil dieser SITREPs trifft noch immer als handgezeichnete Skizzen auf Papier, fotografierte Karten, beschriftete Satellitenausdrucke oder gescannte Formulare ein. Bevor diese Informationen das digitale gemeinsame Lagebild (COP) erreichen, passiert sie einen menschlichen Operator, der das Dokument liest, jede taktische Entität identifiziert, Gitternetzreferenzen überträgt und die Einheit oder Bedrohung manuell auf einem Bildschirm einträgt. Dieser manuelle Wiedereingabeschritt ist der Engpass — und eines der wirkungsvollsten Einsatzfelder für KI-Vision in militärischen Operationen heute.
Dieser Artikel beschreibt die vollständige technische Pipeline zur Automatisierung der SITREP-Verarbeitung mit KI-Vision: von der Bildaufnahme und Vorverarbeitung über Entitätsextraktion, Koordinatenanalyse, NATO-Symbolinferenz bis zur CoT-Nachrichtengenerierung für die TAK-Platzierung. Er zeigt, wo die Pipeline autonom arbeiten kann, wo menschliche Bestätigung erforderlich ist, wie sie über TAKpilot mit CloudTAK integriert wird und was es braucht, um sie auf Edge-Hardware in getrennten Umgebungen zu betreiben.
Der SITREP-Verarbeitungsengpass
Ein Feld-SITREP, der im Bataillons-Gefechtsstand eingeht, hat typischerweise eine von mehreren physischen Formen: eine handgezeichnete Skizze auf einem Gitterüberlagerungsblatt, eine Fotografie einer Karte mit Anmerkungen in Fettstift oder Marker, ein gescanntes oder fotografiertes vorgedrucktes Formular mit handschriftlich ausgefüllten Feldern oder — zunehmend — ein Foto, das ein Soldat mit einem Smartphone gemacht und über eine Messaging-App übermittelt hat. In jedem Fall muss der empfangende Operator dieselben Schritte durchführen: das Rufzeichen der meldenden Einheit identifizieren, die Gitternetzreferenzen für jede beobachtete Entität finden, bestimmen, um welchen Typ es sich handelt (freundlich, feindlich, unbekannt; Fahrzeugtyp, Truppenzusammenballung, Hindernis, Feuerstellung) und alles in das digitale COP eingeben.
Unter ruhigen Bedingungen dauert dieser Vorgang 3–8 Minuten pro SITREP. Unter Stress, nachts oder bei Operationen mit hohem Tempo, wenn Dutzende von SITREPs pro Stunde eingehen können, wird er zum Engpass, der gefährliche Veralterung in das taktische Lagebild einführt. Die kognitive Aufmerksamkeit des Operators — die auf Interpretation und Entscheidungsunterstützung gerichtet sein sollte — wird durch Transkription verbraucht. Fehler bei der Transkription sind häufig: vertauschte Gitterziffern, falsch gelesene Rufzeichen, mehrdeutige Symbolidentifikation. Das digitale COP hinkt der tatsächlichen Situation um die Zeit nach, die zur Verarbeitung des Rückstands benötigt wird.
KI-Visionsmodelle beseitigen diesen Engpass, indem sie den Transkriptionsschritt automatisieren. Der Operator lädt das Dokument hoch oder leitet es weiter; das Modell extrahiert Entitäten, löst Koordinaten auf, identifiziert Symbole und generiert eine strukturierte Ausgabe, die zur Kartenplatzierung bereit ist. Die Rolle des Operators wandelt sich vom Transkribenten zum Prüfer — er bestätigt oder korrigiert die Ausgabe des Modells, bevor er sie in das COP übergibt, was Sekunden statt Minuten dauert.
Visionsmodell-Pipeline: von der Aufnahme zur strukturierten Extraktion
Die Pipeline beginnt mit der Bildaufnahme. Eingabeformate umfassen JPEG- und PNG-Fotos, PDF-Scans und gelegentlich Videoframes vom Gerät eines Soldaten. Bei mehrseitigen PDFs wird jede Seite in ein hochauflösendes Bild gerastert (mindestens 300 DPI für Formularscans; 150 DPI akzeptabel für großformatige Kartenfotografien, bei denen die relevanten Anmerkungen groß sind). Ein Metadatenextraktionsschritt erfasst alle EXIF-Daten — insbesondere Zeitstempel und GPS-Koordinaten, wenn das Bild mit einem Smartphone aufgenommen wurde — die als Vorwissen für das erwartete Operationsgebiet dienen können.
Die Vorverarbeitung ist die wirkungsvollste Phase für die Extraktionsgenauigkeit bei degradierten Felddokumenten. Die Pipeline wendet an: Entzerrung mittels Projektionsprofilanalyse oder Hough-Linienerkennung, wodurch Dokumentrotationen von bis zu ±15°, die bei Handaufnahmen häufig sind, korrigiert werden; adaptive Binarisierung (Sauvola-Algorithmus) statt globaler Schwellenwertbildung, die die ungleichmäßige Beleuchtung bei unter Feldbedingungen fotografierten Dokumenten bewältigt; CLAHE zur Wiederherstellung kontrastarmer Bleistiftspuren, die eine globale Kontrastverstärkung auswaschen würde; morphologische Rauschentfernung mit einem auf die erwartete minimale Strichbreite abgestimmten Öffnen/Schließen-Durchlauf; und Layoutanalyse zur Segmentierung des Dokuments in Textbereiche, Symbolbereiche und Gitternetzüberlagerungsbereiche, bevor jeder zum entsprechenden Verarbeitungsmodul geleitet wird.
Kernerkennntnis: Die Layoutanalyse — Trennung von Text-, Symbol- und Kartengitterbereichen vor der Modellinferenz — ist die wirkungsvollste Vorverarbeitungsinvestition für SITREP-Vision-Pipelines. Die Weiterleitung jedes Bereichstyps an das richtige Modell eliminiert eine Klasse von Fehlern, die im weiteren Verlauf nicht mehr korrigiert werden können.
Koordinatenextraktion: MGRS, UTM und relative Positionen
Die Gitternetzreferenzextraktion ist der technisch anspruchsvollste Teil der SITREP-Verarbeitung, da handgeschriebene MGRS-Zeichenketten gleichzeitig auf mehrere Arten mehrdeutig sind. Das Format ist: ein Gitterzonenbezeichner (eine Zahl 1–60, gefolgt von einem Buchstaben C–X), ein zweistelliger 100-km-Quadrat-Bezeichner und ein nummerisches Ost-/Nordwert-Paar gleicher Länge (2, 4, 6, 8 oder 10 Ziffern). Eine 10-stellige MGRS-Zeichenkette, die eine Position mit 1-m-Genauigkeit angibt, hat 15 Zeichen variablen Formats, handgeschrieben von jemandem unter Stress, in einem fahrenden Fahrzeug, möglicherweise bei schlechtem Licht.
Der Extraktionsansatz kombiniert OCR-Ausgaben mit einem strukturierten Validator. Nachdem die Textextraktionsstufe rohe Token-Sequenzen aus den Textbereichen des Dokuments erzeugt, wird jedes Token gegen ein reguläres Ausdrucksmuster für gültiges MGRS-Format getestet. Übereinstimmende Token werden als hochkonfidente Gitternetzreferenzen aufgezeichnet. Teilweise übereinstimmende, aber die Validierung nicht bestehende Token werden an ein Fuzzy-Korrekturmodul weitergeleitet: Bearbeitungsabstandsabgleich gegen eine vorberechnete Nachschlagetabelle gültiger Gitterzonenbezeichner- und 100-km-Quadrat-Kombinationen für das Operationstheater.
Relative Positionsreferenzen — in handgezeichneten Skizzen äußerst verbreitet, wo eine Entität als „400 m NO von Kontrollpunkt BRAVO" statt mit expliziten Koordinaten angegeben wird — erfordern räumliches Denken über den regulären Ausdrucksabgleich hinaus. Die Pipeline verwendet einen Chain-of-Thought-Prompt auf einem VLM (oder einen regelbasierten Parser für getrennte Edge-Bereitstellung), um den Ankerreferenzpunkt, den Kurs (interpretiert aus Kompassnotation, Kardinal- oder Interkardinaltext) und die Entfernung mit Einheit zu extrahieren. Die aufgelöste WGS-84-Koordinate des Ankers wird dann um Kurs und Entfernung versetzt, um eine abgeleitete Position zu berechnen. Abgeleitete Koordinaten tragen einen erhöhten kreisförmigen Fehlerwert (CE) — typischerweise 100–500 m je nach Präzision der Versatzangabe — der in die CoT-Nachricht weitergegeben wird, damit TAK-Clients einen entsprechenden Unsicherheitsring auf der Karte rendern.
NATO-Symbolikinferenz: Abgleich handgezeichneter Symbole mit MIL-STD-2525C
Die Symbolklassifikation verwendet einen CNN-Klassifikator, der auf einem synthetischen Datensatz von APP-6/MIL-STD-2525C-Symbolen trainiert wurde, die unter verschiedenen Degradationsbedingungen gerendert wurden: variierende Strichbreiten, Rotation bis ±30°, unvollständiges Rendering und Hintergrundrauschen, das für Papier-auf-Karte-Fotografie typisch ist. Der Klassifikator wird als hierarchisches Problem trainiert: zuerst wird Zugehörigkeit und Kampfdimension vorhergesagt, dann wird innerhalb jedes Astes der Funktionscode vorhergesagt.
Der Klassifikator gibt eine gerankte Liste von SIDC-Kandidaten mit Softmax-Wahrscheinlichkeiten aus. Der beste Kandidat über einem konfigurierbaren Konfidenzschwellenwert (Standard 0,80) wird für die automatische Verarbeitung akzeptiert. Unterhalb des Schwellenwerts wird die Entität zur Bestätigung durch den Operator in die Warteschlange gestellt — die Benutzeroberfläche präsentiert das ausgeschnittene Symbolbild neben den Top-3-Kandidaten, damit der Operator den richtigen mit einem einzigen Tipp auswählen kann.
CoT-Nachrichtengenerierung: von Entitäten zur TAK-Platzierung
Sobald Entitäten extrahierte Koordinaten und zugewiesene SIDC-Codes haben, werden sie als Cursor-on-Target (CoT) XML-Ereignisse verpackt. Jedes Ereignis trägt eine uid, einen Typ (CoT-Typ-Zeichenkette aus SIDC), ein Zeitstempel-Triplett und ein point-Element mit WGS-84-Lat/Lon/CE/LE. Zusätzliche Details — Rufzeichen, Einheitenbezeichnung, Beobachtungszeit, Anmerkungen — werden im CoT-detail-Element übertragen. Das fertige Bündel wird über TCP oder UDP-Multicast an den TAK-Server geliefert und rendert alle Entitäten auf ATAK-, WinTAK-, iTAK- und CloudTAK-Clients sofort.
TAKpilot-Implementierung: Vision-Pipeline integriert mit CloudTAK
TAKpilot (corvusintell.com/takpilot) enthält eine integrierte SITREP-Vision-Verarbeitungs-Pipeline, die mit CloudTAK verbunden ist. Ein Operator lädt ein SITREP-Bild hoch; das Backend führt die vollständige Vision-Pipeline in 8–20 Sekunden aus und gibt eine Bestätigungskarte zurück, die jede erkannte Entität mit extrahierter Gitternetzreferenz, Symbolsymbol, Rufzeichen, Beobachtungszeit und Konfidenzindikatoren auflistet. Der Operator überprüft, korrigiert bei Bedarf und genehmigt — TAKpilot überträgt das CoT-Bündel an CloudTAK und alle Entitäten erscheinen gleichzeitig auf der gemeinsamen Karte.
Genauigkeit und Konfidenzbewertung
Die Gitternetzreferenz-Konfidenz wird aus OCR-Zeichenebenen-Scores, dem Bearbeitungsabstand von der nächsten gültigen MGRS-Zeichenkette und einer räumlichen Plausibilitätsprüfung gegen den Theaterrahmen berechnet. Eine sauber parsende, theaterinterne Referenz erzielt über 0,92 und qualifiziert sich für die automatische Platzierung; Fuzzy-korrigierte Referenzen erzielen 0,65–0,85 und erfordern Bestätigung. Die Symbolklassifikations-Konfidenz ist die Softmax-Wahrscheinlichkeit des besten SIDC-Kandidaten; der Klassifikator erreicht 87% Top-1-Genauigkeit über dem 0,80-Schwellenwert. Mehrdeutige Symbole — eng geclusterte Top-3-Kandidaten (Softmax-Streuung unter 0,15) — erfordern immer menschliche Bestätigung.
Operativer Hinweis: Schwellenwerte für die automatische Platzierung sollten missionskonfiguriert sein. TAKpilot stellt den Schwellenwert als operatorseitige Einstellung pro Sitzung bereit, um Geschwindigkeit und Genauigkeit für die aktuelle Operationsphase abzuwägen.
Edge-Deployment: Jetson, CPU-only-Knoten und Betrieb ohne Verbindung
NVIDIA Jetson AGX Orin unterstützt ein quantisiertes 7B-Parameter-VLM (LLaVA-1.6 INT4 via llama.cpp) plus einen TensorRT-Symbolklassifikator und verarbeitet einen SITREP in 8–15 Sekunden vollständig luftgespalt. TAKpilot und CloudTAK laufen ko-lokalisiert auf demselben Knoten. CPU-only-Knoten verwenden PaddleOCR plus einen MobileNetV3 INT8-Symbolklassifikator — 3–6 Sekunden auf einer Laptop-CPU. Modellaktualisierungen werden kryptographisch signiert und über den TAKpilot-Verwaltungskanal mit automatischem Rollback geliefert. Die Pipeline wechselt transparent zwischen Cloud- und Edge-Modus basierend auf der Konnektivität, mit identischer Benutzeroberfläche in beiden Modi.