Tout quartier général tactique fonctionne sur la base de SITREP — des rapports de situation qui agrègent les observations depuis le niveau peloton vers le haut pour former une image cohérente de ce qui se passe sur le champ de bataille. Le problème est qu'une grande partie de ces SITREP arrivent encore sous forme de croquis manuscrits sur papier, de cartes photographiées, d'impressions satellite annotées ou de formulaires scannés. Avant que ces informations atteignent l'image opérationnelle commune numérique (COP), elles passent par un opérateur humain qui lit le document, identifie chaque entité tactique, transcrit les références de grille et trace manuellement l'unité ou la menace sur un écran. Cette étape de ressaisie manuelle constitue le goulot d'étranglement — et l'une des cibles les plus rentables pour la vision IA dans les opérations militaires aujourd'hui.

Cet article décrit le pipeline technique complet d'automatisation du traitement des SITREP avec la vision IA : de l'ingestion d'images et du prétraitement à l'extraction d'entités, l'analyse de coordonnées, l'inférence de symboles NATO et la génération de messages CoT pour le placement TAK. Il couvre les domaines où le pipeline peut fonctionner de manière autonome, ceux où la confirmation humaine est requise, la façon dont il s'intègre à CloudTAK via TAKpilot et ce qu'il faut pour le faire fonctionner sur du matériel edge dans des environnements déconnectés.

Le goulot d'étranglement du traitement des SITREP

Un SITREP de terrain arrivant au centre des opérations d'un bataillon prend généralement l'une des formes physiques suivantes : un croquis manuscrit sur une feuille de superposition de grille, une photographie d'une carte avec des annotations écrites au crayon gras ou au marqueur, un formulaire préimprimé scanné ou photographié avec des champs remplis à la main, ou — de plus en plus — une photo prise par un soldat sur un smartphone et transmise via une application de messagerie. Dans chacun de ces cas, l'opérateur récepteur doit faire les mêmes choses : identifier l'indicatif de l'unité qui fait rapport, trouver les références de grille pour chaque entité observée, déterminer son type (ami, ennemi, inconnu ; type de véhicule, concentration de troupes, obstacle, position de tir) et tout saisir dans le COP numérique.

Dans des conditions calmes, ce processus prend 3 à 8 minutes par SITREP. Sous pression, de nuit ou lors d'opérations à rythme soutenu où des dizaines de SITREP peuvent arriver par heure, cela devient un goulot d'étranglement qui introduit une dangereuse obsolescence dans le tableau tactique. Les modèles de vision IA éliminent ce goulot d'étranglement en automatisant l'étape de transcription — transformant le rôle de l'opérateur de transcripteur en relecteur.

Pipeline du modèle de vision : de l'ingestion à l'extraction structurée

Le pipeline commence par l'ingestion d'images (JPEG, PNG, PDF). Le prétraitement applique : la correction de biais (détection de lignes de Hough, ±15°) ; la binarisation adaptative (Sauvola) pour l'éclairage inégal ; CLAHE pour récupérer les traces de crayon ; la suppression du bruit morphologique ; et l'analyse de mise en page pour segmenter les régions de texte, de symboles et de grille avant de router chacune vers le modèle approprié.

Insight clé : L'analyse de mise en page est l'étape de prétraitement la plus impactante — router les régions texte vs. symbole vers des modèles séparés élimine une classe d'erreurs qui ne peuvent pas être corrigées en aval.

Extraction de coordonnées : MGRS, UTM et positions relatives

Les tokens OCR sont validés contre les modèles de format MGRS (GZD + carré de 100 km + paire est/nord à chiffres égaux). Les correspondances partielles vont à un module de correction floue (distance de Levenshtein contre une table de correspondance spécifique au théâtre). Les références UTM sont gérées par un chemin parallèle. Les références relatives (« 400 m NE du point de contrôle BRAVO ») utilisent une invite VLM chain-of-thought ou un analyseur syntaxique basé sur des règles pour dériver des coordonnées WGS-84 avec CE gonflée (100–500 m), rendues sous forme d'anneau d'incertitude dans TAK.

Inférence de symbologie NATO : correspondance des symboles manuscrits avec MIL-STD-2525C

Un classificateur CNN hiérarchique entraîné sur des rendus synthétiques dégradés APP-6/MIL-STD-2525C produit des candidats SIDC classés. Les candidats au-dessus de 0,80 de confiance sont automatiquement acceptés ; en dessous du seuil, l'opérateur sélectionne parmi les 3 premiers via une interface à un seul tapotement. Les symboles ambigus (dispersion softmax top-3 inférieure à 0,15) nécessitent toujours une confirmation.

Génération de messages CoT : des entités au placement TAK

Les entités extraites sont encapsulées dans des événements XML Cursor-on-Target (uid, type CoT issu du SIDC, horodatages, point WGS-84 avec CE/LE) et transmises au serveur TAK via TCP ou multicast UDP. Les clients ATAK, WinTAK, iTAK et CloudTAK rendent les entités sur la carte immédiatement à la réception.

Implémentation TAKpilot : pipeline de vision intégré à CloudTAK

TAKpilot exécute le pipeline de vision complet (8–20 s par document) et présente les résultats sous forme d'une carte de confirmation avec édition en ligne. L'opérateur approuve et TAKpilot pousse le bundle CoT vers CloudTAK. L'interface est optimisée pour l'utilisation sur tablette dans les conditions de terrain.

Précision et scoring de confiance

La confiance des références de grille combine les scores de caractères OCR, la distance d'édition par rapport au MGRS valide et la plausibilité spatiale. Au-dessus de 0,92 : placement automatique. En dessous de 0,85 (symbole) ou hors théâtre : confirmation requise. Le classificateur de symboles atteint 87 % de précision top-1 au-dessus du seuil de 0,80.

Note opérationnelle : TAKpilot expose les seuils de placement automatique en tant que paramètre par session — plus bas pour les phases à rythme soutenu, plus élevé quand la précision du COP est primordiale.

Déploiement edge : Jetson, nœuds CPU uniquement et opération déconnectée

Jetson AGX Orin exécute LLaVA-1.6 INT4 + classificateur de symboles TensorRT à 8–15 s par SITREP en mode totalement isolé, co-localisé avec CloudTAK. Les nœuds CPU uniquement utilisent PaddleOCR + MobileNetV3 INT8 à 3–6 s sur un ordinateur portable. Les mises à jour de modèles signées avec rollback sont livrées via le canal de gestion TAKpilot. Le pipeline bascule de manière transparente entre les modes cloud et edge.