Les interfaces de commandement et de contrôle traditionnelles ont été conçues pour une ère d'opérations délibérées et planifiées : un officier d'état-major à un terminal fixe, connecté à un réseau fiable, naviguant dans des menus imbriqués pour émettre un ordre de mouvement ou mettre à jour une piste. Ce modèle d'interaction s'effondre dans les conditions qui définissent les opérations tactiques modernes — pression temporelle, connectivité dégradée, surcharge cognitive et nécessité d'agir sur la base d'une image en évolution rapide tout en gérant plusieurs tâches simultanées.

L'interface C2 en langage naturel est une approche fondamentalement différente. Au lieu de naviguer dans une hiérarchie de menus et de formulaires, l'opérateur tape ou énonce une commande en langage ordinaire — « déplacer ALPHA-3 en grille 441 528 avant 14h30 » ou « afficher toutes les pistes de véhicules confirmées dans un rayon de 5 km du pont » — et le système analyse l'intention, résout les entités par rapport à l'image opérationnelle en direct, demande une confirmation si nécessaire, et exécute. L'interface devient conversationnelle : un canal bidirectionnel plutôt qu'un exercice de remplissage de formulaires.

Cet article examine comment ce pipeline fonctionne en pratique, où se situent les difficultés d'ingénierie, et comment des systèmes réels comme TAKpilot l'ont implémenté sur des piles C2 de production.

Pourquoi l'UX C2 traditionnelle basée sur les menus échoue sous pression temporelle

Les interfaces C2 basées sur les menus imposent une grammaire d'interaction fixe. Pour émettre un ordre de mouvement dans un système hérité typique, un opérateur navigue jusqu'à l'unité correcte dans le panneau d'ordre de bataille, fait un clic droit pour ouvrir un menu contextuel, sélectionne « Attribuer une tâche », choisit le type de tâche dans une liste déroulante, saisit les coordonnées de destination dans un format spécifique, définit les paramètres de timing dans des champs séparés et clique sur Envoyer. Chaque étape est un événement UI discret, et l'interface ne prévoit aucune récupération d'erreur si l'opérateur a cliqué sur la mauvaise unité ou saisi des coordonnées dans le mauvais datum.

Dans les conditions opérationnelles, ce schéma d'interaction crée plusieurs problèmes qui se cumulent. Le coût attentionnel est élevé : l'opérateur doit constamment basculer entre la carte, le formulaire et son canal de communication radio ou verbal. Le taux d'erreurs augmente de façon non linéaire avec la pression temporelle — le même opérateur qui remplit correctement un formulaire de mouvement lors d'une session de planification commettra des erreurs systématiques au contact. Et l'interface ne fournit aucun contexte situationnel lors de la saisie des données : aucune indication que la coordonnée de destination tombe dans une zone d'interdiction de feu, que l'unité à qui l'on assigne une tâche est actuellement engagée, ou qu'une tâche de priorité supérieure vient d'être assignée par un échelon supérieur.

Une interface en langage naturel compresse ces étapes. L'opérateur exprime son intention une seule fois, de la manière dont il la communiquerait verbalement. Le système gère la traduction en données structurées, effectue une validation par rapport à l'image opérationnelle et fait remonter les conflits ou ambiguïtés avant l'exécution plutôt qu'après.

Le pipeline de commandes NL : six étapes

Un pipeline C2 en langage naturel de production comporte six étapes discrètes, chacune avec ses propres modes de défaillance et contraintes d'ingénierie.

1. Normalisation de l'entrée. Le texte brut ou l'entrée vocale transcrite par ASR est normalisé : les mots de remplissage sont supprimés, les abréviations militaires sont standardisées et le texte est tokenisé. Cette étape gère également les schémas d'entrée influencés par la radio que les pipelines NLP généraux ne sont pas entraînés à traiter.

2. Classification des intentions. L'entrée normalisée est classifiée dans l'une des catégories d'actions finies : déplacer, engager, rendre compte, assigner, interroger, confirmer et annuler. Un classificateur ajusté attribue des scores de confiance ; en dessous du seuil, le système demande une clarification.

3. Extraction d'entités. La reconnaissance d'entités nommées extrait les désignateurs d'unités, les références de localisation, les expressions temporelles et les clauses de contrainte. Chaque entité extraite est typée et transmise à l'étape de résolution.

4. Résolution des entités. Les entités brutes extraites sont associées à l'image opérationnelle en direct. C'est à cette étape que se produisent la plupart des défaillances de production : données COP incomplètes, pistes obsolètes et conventions de nommage ambiguës apparaissent ici.

5. Confirmation et verrou d'approbation. L'action résolue est présentée à l'opérateur pour confirmation avant exécution, avec les avertissements générés lors de la résolution. Les actions non destructives nécessitent une simple pression de touche ; les actions potentiellement destructives requièrent une séquence de confirmation plus délibérée.

6. Exécution. Après confirmation, le pipeline traduit l'action résolue en appels API ou formats de messages requis par la pile C2 en aval. L'étape d'exécution génère l'entrée du journal d'audit pour chaque transaction.

Gestion des ambiguïtés : la partie la plus difficile du NLP tactique

L'ambiguïté des entités est le mode de défaillance le plus lourd de conséquences opérationnelles dans une interface C2 en langage naturel. « Déplacer ALPHA-3 vers le pont » est une commande tactique légitime qui contient deux ambiguïtés potentielles : plusieurs unités désignées ALPHA-3 dans l'ordre de bataille actuel, et plusieurs ouvrages routiers dans la zone d'opérations.

Ambiguïté détectée — ALPHA-3 :
1. ALPHA-3 / 2 Plt Cie A — Grille 438 521 (en mouvement NW, vieux de 8 min)
2. ALPHA-3 / Peloton Reco — Grille 447 503 (stationnaire, vieux de 3 min)

Destination — pont :
1. Pont réf 441528 — pont routier, praticable pour véhicules à roues (objet cartographique)
2. Pont réf 438517 — passerelle piétonne, à pied uniquement (objet cartographique)

Réponse : [1-2] / [1-2] ou saisissez le désignateur complet.

L'opérateur répond avec deux frappes de touche (« 1 2 ») et la commande s'exécute. Le temps d'interaction total — de la saisie initiale à l'exécution confirmée — est inférieur à 10 secondes pour un opérateur expérimenté, même avec désambiguïsation, contre 45 à 90 secondes pour le flux de travail équivalent basé sur les menus.

Verrous d'approbation : modèles de conception pour le C2

Le verrou d'approbation est le mécanisme de sécurité critique qui empêche une interface en langage naturel de devenir une surface d'exécution accidentelle. Un schéma pratique à trois niveaux : les requêtes de Niveau 1 en lecture seule s'exécutent immédiatement ; les écritures non destructives de Niveau 2 nécessitent une confirmation unique ; les opérations potentiellement destructives de Niveau 3 requièrent une confirmation en deux étapes avec une fenêtre d'examen obligatoire. La classification par niveau est déterminée par une matrice de phases de mission configurable, et non par une liste codée en dur.

Intégration avec les piles C2 existantes

Une interface en langage naturel ne remplace pas les formats de données C2 sous-jacents — elle les génère. L'étape d'exécution doit émettre des messages correctement formés en : Cursor-on-Target (CoT) pour les rapports de position et d'événements, messages de la série J Link 16 pour l'appui-feu interarmes et la déconfliction aérienne, STANAG 4559 pour la programmation de l'imagerie et des capteurs, et la TAK REST API pour les réseaux connectés à CloudTAK et ATAK.

TAKpilot : le C2 en langage naturel en production

TAKpilot est l'implémentation par Corvus Intelligence d'une interface C2 en langage naturel pour les réseaux tactiques connectés à TAK. Il accepte les commandes des opérateurs en texte libre, les résout par rapport à l'image opérationnelle CloudTAK en direct et traduit les intentions confirmées en appels CloudTAK API. La symbologie MIL-STD-2525 est rendue à l'étape de confirmation afin que les opérateurs voient exactement quelle unité ou quel marqueur sera affecté avant que l'action ne soit validée.

Confiance et responsabilité : pistes d'audit et considérations relatives au DIHC

Un enregistrement d'audit complet pour une seule transaction NL C2 comprend : la chaîne d'entrée brute, la forme normalisée, l'intention classifiée avec les scores de confiance, les entités extraites, les entités résolues avec leur état COP au moment de la résolution, les avertissements éventuels générés, l'état de confirmation, l'horodatage en UTC et l'appel API final ou la charge utile du message envoyé. Ce journal doit être conservé sous forme immuable en mode ajout seul et archivé conformément aux exigences applicables en matière de gestion des documents.

Orientations futures : voix, multimodalité et NL C2 fédéré

L'extension la plus immédiate est la saisie vocale via un ASR adapté au domaine et ajusté sur le vocabulaire militaire. Une variante plus avancée combine la voix avec des gestes cartographiques, réduisant les invites de désambiguïsation de 60 à 70 %. La vision à long terme est une couche de langage naturel fédérée opérant sur les nœuds C2 de coalition, avec des formats tactiques standard (CoT, Link 16, MIP) rendant les différences de couche NL transparentes pour le réseau sous-jacent.