ISR assisté par IA : automatisation du triage des données de renseignement en périphérie

Les systèmes ISR (renseignement, surveillance, reconnaissance) modernes génèrent des volumes de données qui dépassent fondamentalement la capacité de traitement humaine. Un seul drone de moyenne altitude opérant une charge utile vidéo plein mouvement génère environ 2 à 4 To de vidéo brute par jour à résolution standard, plus les journaux de capteurs et métadonnées associés. Un système de collecte SIGINT déployé peut produire des téraoctets de données IQ par jour dans son spectre surveillé. Le goulot d'étranglement dans l'ISR moderne n'est pas la collecte — c'est le traitement et l'analyse.

La réponse traditionnelle à ce goulot d'étranglement est la bande passante : transmettre les données brutes à une station au sol et y appliquer le travail des analystes. Cette approche se heurte à trois contraintes structurelles dans les environnements opérationnels modernes. Premièrement, le budget de liaison — les liaisons satellitaires et radio tactiques ne peuvent simplement pas transporter en continu des vidéos haute résolution d'une grande flotte de drones. Deuxièmement, la pénurie d'analystes — il n'y a pas assez d'analystes d'images qualifiés pour examiner toutes les séquences collectées image par image. Troisièmement, la valeur temporelle du renseignement — au moment où la vidéo brute atteint une station au sol, est mise en file d'attente et reçoit l'attention d'un analyste, la fenêtre d'action pour les cibles sensibles au facteur temps peut être déjà fermée.

Le triage IA en périphérie résout ces trois contraintes simultanément. Le pipeline IA fonctionne sur la plateforme de collecte — le drone lui-même ou le nœud capteur — et filtre automatiquement le flux de données, conservant et transmettant uniquement les parties contenant des objets d'intérêt, tout en rejetant ou en compressant fortement l'arrière-plan de terrain vide, de ciel et d'eau qui constitue la majorité de la collecte ISR brute.

Le problème de surcharge des données ISR

L'échelle du problème de surcharge de données nécessite un cadrage précis. Considérons un drone de reconnaissance de l'armée française opérant une charge utile à double capteur EO/IR à résolution 1080p, 30 fps, pendant 16 heures par jour, conformément aux exigences DGA. Avec la compression H.264 standard, cela génère environ 50 Go de vidéo par vol. Si seulement 3% des séquences collectées contiennent des objets d'intérêt (une estimation généreuse pour les missions de couverture à large zone), alors 97% du budget de bande passante et de stockage est consommé par des données qui ne seront jamais exploitables. Le triage IA en périphérie change fondamentalement le ratio : en détectant et en marquant uniquement les images contenant des détections, l'exigence de bande passante de transmission tombe de 50 Go à environ 1,5 Go par jour de vol — dans la portée d'une liaison satellite opérant à des débits modestes.

La collecte SIGINT fait face à un problème analogue. Un système de collecte SDR haut débit surveillant une tranche de spectre de 200 MHz génère plusieurs centaines de gigaoctets de données IQ par heure. Seule une petite fraction du spectre surveillé est active à tout moment, et seule une fraction des signaux actifs présente un intérêt analytique. La numérisation automatisée du spectre et la classification des signaux en périphérie réduit la charge de traitement en aval de la bande passante totale collectée à seulement les signaux d'intérêt classifiés — une réduction de deux à trois ordres de grandeur.

Pipeline de triage en périphérie : de l'entrée brute du capteur à la notation de priorité

Le pipeline de triage en périphérie pour le traitement vidéo de drone progresse à travers quatre étapes :

1. Entrée brute du capteur. Les images vidéo du capteur EO et/ou IR sont reçues par le matériel informatique périphérique. Pour une exigence de traitement en temps réel à 30 fps, le pipeline de calcul doit compléter un cycle complet d'inférence — prétraitement, inférence du modèle de détection, post-traitement et génération de métadonnées — en 33 ms.

2. Détection d'objets. Chaque image est traitée par un modèle de détection d'objets léger (YOLOv8-nano ou YOLOv8-small, quantifié à INT8) qui identifie la présence et la localisation des objets d'intérêt — véhicules, personnes, structures ou cibles spécifiques aux capteurs. La sortie de détection est un ensemble de boîtes de délimitation avec des étiquettes de classe et des scores de confiance.

3. Classification et enrichissement du contexte. Les images contenant des détections au-dessus d'un seuil de confiance sont transmises à une étape de classification secondaire. Cette étape applique une analyse plus gourmande en ressources aux objets détectés : classification du type de véhicule (roues contre chenilles, profil civil contre militaire), classification d'activité (stationnaire, en mouvement, regroupé) et annotation géospatiale (coordonnées GPS des objets détectés utilisant la géométrie du cardan et du capteur). Pour les détections multi-objets, une étape de regroupement identifie si les objets détectés forment des groupes cohérents avec des formations de convois ou des patrouilles dispersées.

4. Notation de priorité. Chaque événement de détection annoté est noté pour la priorité opérationnelle conformément aux exigences EMA. Les facteurs de notation incluent : classe et type d'objet (un véhicule militaire note plus haut qu'un véhicule civil) ; score de confiance ; proximité aux emplacements d'intérêt précédemment identifiés ; indicateurs d'activité (les cibles en mouvement notent typiquement plus haut que les stationnaires) ; et densité temporelle (plusieurs détections du même type d'objet dans une fenêtre de 10 minutes augmente la priorité). Le score de priorité détermine si l'événement est transmis immédiatement, mis en file d'attente pour une transmission par lots, ou archivé sans transmission.

Traitement vidéo drone : détection d'objets en temps réel à 30 fps

Atteindre une détection d'objets soutenue à 30 fps sur un GPU embarqué nécessite une ingénierie de pipeline soigneuse au-delà du simple déploiement d'un modèle rapide. L'entrée vidéo doit être efficacement décodée et transférée dans la mémoire GPU ; pour les flux vidéo encodés H.264/H.265 des caméras à cardan, le décodage accéléré par matériel (utilisation du décodeur vidéo matériel NVDEC du Jetson plutôt que le décodage logiciel par CPU) est essentiel pour éviter de consommer le budget CPU nécessaire au contrôle et aux communications.

Le DeepStream SDK de NVIDIA fournit un cadre de pipeline basé sur GStreamer optimisé pour Jetson qui gère le décodage vidéo accéléré par matériel, la prise en charge multi-flux et la gestion efficace de la mémoire GPU pour l'inférence du modèle de détection. Un pipeline DeepStream exécutant YOLOv8-small INT8 sur Jetson Orin NX peut traiter quatre flux vidéo 1080p simultanés à 30 fps dans un budget de puissance de 15 W — permettant des configurations de charge utile à quatre capteurs sur les drones de classe moyenne répondant aux exigences DGA.

Le lissage temporel est un composant critique de fiabilité. Un modèle de détection d'objets sur une seule image produit des détections qui peuvent scintiller — un objet détecté dans les images 1 et 3 mais pas l'image 2 en raison de la variance du seuil de confiance. Une couche d'agrégation basée sur les pistes (utilisant ByteTrack ou similaire) attribue des identifiants de piste persistants à travers les images et applique un filtrage temporel : seules les pistes qui persistent pendant un nombre minimum d'images (typiquement 3 à 5) et maintiennent un score de confiance moyen minimum sont élevées aux événements de triage. Cela élimine les faux positifs sur une seule image de la sortie de triage sans introduire de latence significative.

Humain dans la boucle : seuils d'escalade de l'IA

Le pipeline de triage IA n'est pas conçu pour remplacer le jugement de l'analyste — il est conçu pour concentrer l'attention de l'analyste. L'architecture d'escalade a trois niveaux :

Transmission automatique. Les événements notés au-dessus du seuil haute priorité (typiquement une combinaison ajustée par confiance du type d'objet, d'activité et de densité temporelle) sont transmis immédiatement via la liaison descendante disponible. Le paquet de métadonnées — coordonnées GPS, classe d'objet, score de confiance, horodatage et une vignette représentative — représente environ 50 Ko par événement. Un système générant 200 événements haute priorité par jour de vol nécessite environ 10 Mo de bande passante de transmission pour les métadonnées seules — bien dans la portée de la capacité de liaison satellitaire typique.

File d'attente de révision analyste. Les événements de niveau priorité moyen sont mis en mémoire tampon à bord et transmis dans la prochaine fenêtre de transmission haute bande passante disponible (contact satellite, retour à la base). La file d'attente de révision analyste comprend à la fois les métadonnées et un clip vidéo (typiquement 10 à 30 secondes autour de l'événement de détection à résolution réduite) pour une révision contextuelle.

Archive uniquement. Les événements à faible confiance et faible priorité sont archivés sur le stockage local du drone. Si un événement haute priorité ultérieur dans la même zone déclenche une analyse rétrospective, les séquences archivées de la période précédant l'événement haute priorité peuvent être examinées pour les patterns d'activité précédents.

Insight clé : Les économies de bande passante du triage IA périphérique ne sont pas seulement logistiques — elles sont opérationnellement habilitantes. Un drone qui nécessitait auparavant une liaison satellite haute bande passante pour maintenir une production de renseignement continue peut maintenant opérer efficacement sur une liaison beaucoup plus étroite, étendant le nombre de plateformes pouvant être soutenues au sein d'une architecture de communications donnée d'un ordre de grandeur — un facteur central dans la stratégie de flotte de drones DGA/EMA.

Économies de bande passante : transmettre des clips vs des flux vidéo complets

La réduction quantifiée de bande passante du triage périphérique dépend de la densité des cibles dans la zone opérationnelle et des paramètres de sensibilité du modèle de détection. Dans un terrain à faible activité (désert ouvert, forêt, océan), où les cibles d'intérêt apparaissent dans moins de 1% des images, le triage périphérique peut atteindre une réduction 100:1 des données transmises. Dans les zones urbaines ou contestées à forte activité où le mouvement de véhicules est continu, la réduction est plus faible — peut-être 10:1 — mais reste significative pour la gestion du budget de liaison selon les exigences DGA.

Une transmission vignette-plus-métadonnées pour un événement détecté représente en moyenne environ 50 à 100 Ko. Un clip vidéo de 30 secondes à résolution réduite (480p, H.265) représente en moyenne environ 5 à 10 Mo. Par rapport à la transmission de vidéo plein mouvement haute résolution à environ 2 Mbps (environ 900 Mo par heure), les économies de bande passante pour un jour de vol avec 200 événements de triage sont : 200 paquets de métadonnées (20 Mo) plus 50 clips priorité moyenne (500 Mo) contre 14,4 Go de vidéo complète — une réduction 20:1 pour ce scénario, réduisant la bande passante de liaison satellite requise d'environ 2 Mbps continus à environ 200 kbps en moyenne.