Vision par ordinateur pour la défense : détection et suivi d'objets sur l'appareil

La vision par ordinateur — la capacité d'une machine à interpréter et comprendre des données visuelles — est devenue l'une des capacités d'IA les plus opérationnellement significatives dans les systèmes de défense modernes. Des capteurs montés sur drones identifiant des véhicules en temps réel aux systèmes de sécurité périmétrique distinguant humains et animaux de nuit — la vision par ordinateur embarquée transforme la manière dont les forces armées collectent, traitent et réagissent au renseignement visuel.

Le déploiement de la vision par ordinateur sur du matériel de défense diffère fondamentalement du déploiement dans un centre de données commercial. Les modèles doivent fonctionner sur du matériel durci à consommation d'énergie contrainte, dans des conditions variables d'éclairage, de météo et de caractéristiques des capteurs. Les exigences de latence se mesurent en millisecondes, non en secondes. Et ils doivent échouer de manière contrôlée plutôt que catastrophique lorsque les entrées sortent de la distribution d'entraînement.

Architecture du pipeline de détection : de la trame à la boîte englobante

Un pipeline moderne de détection d'objets pour le déploiement Edge en défense comprend plusieurs étapes séquentielles. La première est le pré-traitement des entrées : redimensionnement de la trame d'entrée à la résolution d'entrée du modèle (typiquement 640×640 ou 1280×1280 pixels), normalisation des valeurs de pixels à la plage [0, 1] et letterboxing optionnel pour préserver le rapport d'aspect. Pour les caméras thermiques (LWIR), le pré-traitement inclut des étapes supplémentaires de normalisation pour la plage dynamique 14 ou 16 bits du capteur.

Le modèle de détection — dominé par les variantes YOLO — prend la trame prétraitée et produit des détections candidates avec boîte englobante, vecteur de probabilité de classe et score d'objectivité. YOLOv8 a introduit une tête de détection sans ancre qui a significativement amélioré la détection des petits objets — critique pour la reconnaissance aérienne. YOLOv9 avec le mécanisme Programmable Gradient Information (PGI) améliore davantage le flux de gradient pendant l'entraînement.

La dernière étape est la Non-Maximum Suppression (NMS). Le modèle produit typiquement des centaines de candidats chevauchants ; la NMS les filtre vers le sous-ensemble de détections les plus confiantes et non chevauchantes avec un seuil IoU (typiquement 0,45–0,65). TensorRT fournit une NMS GPU-accélérée efficace pour les déploiements Edge DGA/EMA.

Plateformes matérielles : Jetson, Hailo et Movidius comparés

NVIDIA Jetson AGX Orin est le leader en performance parmi les GPU embarqués durcis. À 275 TOPS (INT8), il peut exécuter plusieurs grands modèles de détection simultanément. L'AGX Orin fonctionne à 10–60 W selon le mode d'alimentation, supporte CUDA 11.4+, TensorRT 8.x et DeepStream SDK. Pour les applications montées sur véhicules avec un budget de puissance supérieur à 100 W, c'est le choix standard conformément aux cahiers des charges DGA.

Hailo-8 et Hailo-8L occupent l'extrémité basse consommation de l'inférence IA haute performance. Le Hailo-8 délivre 26 TOPS à moins de 3 W en format PCIe M.2 ou mPCIe — adapté aux petites charges utiles de drones et aux systèmes dismontés. Le Hailo-8L (13 TOPS) réduit la consommation à ~1,5 W. L'écosystème Hailo est plus étroit que celui de NVIDIA.

Intel Movidius Myriad X et la suite Intel OpenVINO ciblent l'intégration de l'IA visuelle avec l'écosystème de caméras et capteurs Intel. Le Myriad X délivre environ 4 TOPS à ~1 W, adapté aux applications de vision embarquée à très faible consommation.

Optimisation : quantification TensorRT INT8 et fusion de couches

Un modèle YOLOv8-medium entraîné en PyTorch avec des poids FP32 nécessite environ 850 Mo de mémoire et tourne à environ 8 ips sur NVIDIA Jetson Orin NX. Après optimisation TensorRT vers INT8, le même modèle nécessite environ 210 Mo et tourne à 65+ ips — amélioration de débit 8× et réduction mémoire 4×, avec typiquement moins de 1% de dégradation mAP sur un jeu de données de calibration représentatif.

L'optimisation TensorRT comprend trois techniques principales : quantification INT8 (conversion des poids et activations de virgule flottante 32 bits vers entier 8 bits avec facteurs d'échelle de quantification par couche déterminés par un jeu de calibration de 500–1 000 images représentatives) ; fusion de couches (combinaison de séquences d'opérations — convolution + normalisation par lots + ReLU — en un seul noyau CUDA optimisé) ; et auto-tuning de noyau (sélection de l'implémentation de noyau CUDA la plus rapide pour chaque couche sur le GPU cible).

Insight clé : La qualité des données de calibration est le principal déterminant de la précision INT8. Utiliser des images du domaine de déploiement — correspondant au type de capteur, aux conditions d'éclairage et aux classes de cibles — donne des résultats de calibration significativement meilleurs qu'ImageNet ou d'autres jeux génériques. Pour les entrées thermiques LWIR, calibrer exclusivement avec des images thermiques.

Suivi multi-objets : DeepSORT, ByteTrack et BoT-SORT

La détection d'objets produit des détections par trame. Le suivi multi-objets (MOT) relie ces détections entre trames pour créer des pistes persistantes — chacune avec un ID unique, un historique de trajectoire et une estimation de vitesse. DeepSORT utilise le filtrage de Kalman et un modèle léger de ReID. ByteTrack améliore DeepSORT en utilisant les détections à faible confiance comme indices d'association supplémentaires. BoT-SORT ajoute la compensation du mouvement de caméra au framework ByteTrack — crucial pour les plateformes aériennes DGA/EMA où le mouvement de la caméra crée un mouvement apparent des cibles stationnaires.

Défis de déploiement : entrées thermiques, fusion de capteurs et robustesse

Les caméras thermiques LWIR opèrent dans la bande spectrale 8–14 µm et produisent des images en niveaux de gris 14 ou 16 bits. L'égalisation d'histogramme adaptative (CLAHE) améliore significativement la visibilité des cibles dans les images thermiques. La fusion des détections des caméras EO et LWIR nécessite une calibration extrinsèque, une synchronisation temporelle et une stratégie de fusion. La fusion tardive est la plus courante dans les systèmes de défense déployés. Les boîtiers IP67 et la qualification MIL-STD-810H sont requis pour le matériel de terrain selon les normes DGA.