Quelles caractéristiques audio sont les plus efficaces pour distinguer les tirs des véhicules ?

Les tirs sont des événements impulsifs de courte durée (1 à 20 ms) avec une signature spectrale large s'étendant au-delà de 4 kHz et un souffle de bouche caractéristique suivi d'une onde de choc balistique supersonique. Les véhicules produisent des signatures continues, à bande étroite et basse fréquence (fondamentale du moteur 50 à 200 Hz, harmoniques s'étendant jusqu'à 1 à 2 kHz) qui changent avec la vitesse, la charge et le rapport. Les coefficients cepstraux à fréquence mel (MFCC) avec 20 à 40 coefficients capturent bien les deux classes dans un vecteur de caractéristiques compact. Pour les classificateurs d'apprentissage profond, les spectrogrammes log-mel fournis à un CNN ou à une petite architecture de transformeur atteignent une précision supérieure aux caractéristiques conçues à la main, au prix d'une taille de modèle plus grande et d'une latence d'inférence légèrement plus élevée.

Quelles plateformes matérielles sont utilisées pour l'inférence acoustique en périphérie ?

Les nœuds acoustiques de périphérie en production utilisent des microcontrôleurs ou des processeurs d'application à faible consommation. Pour les capteurs terrestres sans surveillance alimentés par batterie, des microcontrôleurs tels que la série STM32H7 (avec Cortex-M7 et une unité à virgule flottante) peuvent exécuter des classificateurs audio de taille MobileNet à moins de 50 mW. Pour les nœuds nécessitant une capacité de modèle plus élevée ou un traitement TDOA en temps réel sur de nombreux microphones simultanément, du matériel de classe Raspberry Pi CM4 ou NVIDIA Jetson Orin Nano fournit une puissance de calcul suffisante à 3 à 15 W. La contrainte clé est toujours le budget énergétique — un capteur discret déployé pendant des semaines sur batterie ne peut pas se permettre les plus de 20 W d'un accélérateur d'inférence complet.

Edge AI

IA de détection acoustique : classification de tirs et de véhicules en périphérie

Q: Qu'est-ce que l'estimation de relèvement TDOA (différence de temps d'arrivée) dans les capteurs acoustiques ?

L'estimation de relèvement TDOA calcule la direction d'une source sonore en mesurant de combien de microsecondes l'onde acoustique arrive à chaque microphone d'un réseau avant ou après les autres. La vitesse du son (environ 343 m/s à 20°C, variant avec la température et l'humidité) convertit les différences de temps en contraintes géométriques. Pour un réseau à quatre éléments avec un espacement de microphones connu, deux mesures TDOA suffisent à trianguler le relèvement en 2D. Avec trois réseaux à positions connues, une localisation 3D complète est possible, atteignant typiquement des précisions de relèvement de 1 à 3° à des distances allant jusqu'à plusieurs centaines de mètres pour des événements à haute énergie tels que les tirs de fusil.

Par l'équipe d'ingénierie de Corvus Intelligence · À propos de l'équipe →

11 juin 2026 9 min de lecture

Le son arrive avant que l'on ne voie la source. Un tir de fusil à 500 mètres atteint un nœud capteur acoustique en moins de 1,5 seconde. Un véhicule chenillé se déplaçant sous couvert d'arbres à 2 km produit des harmoniques de moteur qui se propagent à travers le terrain bien avant qu'un capteur optique ou radar ne puisse résoudre la plateforme. L'IA de détection acoustique exploite cette physique : en classant ce qu'un réseau de microphones entend – et en calculant le relèvement à partir des différences de temps entre les éléments – un nœud acoustique déployé en périphérie peut contribuer une couche de détection à l'image opérationnelle commune (COP) que les capteurs optiques ne peuvent reproduire. Cet article parcourt la physique des capteurs, l'extraction de caractéristiques, les architectures d'apprentissage automatique, les algorithmes d'estimation de relèvement et l'intégration CoT qui font de la détection acoustique en périphérie une capacité d'IA militaire viable.

Pourquoi la détection acoustique en périphérie ?

L'argument opérationnel en faveur des capteurs acoustiques déployés en périphérie repose sur trois propriétés qu'aucune autre modalité de détection passive ne partage.

Détection passive. Les capteurs acoustiques n'émettent rien. Contrairement au radar ou au sonar actif, un réseau de microphones n'a pas de signature RF, pas de retour laser et pas de sortie thermique au-delà de la consommation minimale du nœud de calcul. Cela rend les capteurs acoustiques adaptés aux déploiements discrets de capteurs terrestres sans surveillance (UGS) aux points de passage obligés, le long des routes de ravitaillement ou autour de positions défendues, sans risque de révéler la position du capteur par ses propres émissions.

Pénétration à travers les obscurcissants visuels. Les ondes acoustiques se propagent à travers le brouillard, la fumée, la végétation et l'obscurité avec une atténuation bien moindre que la lumière visible ou infrarouge. Un véhicule à roues dans une lisière d'arbres invisible pour un drone EO est acoustiquement bruyant. Une arme d'équipage engagée derrière un merlon produit toujours un souffle de bouche détectable. Le domaine acoustique offre une persistance de détection dans des conditions qui mettent en échec les systèmes optiques.

Faible consommation, longue endurance. Un réseau de microphones avec un moteur d'inférence de classe microcontrôleur consomme 20 à 100 mW en mode de surveillance continue. Un petit pack de batteries fournit des semaines à des mois de fonctionnement sans surveillance. En revanche, un radar terrestre ou un capteur EO persistant nécessite plusieurs ordres de grandeur de puissance supplémentaire pour une couverture continue comparable. Les capteurs acoustiques comblent le créneau d'endurance que les capteurs alimentés ne peuvent couvrir.

Géométrie du réseau de capteurs et physique de la TDOA

Un seul microphone peut détecter et classer des événements acoustiques mais ne peut pas déterminer d'où ils viennent. La radiogoniométrie nécessite un réseau – plusieurs microphones à des séparations géométriques connues – et un algorithme de différence de temps d'arrivée (TDOA) qui calcule le relèvement à partir des différences de quelques microsecondes dans le moment où le front d'onde acoustique atteint chaque élément.

Pour un réseau linéaire de N microphones avec un espacement d, la TDOA maximale sans ambiguïté est d/c, où c est la vitesse du son (environ 343 m/s à 20°C, variant d'environ 0,6 m/s par degré Celsius). Pour résoudre le relèvement sans repliement, l'espacement entre éléments ne doit pas dépasser la moitié d'une longueur d'onde à la fréquence la plus élevée d'intérêt – le même critère d'échantillonnage spatial que le radar à réseau phasé. Pour la classification de tirs où le contenu spectral pertinent s'étend jusqu'à 10 kHz (longueur d'onde ≈ 34 mm), l'espacement du réseau doit être inférieur à 17 mm pour éviter l'ambiguïté à la fréquence la plus élevée. En pratique, les réseaux acoustiques militaires de production utilisent un agencement 2D (croix, pentagone ou hexagone) avec des espacements d'éléments de l'ordre de 10 à 30 cm et s'appuient sur le contenu basse fréquence du souffle de bouche (1 à 4 kHz) pour un relèvement sans ambiguïté.

La corrélation croisée généralisée avec transformation de phase (GCC-PHAT) est l'algorithme standard pour estimer la TDOA entre une paire de canaux de microphone. Elle corrèle de manière croisée les deux signaux de canal dans le domaine fréquentiel, normalise par la magnitude inter-spectrale (l'étape de « transformation de phase ») et trouve le décalage temporel au pic de corrélation. GCC-PHAT est robuste à la réverbération – l'étape de normalisation supprime l'énergie multi-trajets – et produit un pic net même dans des environnements extérieurs bruyants lorsque le signal en trajet direct est cohérent entre les canaux.

Calibrage du réseau et compensation environnementale

Deux complications pratiques dégradent la précision TDOA en déploiement sur le terrain. Premièrement, les positions réelles des microphones dans un réseau fabriqué peuvent différer de la géométrie nominale de 1 à 3 mm en raison des tolérances de fabrication. À un échantillonnage de 48 kHz et une vitesse du son de 343 m/s, 1 mm d'erreur de position correspond à environ 3 µs d'erreur temporelle – équivalent à une erreur de relèvement de 1° à courte distance pour une ouverture de 15 cm. Les réseaux doivent être calibrés après assemblage à l'aide d'une source acoustique ponctuelle à une position connue, en ajustant les positions réelles aux TDOA observées.

Deuxièmement, la température affecte la vitesse du son de 0,6 m/s par °C. Une variation de température de 20°C – courante entre la nuit et midi aux latitudes moyennes – décale la vitesse du son de 12 m/s (3,5 %), ce qui se propage directement en erreur de distance et de relèvement si la compensation de température n'est pas appliquée. Les nœuds acoustiques de périphérie doivent inclure un capteur de température (et idéalement un capteur d'humidité et de pression barométrique) pour mettre à jour l'estimation de la vitesse du son en temps réel.

Extraction de caractéristiques pour la classification audio

Classer les événements acoustiques comme tirs, explosions, véhicules ou bruit ambiant nécessite des caractéristiques qui capturent la structure spectrale et temporelle de chaque classe d'événement tout en étant suffisamment compactes pour être traitées sur du matériel de périphérie dans le budget de latence.

Coefficients cepstraux à fréquence mel (MFCC). La caractéristique audio compacte la plus largement utilisée pour les tâches de classification. Les MFCC mappent la transformée de Fourier à court terme d'un signal sur un banc de filtres à échelle mel (qui approxime la résolution fréquentielle du système auditif humain), puis appliquent une transformée en cosinus discrète pour décorréler les sorties du banc de filtres. Vingt à 40 coefficients par trame d'analyse capturent la forme spectrale globale de l'événement. Pour la discrimination tir contre véhicule, le discriminant clé est le rapport entre l'énergie haute fréquence et basse fréquence : les tirs concentrent l'énergie au-dessus de 2 kHz en une brève rafale impulsive, tandis que les véhicules produisent un contenu basse fréquence soutenu sous 500 Hz avec une structure harmonique.

Spectrogrammes log-mel. Pour les classificateurs d'apprentissage profond, les spectrogrammes log-mel – représentations temps-fréquence bidimensionnelles sur une échelle mel – donnent au modèle accès à la structure spectrotemporelle complète de l'événement. Un spectrogramme à 64 bandes, trame de 25 ms, saut de 10 ms d'une fenêtre d'événement de 200 ms produit une image de caractéristiques 64×19 qu'un petit CNN classe avec précision. La représentation log-mel préserve la structure transitoire d'attaque (essentielle pour la détection de tirs) et les motifs harmoniques soutenus (essentiels pour la classification de véhicules) dans un format adapté à l'extraction de caractéristiques par convolution.

Détection d'attaque et segmentation d'événements. Avant que l'extraction de caractéristiques puisse s'exécuter, le système doit identifier qu'un événement digne d'être classé s'est produit. Un simple seuil d'énergie se déclenche sur les transitoires forts mais présente des taux de fausses alarmes élevés dus au tonnerre, aux impacts métalliques et au bruit industriel. Une meilleure approche utilise un détecteur d'attaque appris – un petit modèle entraîné à distinguer les attaques acoustiques qui précèdent les événements militaires classifiables de tous les autres transitoires – comme préfiltre. Cette architecture en deux étapes réduit le taux de fausses alarmes transmis au classificateur principal de 60 à 80 % dans les environnements industriels extérieurs typiques, au prix de 5 à 10 ms de latence d'inférence supplémentaires.

Architectures d'apprentissage automatique pour la classification acoustique en périphérie

Trois familles de modèles sont viables en production pour la classification acoustique en périphérie dans les applications militaires.

Réseaux de neurones convolutifs sur spectrogrammes. Une architecture MobileNetV2 ou EfficientNet-Lite adaptée à l'audio (en remplaçant la forme d'entrée ImageNet par les dimensions du spectrogramme) atteint une précision de 92 à 96 % sur des jeux de données d'événements acoustiques à quatre classes (tir, véhicule, explosion, ambiant) en moins de 20 ms de temps d'inférence sur un ARM Cortex-M55 avec quantification INT8. L'adaptation clé est l'utilisation d'une fenêtre de contexte temporel relativement étroite – 200 à 500 ms – pour garder le tenseur d'entrée suffisamment petit pour la mémoire sur l'appareil. Spécifiquement pour la détection de tirs, les mêmes techniques de quantification et d'optimisation utilisées dans l'IA visuelle en périphérie s'appliquent directement au déploiement de CNN audio.

Modèles de transformeurs audio. Les modèles de la famille Audio Spectrogram Transformer (AST) appliquent l'auto-attention sur des patchs de spectrogramme, atteignant une précision de pointe sur les benchmarks de classification audio générale. Sur du matériel de périphérie, le mécanisme d'attention est plus gourmand en mémoire que les convolutions à taille de modèle équivalente, et les couches d'attention se dégradent davantage sous quantification INT8 que les couches convolutives. Les variantes tiny-AST distillées avec 1 à 5 millions de paramètres sont réalisables sur des processeurs de classe Cortex-A à un temps d'inférence de 10 à 30 ms. L'avantage de précision par rapport aux modèles basés sur CNN est modeste (1 à 3 %) pour la classification d'événements acoustiques militaires, où l'ensemble d'entraînement est spécifique au domaine plutôt que le vaste AudioSet pour lequel AST a été conçu pour exceller.

Classificateurs récurrents pour l'identification de véhicules. La classification de véhicules – distinguer roues et chenilles, léger et lourd, ainsi que des types de plateformes spécifiques – bénéficie d'un contexte temporel que les CNN capturent mal avec des fenêtres courtes. Un LSTM bidirectionnel opérant sur une séquence de 20 à 50 trames MFCC (200 à 500 ms d'audio) capture l'évolution des harmoniques du moteur lorsque la charge et la vitesse changent, produisant des estimations de type de véhicule plus stables sur des fenêtres de plusieurs secondes. Le classificateur LSTM peut fonctionner de manière asynchrone par rapport au classificateur de déclenchement d'événement, mettant à jour en continu une estimation de type de véhicule tant que le contact acoustique est maintenu.

Onde de choc balistique supersonique contre souffle de bouche

Un fusil ou une arme lourde tiré vers un capteur produit deux événements acoustiques distincts : le souffle de bouche (un front d'onde impulsif omnidirectionnel provenant du gaz propulseur) et l'onde de choc balistique (une onde en N conique générée par le projectile supersonique). Ceux-ci arrivent au capteur à des moments différents selon la géométrie de l'engagement, et la différence de temps entre eux encode des informations sur le type d'arme, la vitesse initiale et – de manière critique – la position du tireur par rapport à la géométrie cible-capteur.

La TDOA du souffle de bouche donne la direction vers l'arme. La TDOA de l'onde de choc balistique donne la direction de la trajectoire du projectile. En combinant les deux estimations, un classificateur et estimateur correctement entraîné peut déterminer si l'arme a été tirée vers, à l'opposé de, ou en travers de la position du capteur. Cette capacité – distinguer le tir entrant du tir sortant – a une valeur opérationnelle évidente pour les décisions de posture défensive. Les systèmes qui classent uniquement sur le souffle de bouche sans séparer la composante d'onde de choc rapportent systématiquement de manière erronée le relèvement du tireur d'un angle qui augmente avec la distance tireur-capteur.

Idée clé : L'échec de classification le plus courant dans les détecteurs acoustiques de tirs déployés n'est pas le modèle – c'est l'incapacité à séparer le souffle de bouche de l'onde de choc balistique avant d'exécuter l'estimation de relèvement. Un estimateur TDOA à pic unique qui ne modélise pas les deux arrivées rapportera un relèvement qui est une moyenne pondérée des deux directions de propagation, biaisée vers l'événement ayant le SNR le plus élevé au niveau du réseau. Pour des engagements à des distances supérieures à 200 mètres, cela peut produire des erreurs de relèvement dépassant 15°. La solution est un estimateur TDOA à hypothèses multiples qui modélise explicitement les deux arrivées et affecte chacune à sa source physique.

Intégration des détections acoustiques dans l'image opérationnelle commune

Une détection acoustique qui reste sur le nœud de périphérie est tactiquement inutile. La valeur n'est réalisée que lorsque l'événement de détection – relèvement, classification, confiance, horodatage, position du capteur – atteint les opérateurs et les moteurs de fusion automatisés sur la COP. Le modèle d'intégration reflète ce qui est bien établi pour les réseaux de capteurs militaires distribués : chaque nœud rapporte les résultats traités localement sur une liaison contrainte vers un hub qui fusionne entre les nœuds.

Pour l'intégration dans l'écosystème TAK, les événements de détection acoustique sont publiés en CoT XML vers le serveur TAK. Le type d'événement CoT pour une observation acoustique est tiré de la taxonomie de types CoT (b-m-p-s-p-op pour observation, ou un code de type hostile si la confiance de classification et les règles d'engagement le permettent). Le champ de détail CoT porte des éléments d'extension structurés : relèvement, incertitude de relèvement, classe d'événement, confiance acoustique et un identifiant pour le nœud capteur rapporteur. Le modèle d'abonnement CoT intégré du serveur TAK livre l'événement à tous les clients ATAK connectés dans un délai de 1 à 3 secondes après l'attaque acoustique.

La fusion multi-nœuds est la capacité qui transforme les lignes de relèvement en points de position. Lorsque deux nœuds acoustiques ou plus rapportent le même événement (apparié par horodatage et classification dans une fenêtre temporelle configurable), leurs lignes de relèvement sont intersectées à l'aide d'un algorithme des moindres carrés pondérés. Le poids de chaque ligne de relèvement est inversement proportionnel à l'incertitude de relèvement. La position fusionnée est représentée par une ellipse d'erreur 2D (CEP) dont la taille croît avec la géométrie du réseau de nœuds et les incertitudes de relèvement des nœuds contributeurs. Pour un réseau à deux nœuds avec un angle de croisement de 90° et une incertitude de relèvement de 2° par nœud, le CEP à 500 m de distance est d'environ 18 mètres – suffisant pour orienter une équipe d'observation ou diriger un UAS pour enquêter.

Les nœuds de périphérie alimentés par batterie qui fonctionnent pendant des périodes à communications refusées stockent les détections localement avec des horodatages GPS précis. À la reconnexion au réseau tactique, les événements mis en mémoire tampon sont rejoués vers le serveur TAK avec leurs horodatages d'origine, reconstruisant l'historique des événements acoustiques sur la COP pour l'analyse post-événement.

Fusionnez les détections acoustiques dans votre image opérationnelle

Corvus SENSE intègre les nœuds capteurs acoustiques, les estimations de relèvement TDOA et les résultats de classification directement dans l'image opérationnelle commune – publiant les événements CoT vers le serveur TAK et fournissant une fusion multi-nœuds sur le réseau de capteurs en temps réel.

Découvrir Corvus SENSE → Réserver un briefing

Cette analyse a été préparée par les ingénieurs de Corvus Intelligence qui développent des applications ISR et de terrain critiques pour les organisations de défense et gouvernementales. En savoir plus sur notre équipe →

Foire aux questions

Comment l'IA de détection acoustique de tirs fonctionne-t-elle en périphérie ?

L'IA de détection acoustique de tirs capture l'audio d'un réseau de microphones, extrait des caractéristiques temps-fréquence (coefficients cepstraux à fréquence mel, spectrogrammes ou plongements de forme d'onde brute) et les fait passer par un modèle de classification léger fonctionnant localement sur le nœud capteur. Le modèle distingue les événements impulsifs tels que les tirs et les explosions du bruit ambiant et des sons de véhicules. Comme l'inférence s'exécute sur le nœud lui-même — et non dans le cloud — la latence de détection est généralement inférieure à 200 ms entre l'événement acoustique et l'alerte classifiée, et le système continue de fonctionner dans des environnements à communications refusées.

Qu'est-ce que l'estimation de relèvement TDOA dans les capteurs acoustiques ?

L'estimation de relèvement TDOA (différence de temps d'arrivée) calcule la direction d'une source sonore en mesurant de combien de microsecondes l'onde acoustique arrive à chaque microphone d'un réseau avant ou après les autres. La vitesse du son convertit les différences de temps en contraintes géométriques. Pour un réseau à quatre éléments avec un espacement de microphones connu, deux mesures TDOA suffisent à trianguler le relèvement en 2D. Avec trois réseaux à positions connues, une localisation 3D complète est possible, atteignant typiquement des précisions de relèvement de 1 à 3° à des distances allant jusqu'à plusieurs centaines de mètres pour des événements à haute énergie tels que les tirs de fusil.

Quelles caractéristiques audio fonctionnent le mieux pour distinguer les tirs des véhicules ?

Les tirs sont des événements impulsifs de courte durée avec une signature spectrale large s'étendant au-delà de 4 kHz et un souffle de bouche caractéristique suivi d'une onde de choc balistique supersonique. Les véhicules produisent des signatures continues, à bande étroite et basse fréquence (fondamentale du moteur 50 à 200 Hz) qui changent avec la vitesse et la charge. Les coefficients cepstraux à fréquence mel avec 20 à 40 coefficients capturent bien les deux classes dans un vecteur de caractéristiques compact. Pour les classificateurs d'apprentissage profond, les spectrogrammes log-mel fournis à un CNN ou à une petite architecture de transformeur atteignent une précision supérieure aux caractéristiques conçues à la main, au prix d'une taille de modèle plus grande et d'une latence d'inférence légèrement plus élevée.

Quelles plateformes matérielles de périphérie conviennent à l'inférence acoustique ?

Les capteurs terrestres sans surveillance alimentés par batterie peuvent exécuter des classificateurs audio de taille MobileNet sur des microcontrôleurs tels que la série STM32H7 à moins de 50 mW. Pour une capacité de modèle plus élevée ou un traitement TDOA en temps réel sur de nombreux microphones, du matériel de classe Raspberry Pi CM4 ou NVIDIA Jetson Orin Nano fournit une puissance de calcul suffisante à 3 à 15 W. La contrainte clé est toujours le budget énergétique — un capteur discret déployé pendant des semaines sur batterie ne peut pas se permettre les plus de 20 W d'un accélérateur d'inférence complet. La quantification INT8 des classificateurs audio offre typiquement une accélération d'inférence de 3 à 4× avec moins de 2 % de perte de précision.

Comment les détections acoustiques sont-elles fusionnées dans l'image opérationnelle commune ?

Les détections acoustiques sont publiées sous forme d'événements CoT vers un serveur TAK ou un point de terminaison C2 équivalent. Chaque événement porte l'estimation de relèvement, le score de confiance, la classe d'événement et un point géographique dérivé de la position connue du capteur plus la distance estimée. Lorsque plusieurs nœuds acoustiques détectent le même événement, leurs lignes de relèvement dérivées du TDOA sont intersectées côté serveur pour produire une estimation de position fusionnée avec une ellipse de confiance. L'événement fusionné apparaît sur chaque client ATAK connecté sous forme de marqueur de carte catégorisé par type d'événement, donnant aux opérateurs une connaissance du domaine acoustique en temps réel.