Het geluid komt aan voordat je de bron ziet. Een geweerschot op 500 meter bereikt een akoestische sensorknoop in minder dan 1,5 seconde. Een rupsvoertuig dat onder boombedekking op 2 km beweegt, produceert motorharmonischen die zich over het terrein verspreiden lang voordat een optische of radarsensor het platform kan resolveren. Akoestische AI benut deze fysica: door te classificeren wat een microfoonarray hoort – en de peiling te berekenen uit de timingverschillen tussen elementen – kan een aan de edge ingezette akoestische knoop een detectielaag bijdragen aan het gemeenschappelijke operationele beeld (COP) die optische sensoren niet kunnen repliceren. Dit artikel doorloopt de sensorfysica, kenmerkextractie, machine-learning-architecturen, peilingschattingsalgoritmen en CoT-integratie die akoestische edge-detectie tot een levensvatbare militaire AI-capaciteit maken.

Waarom akoestische detectie aan de edge?

Het operationele argument voor aan de edge ingezette akoestische sensoren berust op drie eigenschappen die geen enkele andere passieve detectiemodaliteit deelt.

Passieve detectie. Akoestische sensoren zenden niets uit. In tegenstelling tot radar of actieve sonar heeft een microfoonarray geen RF-signatuur, geen laserretour en geen thermische uitstoot buiten het minimale stroomverbruik van de rekenknoop. Dit maakt akoestische sensoren geschikt voor verdekte inzet van onbemande grondsensoren (UGS) bij knelpunten, langs bevoorradingsroutes of rond verdedigde posities, zonder het risico dat de positie van de sensor wordt verraden door zijn eigen emissies.

Penetratie door visuele verduisteraars. Akoestische golven planten zich voort door mist, rook, vegetatie en duisternis met veel minder demping dan zichtbaar of infrarood licht. Een wielvoertuig in een bomenrij dat onzichtbaar is voor een EO-drone is akoestisch luid. Een ingezet bemanningswapen achter een wal produceert nog steeds een detecteerbare mondingsknal. Het akoestische domein biedt detectiepersistentie onder omstandigheden die optische systemen verslaan.

Laag vermogen, lange autonomie. Een microfoonarray met een inferentie-engine van microcontrollerklasse verbruikt 20–100 mW in de continue bewakingsmodus. Een klein batterijpakket biedt weken tot maanden onbemande werking. Daarentegen vereist een grondradar of een persistente EO-sensor ordes van grootte meer vermogen voor vergelijkbare continue dekking. Akoestische sensoren vullen de autonomieniche die door vermogensslurpende sensoren niet kan worden gedekt.

Sensorarraygeometrie en de fysica van TDOA

Eén enkele microfoon kan akoestische gebeurtenissen detecteren en classificeren, maar kan niet bepalen waar ze vandaan komen. Richtingsbepaling vereist een array – meerdere microfoons op bekende geometrische afstanden – en een algoritme voor verschil in aankomsttijd (TDOA) dat de peiling berekent uit de microsecondeverschillen in wanneer het akoestische golffront elk element bereikt.

Voor een lineair array van N microfoons met afstand d is de maximale ondubbelzinnige TDOA d/c, waarbij c de geluidssnelheid is (ongeveer 343 m/s bij 20°C, variërend met ongeveer 0,6 m/s per graad Celsius). Om de peiling op te lossen zonder aliasing mag de afstand tussen elementen niet groter zijn dan een halve golflengte bij de hoogste frequentie van belang – hetzelfde ruimtelijke bemonsteringscriterium als phased-arrayradar. Voor schotclassificatie waarbij de relevante spectrale inhoud zich uitstrekt tot 10 kHz (golflengte ≈ 34 mm), moet de arrayafstand onder 17 mm liggen om ambiguïteit bij de hoogste frequentie te vermijden. In de praktijk gebruiken productie-militaire akoestische arrays een 2D-opstelling (kruis, pentagon of hexagon) met elementafstanden in het bereik van 10–30 cm en vertrouwen ze op de laagfrequente inhoud van de mondingsknal (1–4 kHz) voor een ondubbelzinnige peiling.

De gegeneraliseerde kruiscorrelatie met fasetransformatie (GCC-PHAT) is het standaardalgoritme voor het schatten van de TDOA tussen een paar microfoonkanalen. Het kruiscorreleert de twee kanaalsignalen in het frequentiedomein, normaliseert door de kruisspectrale magnitude (de "fasetransformatie"-stap) en vindt de tijdvertraging bij de correlatiepiek. GCC-PHAT is robuust tegen nagalm – de normalisatiestap onderdrukt multipad-energie – en produceert een scherpe piek zelfs in luidruchtige buitenomgevingen wanneer het directe-padsignaal coherent is over de kanalen.

Arraykalibratie en omgevingscompensatie

Twee praktische complicaties degraderen de TDOA-nauwkeurigheid bij veldinzet. Ten eerste kunnen de werkelijke microfoonposities in een gefabriceerd array met 1–3 mm afwijken van de nominale geometrie vanwege productietoleranties. Bij 48 kHz bemonstering en 343 m/s geluidssnelheid komt 1 mm positiefout overeen met ongeveer 3 µs timingfout – equivalent aan een peilfout van 1° op korte afstand voor een 15 cm apertuur. Arrays moeten na assemblage worden gekalibreerd met een akoestische puntbron op een bekende positie, waarbij de werkelijke posities worden gefit aan de waargenomen TDOA's.

Ten tweede beïnvloedt de temperatuur de geluidssnelheid met 0,6 m/s per °C. Een temperatuurschommeling van 20°C – gebruikelijk tussen nacht en middag op middelste breedtegraden – verschuift de geluidssnelheid met 12 m/s (3,5%), wat zich direct vertaalt in afstand- en peilfout als de temperatuurcompensatie niet wordt toegepast. Akoestische edge-knopen moeten een temperatuursensor bevatten (en idealiter een vochtigheids- en luchtdruksensor) om de geluidssnelheidsschatting in realtime bij te werken.

Kenmerkextractie voor audioclassificatie

Het classificeren van akoestische gebeurtenissen als schoten, explosies, voertuigen of omgevingsgeluid vereist kenmerken die de spectrale en temporele structuur van elke gebeurtenisklasse vastleggen en tegelijkertijd compact genoeg zijn om op edge-hardware binnen het latentiebudget te worden verwerkt.

Mel-frequentie-cepstrale coëfficiënten (MFCC's). Het meest gebruikte compacte audiokenmerk voor classificatietaken. MFCC's mappen de kortetijd-Fouriertransformatie van een signaal op een mel-schaal-filterbank (die de frequentieresolutie van het menselijke gehoorsysteem benadert) en passen vervolgens een discrete cosinustransformatie toe om de filterbankuitgangen te decorreleren. Twintig tot 40 coëfficiënten per analyseframe leggen de grove spectrale vorm van de gebeurtenis vast. Voor schot-versus-voertuigdiscriminatie is de belangrijkste discriminant de verhouding van hoogfrequente tot laagfrequente energie: schoten concentreren energie boven 2 kHz in een korte impulsieve uitbarsting, terwijl voertuigen aanhoudende laagfrequente inhoud onder 500 Hz met harmonische structuur produceren.

Log-mel-spectrogrammen. Voor deep-learning-classificatoren geven log-mel-spectrogrammen – tweedimensionale tijd-frequentierepresentaties op een mel-schaal – het model toegang tot de volledige spectrotemporele structuur van de gebeurtenis. Een 64-bands, 25 ms frame, 10 ms hop-spectrogram van een gebeurtenisvenster van 200 ms produceert een 64×19 kenmerkafbeelding die een klein CNN nauwkeurig classificeert. De log-mel-representatie behoudt de transiënte aanvangsstructuur (cruciaal voor schotdetectie) en aanhoudende harmonische patronen (cruciaal voor voertuigclassificatie) in een formaat dat geschikt is voor convolutionele kenmerkextractie.

Aanvangsdetectie en gebeurtenissegmentatie. Voordat kenmerkextractie kan draaien, moet het systeem identificeren dat er een gebeurtenis heeft plaatsgevonden die het waard is om te classificeren. Een eenvoudige energiedrempel triggert op luide transiënten maar heeft hoge percentages valse alarmen door donder, metalen inslagen en industrieel lawaai. Een betere aanpak gebruikt een geleerde aanvangsdetector – een klein model getraind om akoestische aanvangen die voorafgaan aan classificeerbare militaire gebeurtenissen te onderscheiden van alle andere transiënten – als voorfilter. Deze tweetraps-architectuur vermindert het percentage valse alarmen dat aan de hoofdclassificator wordt doorgegeven met 60–80% in typische industriële buitenomgevingen, ten koste van een extra 5–10 ms inferentielatentie.

Machine-learning-architecturen voor akoestische edge-classificatie

Drie modelfamilies zijn productiehaalbaar voor akoestische edge-classificatie in militaire toepassingen.

Convolutionele neurale netwerken op spectrogrammen. Een MobileNetV2- of EfficientNet-Lite-architectuur aangepast voor audio (waarbij de ImageNet-invoervorm wordt vervangen door de spectrogramdimensies) bereikt 92–96% nauwkeurigheid op vierklassige akoestische gebeurtenisdatasets (schot, voertuig, explosie, omgeving) bij minder dan 20 ms inferentietijd op een ARM Cortex-M55 met INT8-kwantisatie. De belangrijkste aanpassing is het gebruik van een relatief smal temporeel contextvenster – 200–500 ms – om de invoertensor klein genoeg te houden voor het geheugen op het apparaat. Specifiek voor schotdetectie zijn dezelfde kwantisatie- en optimalisatietechnieken die in visuele edge-AI worden gebruikt direct toepasbaar op de inzet van audio-CNN's.

Audio-transformermodellen. Modellen in de Audio Spectrogram Transformer (AST)-familie passen zelfaandacht toe over spectrogrampatches en bereiken state-of-the-art nauwkeurigheid op algemene audioclassificatiebenchmarks. Op edge-hardware is het aandachtsmechanisme geheugenintensiever dan convoluties bij equivalente modelgrootte, en aandachtslagen degraderen meer onder INT8-kwantisatie dan convolutionele lagen. Gedistilleerde tiny-AST-varianten met 1–5 miljoen parameters zijn haalbaar op processoren van de Cortex-A-klasse bij 10–30 ms inferentietijd. Het nauwkeurigheidsvoordeel ten opzichte van CNN-gebaseerde modellen is bescheiden (1–3%) voor militaire akoestische gebeurtenisclassificatie, waar de trainingsset domeinspecifiek is in plaats van de brede AudioSet waarvoor AST is ontworpen om in uit te blinken.

Recurrente classificatoren voor voertuigidentificatie. Voertuigclassificatie – het onderscheiden van wiel- versus rupsvoertuigen, licht versus zwaar, en specifieke platformtypes – profiteert van temporele context die CNN's slecht vastleggen met korte vensters. Een bidirectionele LSTM die werkt op een sequentie van 20–50 MFCC-frames (200–500 ms audio) legt de evolutie van motorharmonischen vast naarmate belasting en snelheid veranderen, en produceert stabielere voertuigtypeschattingen over vensters van meerdere seconden. De LSTM-classificator kan asynchroon draaien ten opzichte van de gebeurtenistriggerclassificator, waarbij hij continu een voertuigtypeschatting bijwerkt zolang er akoestisch contact wordt gehandhaafd.

Supersone ballistische schokgolf versus mondingsknal

Een geweer of zwaar wapen dat op een sensor wordt afgevuurd, produceert twee verschillende akoestische gebeurtenissen: de mondingsknal (een omnidirectioneel impulsief golffront van het voortstuwingsgas) en de ballistische schokgolf (een conische N-golf gegenereerd door het supersone projectiel). Deze komen op verschillende tijdstippen bij de sensor aan, afhankelijk van de geometrie van het engagement, en het tijdsverschil tussen hen codeert informatie over het wapentype, de mondingssnelheid en – cruciaal – de positie van de schutter ten opzichte van de doel-sensorgeometrie.

De TDOA van de mondingsknal geeft de richting naar het wapen. De TDOA van de ballistische schokgolf geeft de richting van het projectieltraject. Door beide schattingen te combineren, kan een goed getrainde classificator en schatter bepalen of het wapen naar, weg van of dwars over de sensorpositie is afgevuurd. Deze capaciteit – het onderscheiden van inkomend versus uitgaand vuur – heeft duidelijke operationele waarde voor beslissingen over de verdedigingshouding. Systemen die alleen op de mondingsknal classificeren zonder de schokgolfcomponent te scheiden, rapporteren de peiling van de schutter systematisch verkeerd met een hoek die toeneemt met de schutter-tot-sensorafstand.

Belangrijk inzicht: De meest voorkomende classificatiefout in ingezette akoestische schotdetectoren is niet het model – het is het falen om de mondingsknal te scheiden van de ballistische schokgolf voordat de peilingschatting wordt uitgevoerd. Een enkelpiek-TDOA-schatter die niet beide aankomsten modelleert, rapporteert een peiling die een gewogen gemiddelde is van de twee voortplantingsrichtingen, vertekend naar de gebeurtenis met de hoogste SNR bij het array. Voor engagements op afstanden boven 200 meter kan dit peilfouten van meer dan 15° produceren. De oplossing is een multi-hypothese-TDOA-schatter die beide aankomsten expliciet modelleert en elk aan zijn fysieke bron toewijst.

Akoestische detecties integreren in het gemeenschappelijke operationele beeld

Een akoestische detectie die op de edge-knoop blijft, is tactisch nutteloos. De waarde wordt pas gerealiseerd wanneer de detectiegebeurtenis – peiling, classificatie, betrouwbaarheid, tijdstempel, sensorpositie – de operators en geautomatiseerde fusie-engines op de COP bereikt. Het integratiepatroon weerspiegelt wat goed ingeburgerd is voor gedistribueerde militaire sensornetwerken: elke knoop rapporteert lokaal verwerkte resultaten over een beperkte verbinding naar een hub die over knopen samenvoegt.

Voor TAK-ecosysteemintegratie worden akoestische detectiegebeurtenissen gepubliceerd als CoT XML naar de TAK-server. Het CoT-gebeurtenistype voor een akoestische waarneming wordt ontleend aan de CoT-typetaxonomie (b-m-p-s-p-op voor waarneming, of een vijandige typecode als de classificatiebetrouwbaarheid en de regels voor inzet dit toestaan). Het CoT-detailveld bevat gestructureerde uitbreidingselementen: peiling, peilonzekerheid, gebeurtenisklasse, akoestische betrouwbaarheid en een identificatie voor de rapporterende sensorknoop. Het ingebouwde CoT-abonnementsmodel van de TAK-server levert de gebeurtenis binnen 1–3 seconden na de akoestische aanvang aan alle verbonden ATAK-clients.

Multi-knoop-fusie is de capaciteit die peillijnen omzet in positiefixes. Wanneer twee of meer akoestische knopen dezelfde gebeurtenis rapporteren (gematcht op tijdstempel en classificatie binnen een configureerbaar tijdvenster), worden hun peillijnen gesneden met behulp van een gewogen kleinste-kwadratenalgoritme. Het gewicht voor elke peillijn is omgekeerd evenredig met de peilonzekerheid. De samengevoegde positie wordt weergegeven als een 2D-foutellips (CEP) waarvan de grootte groeit met de geometrie van het knopennetwerk en de peilonzekerheden van de bijdragende knopen. Voor een netwerk met twee knopen met een kruisingshoek van 90° en 2° peilonzekerheid per knoop is de CEP op 500 m afstand ongeveer 18 meter – voldoende om een waarnemingsteam aan te sturen of een UAS te richten om te onderzoeken.

Batterijgevoede edge-knopen die werken tijdens communicatieverstoorde periodes slaan detecties lokaal op met nauwkeurige GPS-tijdstempels. Bij herverbinding met het tactische netwerk worden gebufferde gebeurtenissen met hun oorspronkelijke tijdstempels afgespeeld naar de TAK-server, waardoor de akoestische gebeurtenisgeschiedenis op de COP wordt gereconstrueerd voor analyse na de gebeurtenis.

Voeg akoestische detecties samen in uw operationele beeld

Corvus SENSE integreert akoestische sensorknopen, TDOA-peilingschattingen en classificatieresultaten rechtstreeks in het gemeenschappelijke operationele beeld – door CoT-gebeurtenissen naar de TAK-server te publiceren en realtime multi-knoop-fusie over het sensornetwerk te bieden.

Ontdek Corvus SENSE → Boek een briefing

Deze analyse is opgesteld door Corvus Intelligence-engineers die missiekritieke ISR- en veldtoepassingen bouwen voor defensie- en overheidsorganisaties. Lees meer over ons team →