Sunetul ajunge înainte de a vedea sursa. Un foc de pușcă la 500 de metri ajunge la un nod senzor acustic în mai puțin de 1,5 secunde. Un vehicul pe șenile care se deplasează sub acoperirea copacilor la 2 km produce armonice de motor care se propagă peste teren cu mult înainte ca un senzor optic sau radar să poată rezolva platforma. IA de detecție acustică exploatează această fizică: prin clasificarea a ceea ce aude o rețea de microfoane – și calcularea relevmentului din diferențele de sincronizare dintre elemente – un nod acustic desfășurat la edge poate contribui cu un strat de detecție la imaginea operațională comună (COP) pe care senzorii optici nu îl pot replica. Acest articol parcurge fizica senzorilor, extracția caracteristicilor, arhitecturile de învățare automată, algoritmii de estimare a relevmentului și integrarea CoT care fac din detecția acustică la edge o capabilitate de IA militară viabilă.

De ce detecție acustică la edge?

Argumentul operațional pentru senzorii acustici desfășurați la edge se bazează pe trei proprietăți pe care nicio altă modalitate de detecție pasivă nu le împărtășește.

Detecție pasivă. Senzorii acustici nu emit nimic. Spre deosebire de radar sau sonarul activ, o rețea de microfoane nu are semnătură RF, nu are întoarcere laser și nu are nicio ieșire termică dincolo de consumul minim de putere al nodului de calcul. Acest lucru face senzorii acustici potriviți pentru desfășurări discrete de senzori terestri nesupravegheați (UGS) la puncte de trecere obligatorii, de-a lungul rutelor de aprovizionare sau în jurul pozițiilor apărate, fără riscul de a dezvălui poziția senzorului prin propriile emisii.

Penetrarea obscurantelor vizuale. Undele acustice se propagă prin ceață, fum, vegetație și întuneric cu o atenuare mult mai mică decât lumina vizibilă sau infraroșie. Un vehicul cu roți într-o perdea de copaci care este invizibil pentru o dronă EO este zgomotos din punct de vedere acustic. O armă de echipaj angajată în spatele unui parapet produce încă un suflu de gură detectabil. Domeniul acustic oferă persistență de detecție în condiții care înfrâng sistemele optice.

Consum redus, autonomie mare. O rețea de microfoane cu un motor de inferență de clasa microcontroler consumă 20–100 mW în modul de monitorizare continuă. Un mic pachet de baterii oferă săptămâni până la luni de funcționare nesupravegheată. În schimb, un radar terestru sau un senzor EO persistent necesită cu ordine de mărime mai multă putere pentru o acoperire continuă comparabilă. Senzorii acustici umplu nișa de autonomie pe care senzorii alimentați nu o pot acoperi.

Geometria rețelei de senzori și fizica TDOA

Un singur microfon poate detecta și clasifica evenimente acustice, dar nu poate determina de unde provin. Radiogoniometria necesită o rețea – mai multe microfoane la separări geometrice cunoscute – și un algoritm de diferență de timp de sosire (TDOA) care calculează relevmentul din diferențele de microsecunde în momentul în care frontul de undă acustic atinge fiecare element.

Pentru o rețea liniară de N microfoane cu spațierea d, TDOA maximă fără ambiguitate este d/c, unde c este viteza sunetului (aproximativ 343 m/s la 20°C, variind cu aproximativ 0,6 m/s pe grad Celsius). Pentru a rezolva relevmentul fără aliere, spațierea dintre elemente nu trebuie să depășească jumătate din lungimea de undă la cea mai înaltă frecvență de interes – același criteriu de eșantionare spațială ca radarul cu fază în matrice. Pentru clasificarea împușcăturilor, unde conținutul spectral relevant se extinde până la 10 kHz (lungime de undă ≈ 34 mm), spațierea rețelei trebuie să fie sub 17 mm pentru a evita ambiguitatea la cea mai înaltă frecvență. În practică, rețelele acustice militare de producție folosesc un aranjament 2D (cruce, pentagon sau hexagon) cu spațieri de elemente în intervalul 10–30 cm și se bazează pe conținutul de frecvență joasă al suflului de gură (1–4 kHz) pentru un relevment fără ambiguitate.

Corelația încrucișată generalizată cu transformata de fază (GCC-PHAT) este algoritmul standard pentru estimarea TDOA între o pereche de canale de microfon. Aceasta corelează încrucișat cele două semnale de canal în domeniul frecvenței, normalizează prin magnitudinea inter-spectrală (pasul „transformatei de fază”) și găsește decalajul de timp la vârful de corelație. GCC-PHAT este robust la reverberație – pasul de normalizare suprimă energia multidrum – și produce un vârf clar chiar și în medii exterioare zgomotoase atunci când semnalul pe cale directă este coerent între canale.

Calibrarea rețelei și compensarea de mediu

Două complicații practice degradează precizia TDOA în desfășurarea pe teren. În primul rând, pozițiile reale ale microfoanelor într-o rețea fabricată pot diferi de geometria nominală cu 1–3 mm din cauza toleranțelor de fabricație. La eșantionare de 48 kHz și viteza sunetului de 343 m/s, 1 mm de eroare de poziție corespunde la aproximativ 3 µs de eroare de sincronizare – echivalentul unei erori de relevment de 1° la distanță scurtă pentru o apertură de 15 cm. Rețelele ar trebui calibrate după asamblare folosind o sursă acustică punctuală într-o poziție cunoscută, ajustând pozițiile reale la TDOA-urile observate.

În al doilea rând, temperatura afectează viteza sunetului cu 0,6 m/s pe °C. O variație de temperatură de 20°C – obișnuită între noapte și miezul zilei la latitudini medii – deplasează viteza sunetului cu 12 m/s (3,5%), ceea ce se propagă direct în eroarea de distanță și relevment dacă compensarea temperaturii nu este aplicată. Nodurile acustice de edge ar trebui să includă un senzor de temperatură (și ideal un senzor de umiditate și presiune barometrică) pentru a actualiza estimarea vitezei sunetului în timp real.

Extracția caracteristicilor pentru clasificarea audio

Clasificarea evenimentelor acustice ca împușcături, explozii, vehicule sau zgomot ambiental necesită caracteristici care captează structura spectrală și temporală a fiecărei clase de eveniment, fiind în același timp suficient de compacte pentru a fi procesate pe hardware de edge în cadrul bugetului de latență.

Coeficienții cepstrali la frecvență mel (MFCC). Cea mai utilizată caracteristică audio compactă pentru sarcinile de clasificare. MFCC mapează transformata Fourier de scurtă durată a unui semnal pe un banc de filtre la scară mel (care aproximează rezoluția de frecvență a sistemului auditiv uman), apoi aplică o transformată cosinus discretă pentru a decorela ieșirile bancului de filtre. Douăzeci până la 40 de coeficienți pe cadru de analiză captează forma spectrală generală a evenimentului. Pentru discriminarea împușcătură versus vehicul, discriminantul cheie este raportul dintre energia de înaltă frecvență și cea de joasă frecvență: împușcăturile concentrează energia peste 2 kHz într-o scurtă rafală impulsivă, în timp ce vehiculele produc conținut susținut de joasă frecvență sub 500 Hz cu structură armonică.

Spectrograme log-mel. Pentru clasificatoarele de învățare profundă, spectrogramele log-mel – reprezentări timp-frecvență bidimensionale pe o scară mel – oferă modelului acces la structura spectrotemporală completă a evenimentului. O spectrogramă cu 64 de benzi, cadru de 25 ms, salt de 10 ms a unei ferestre de eveniment de 200 ms produce o imagine de caracteristici 64×19 pe care un mic CNN o clasifică cu precizie. Reprezentarea log-mel păstrează structura tranzitorie de debut (esențială pentru detecția împușcăturilor) și tiparele armonice susținute (esențiale pentru clasificarea vehiculelor) într-un format propice extracției de caracteristici prin convoluție.

Detecția debutului și segmentarea evenimentelor. Înainte ca extracția de caracteristici să poată rula, sistemul trebuie să identifice că a avut loc un eveniment care merită clasificat. Un simplu prag de energie se declanșează la tranzitorii puternici, dar are rate ridicate de alarme false de la tunet, impacturi metalice și zgomot industrial. O abordare mai bună folosește un detector de debut învățat – un model mic antrenat să distingă debuturile acustice care preced evenimente militare clasificabile de toate celelalte tranzitorii – ca prefiltru. Această arhitectură în două etape reduce rata de alarme false transmisă clasificatorului principal cu 60–80% în mediile industriale exterioare tipice, cu prețul a 5–10 ms suplimentare de latență de inferență.

Arhitecturi de învățare automată pentru clasificarea acustică la edge

Trei familii de modele sunt viabile în producție pentru clasificarea acustică la edge în aplicațiile militare.

Rețele neuronale convoluționale pe spectrograme. O arhitectură MobileNetV2 sau EfficientNet-Lite adaptată pentru audio (înlocuind forma de intrare ImageNet cu dimensiunile spectrogramei) atinge o precizie de 92–96% pe seturi de date de evenimente acustice cu patru clase (împușcătură, vehicul, explozie, ambiental) la mai puțin de 20 ms timp de inferență pe un ARM Cortex-M55 cu cuantificare INT8. Adaptarea cheie este utilizarea unei ferestre de context temporal relativ înguste – 200–500 ms – pentru a păstra tensorul de intrare suficient de mic pentru memoria de pe dispozitiv. Specific pentru detecția împușcăturilor, aceleași tehnici de cuantificare și optimizare folosite în IA vizuală la edge se aplică direct la desfășurarea CNN-urilor audio.

Modele de transformator audio. Modelele din familia Audio Spectrogram Transformer (AST) aplică auto-atenția pe peticele de spectrogramă, atingând precizie de ultimă generație pe benchmark-urile de clasificare audio generală. Pe hardware-ul de edge, mecanismul de atenție este mai intensiv în memorie decât convoluțiile la dimensiune echivalentă a modelului, iar straturile de atenție se degradează mai mult sub cuantificarea INT8 decât straturile convoluționale. Variantele tiny-AST distilate cu 1–5 milioane de parametri sunt fezabile pe procesoare de clasa Cortex-A la un timp de inferență de 10–30 ms. Avantajul de precizie față de modelele bazate pe CNN este modest (1–3%) pentru clasificarea evenimentelor acustice militare, unde setul de antrenament este specific domeniului, mai degrabă decât vastul AudioSet pentru care AST a fost conceput să exceleze.

Clasificatoare recurente pentru identificarea vehiculelor. Clasificarea vehiculelor – distingerea celor cu roți de cele pe șenile, ușoare de grele și tipuri specifice de platforme – beneficiază de context temporal pe care CNN-urile îl captează slab cu ferestre scurte. Un LSTM bidirecțional care operează pe o secvență de 20–50 de cadre MFCC (200–500 ms de audio) captează evoluția armonicelor motorului pe măsură ce sarcina și viteza se schimbă, producând estimări mai stabile ale tipului de vehicul pe ferestre de mai multe secunde. Clasificatorul LSTM poate rula asincron față de clasificatorul de declanșare a evenimentelor, actualizând continuu o estimare a tipului de vehicul atâta timp cât contactul acustic este menținut.

Unda de șoc balistică supersonică versus suflul de gură

O pușcă sau o armă grea trasă spre un senzor produce două evenimente acustice distincte: suflul de gură (un front de undă impulsiv omnidirecțional de la gazul propulsor) și unda de șoc balistică (o undă N conică generată de proiectilul supersonic). Acestea ajung la senzor la momente diferite în funcție de geometria angajamentului, iar diferența de timp dintre ele codifică informații despre tipul de armă, viteza la gura țevii și – în mod critic – poziția trăgătorului în raport cu geometria țintă-senzor.

TDOA suflului de gură oferă direcția spre armă. TDOA undei de șoc balistice oferă direcția traiectoriei proiectilului. Combinând ambele estimări, un clasificator și estimator antrenat corespunzător poate determina dacă arma a fost trasă spre, departe de sau de-a curmezișul poziției senzorului. Această capabilitate – distingerea focului care vine de cel care pleacă – are o valoare operațională evidentă pentru deciziile de postură defensivă. Sistemele care clasifică doar pe baza suflului de gură fără a separa componenta undei de șoc raportează sistematic greșit relevmentul trăgătorului cu un unghi care crește odată cu distanța trăgător-senzor.

Perspectivă cheie: Cel mai frecvent eșec de clasificare în detectoarele acustice de împușcături desfășurate nu este modelul – este eșecul de a separa suflul de gură de unda de șoc balistică înainte de rularea estimării relevmentului. Un estimator TDOA cu vârf unic care nu modelează ambele sosiri va raporta un relevment care este o medie ponderată a celor două direcții de propagare, deplasat spre evenimentul cu SNR mai mare la rețea. Pentru angajamente la distanțe peste 200 de metri, acest lucru poate produce erori de relevment care depășesc 15°. Soluția este un estimator TDOA cu ipoteze multiple care modelează explicit ambele sosiri și atribuie fiecăreia sursa sa fizică.

Integrarea detecțiilor acustice în imaginea operațională comună

O detecție acustică care rămâne pe nodul de edge este inutilă din punct de vedere tactic. Valoarea este realizată doar atunci când evenimentul de detecție – relevment, clasificare, încredere, marcaj temporal, poziția senzorului – ajunge la operatori și la motoarele de fuziune automatizate de pe COP. Tiparul de integrare reflectă ceea ce este bine stabilit pentru rețelele de senzori militari distribuite: fiecare nod raportează rezultate procesate local pe o legătură constrânsă către un hub care fuzionează între noduri.

Pentru integrarea în ecosistemul TAK, evenimentele de detecție acustică sunt publicate ca CoT XML către serverul TAK. Tipul de eveniment CoT pentru o observație acustică este extras din taxonomia de tipuri CoT (b-m-p-s-p-op pentru observație sau un cod de tip ostil dacă încrederea în clasificare și regulile de angajare permit). Câmpul de detaliu CoT poartă elemente de extensie structurate: relevment, incertitudinea relevmentului, clasa evenimentului, încrederea acustică și un identificator pentru nodul senzor raportor. Modelul de abonament CoT integrat al serverului TAK livrează evenimentul tuturor clienților ATAK conectați în termen de 1–3 secunde de la debutul acustic.

Fuziunea pe mai multe noduri este capabilitatea care transformă liniile de relevment în fixări de poziție. Când două sau mai multe noduri acustice raportează același eveniment (corelat după marcaj temporal și clasificare într-o fereastră de timp configurabilă), liniile lor de relevment sunt intersectate folosind un algoritm ponderat al celor mai mici pătrate. Greutatea fiecărei linii de relevment este invers proporțională cu incertitudinea relevmentului. Poziția fuzionată este reprezentată ca o elipsă de eroare 2D (CEP) a cărei dimensiune crește odată cu geometria rețelei de noduri și incertitudinile de relevment ale nodurilor contribuitoare. Pentru o rețea cu două noduri cu un unghi de încrucișare de 90° și o incertitudine de relevment de 2° per nod, CEP la distanța de 500 m este de aproximativ 18 metri – suficient pentru a orienta o echipă de observare sau a dirija un UAS pentru investigare.

Nodurile de edge alimentate de baterie care operează în perioade cu comunicații refuzate stochează detecțiile local cu marcaje temporale GPS precise. La reconectarea la rețeaua tactică, evenimentele tamponate sunt redate către serverul TAK cu marcajele lor temporale originale, reconstruind istoricul evenimentelor acustice pe COP pentru analiza post-eveniment.

Fuzionați detecțiile acustice în imaginea dvs. operațională

Corvus SENSE integrează nodurile senzorilor acustici, estimările de relevment TDOA și rezultatele clasificării direct în imaginea operațională comună – publicând evenimente CoT către serverul TAK și oferind fuziune pe mai multe noduri în rețeaua de senzori în timp real.

Explorați Corvus SENSE → Rezervați un briefing

Această analiză a fost pregătită de inginerii Corvus Intelligence care construiesc aplicații ISR și de teren critice pentru misiune pentru organizații de apărare și guvernamentale. Aflați despre echipa noastră →