Ääni saapuu ennen kuin näet lähteen. Kiväärin laukaus 500 metristä saavuttaa akustisen anturisolmun alle 1,5 sekunnissa. Telaketjuajoneuvo, joka liikkuu puiden suojassa 2 km:n päässä, tuottaa moottorin yläsäveliä, jotka etenevät maaston yli kauan ennen kuin mikään optinen tai tutka-anturi voi erottaa alustan. Akustinen tekoäly hyödyntää tätä fysiikkaa: luokittelemalla sen, mitä mikrofoniryhmä kuulee – ja laskemalla suunnan elementtien välisistä ajoituseroista – reunalle sijoitettu akustinen solmu voi tuoda yhteiseen tilannekuvaan (COP) tunnistuskerroksen, jota optiset anturit eivät voi toistaa. Tämä artikkeli käy läpi anturifysiikan, piirteiden irrotuksen, koneoppimisarkkitehtuurit, suunta-arvioalgoritmit ja CoT-integraation, jotka tekevät akustisesta reunahavainnoinnista toteuttamiskelpoisen sotilaallisen tekoälykyvyn.

Miksi akustinen havainnointi reunalla?

Operatiivinen peruste reunalle sijoitetuille akustisille antureille perustuu kolmeen ominaisuuteen, joita mikään muu passiivinen havainnointitapa ei jaa.

Passiivinen tunnistus. Akustiset anturit eivät säteile mitään. Toisin kuin tutka tai aktiivinen kaikuluotain, mikrofoniryhmällä ei ole RF-allekirjoitusta, ei laserheijastusta eikä lämpösäteilyä laskentasolmun minimaalisen tehonkulutuksen lisäksi. Tämä tekee akustisista antureista sopivia peiteltyihin valvomattomien maa-antureiden (UGS) sijoituksiin pullonkauloissa, huoltoreittien varrella tai puolustettujen asemien ympärillä, ilman riskiä paljastaa anturin sijainti sen omilla päästöillä.

Läpäisy näkyvien hämärtimien läpi. Akustiset aallot etenevät sumun, savun, kasvillisuuden ja pimeyden läpi paljon vähäisemmällä vaimennuksella kuin näkyvä tai infrapunavalo. Pyöräajoneuvo metsänreunassa, joka on näkymätön EO-droonille, on akustisesti äänekäs. Vallin takana käytössä oleva ryhmäase tuottaa edelleen havaittavan suupamauksen. Akustinen alue tarjoaa havainnointipysyvyyden olosuhteissa, jotka päihittävät optiset järjestelmät.

Pieni teho, pitkä kestoaika. Mikrofoniryhmä mikrokontrolleriluokan päättelymoottorilla kuluttaa 20–100 mW jatkuvassa valvontatilassa. Pieni akkupaketti tarjoaa viikkoja tai kuukausia valvomatonta toimintaa. Sen sijaan maatutka tai jatkuva EO-anturi vaatii suuruusluokkia enemmän tehoa vastaavaan jatkuvaan kattavuuteen. Akustiset anturit täyttävät kestoaikalokeron, jota tehoa kuluttavat anturit eivät voi kattaa.

Anturiryhmän geometria ja TDOA:n fysiikka

Yksittäinen mikrofoni voi havaita ja luokitella akustisia tapahtumia, mutta ei voi määrittää, mistä ne tulevat. Suunnistus vaatii ryhmän – useita mikrofoneja tunnetuissa geometrisissa väleissä – ja saapumisaikaero-algoritmin (TDOA), joka laskee suunnan mikrosekuntieroista siinä, milloin akustinen aaltorintama saavuttaa kunkin elementin.

N mikrofonin lineaariselle ryhmälle välistyksellä d, suurin yksiselitteinen TDOA on d/c, missä c on äänen nopeus (noin 343 m/s 20 °C:ssa, vaihdellen noin 0,6 m/s celsiusasteen kohti). Suunnan ratkaisemiseksi ilman laskostumista elementtien välistys ei saa ylittää puolta aallonpituutta korkeimmalla kiinnostavalla taajuudella – sama tilanäytteistyskriteeri kuin vaiheistetun ryhmän tutkalla. Laukausten luokittelussa, jossa olennainen spektrisisältö ulottuu 10 kHz:iin (aallonpituus ≈ 34 mm), ryhmän välistyksen on oltava alle 17 mm, jotta vältetään moniselitteisyys korkeimmalla taajuudella. Käytännössä tuotannon sotilaalliset akustiset ryhmät käyttävät 2D-järjestelyä (risti, viisikulmio tai kuusikulmio), jossa elementtivälit ovat 10–30 cm:n alueella, ja luottavat suupamauksen matalataajuiseen sisältöön (1–4 kHz) yksiselitteisen suunnan saamiseksi.

Yleistetty ristikorrelaatio vaihemuunnoksella (GCC-PHAT) on vakioalgoritmi TDOA:n arvioimiseksi mikrofonikanavaparin välillä. Se ristikorreloi kaksi kanavasignaalia taajuusalueella, normalisoi ristispektrisuuruudella (”vaihemuunnos”-vaihe) ja löytää aikaviiveen korrelaatiopiikissä. GCC-PHAT on robusti kaiunnalle – normalisointivaihe tukahduttaa monitie-energian – ja tuottaa terävän piikin jopa meluisissa ulkoympäristöissä, kun suoran tien signaali on koherentti kanavien välillä.

Ryhmän kalibrointi ja ympäristökompensaatio

Kaksi käytännön komplikaatiota heikentää TDOA-tarkkuutta kenttäkäytössä. Ensinnäkin todelliset mikrofonisijainnit valmistetussa ryhmässä voivat poiketa nimellisgeometriasta 1–3 mm valmistustoleranssien vuoksi. 48 kHz:n näytteenotolla ja 343 m/s äänen nopeudella 1 mm:n sijaintivirhe vastaa noin 3 µs:n ajoitusvirhettä – vastaa 1°:n suuntavirhettä lyhyellä etäisyydellä 15 cm:n aukolle. Ryhmät tulisi kalibroida kokoamisen jälkeen käyttäen akustista pistelähdettä tunnetussa sijainnissa, sovittaen todelliset sijainnit havaittuihin TDOA-arvoihin.

Toiseksi lämpötila vaikuttaa äänen nopeuteen 0,6 m/s celsiusastetta kohti. 20 °C:n lämpötilanvaihtelu – yleinen yön ja keskipäivän välillä keskileveysasteilla – siirtää äänen nopeutta 12 m/s (3,5 %), mikä etenee suoraan etäisyys- ja suuntavirheeksi, jos lämpötilakompensaatiota ei sovelleta. Akustisten reunasolmujen tulisi sisältää lämpötila-anturi (ja ihanteellisesti kosteus- ja ilmanpaineanturi) äänennopeusarvion päivittämiseksi reaaliajassa.

Piirteiden irrotus äänen luokittelua varten

Akustisten tapahtumien luokittelu laukauksiksi, räjähdyksiksi, ajoneuvoiksi tai taustameluksi vaatii piirteitä, jotka tallentavat kunkin tapahtumaluokan spektrisen ja ajallisen rakenteen ollen samalla riittävän kompakteja käsiteltäväksi reunalaitteistolla viivebudjetin sisällä.

Mel-taajuuden kepstrikertoimet (MFCC). Yleisimmin käytetty kompakti äänipiirre luokittelutehtäviin. MFCC:t kuvaavat signaalin lyhytaikaisen Fourier-muunnoksen mel-asteikon suodatinpankkiin (joka approksimoi ihmisen kuulojärjestelmän taajuusresoluutiota), ja soveltavat sitten diskreettiä kosinimuunnosta suodatinpankin ulostulojen dekorreloimiseksi. Kaksikymmentä–40 kerrointa analyysikehystä kohden tallentaa tapahtuman karkean spektrimuodon. Laukauksen ja ajoneuvon erottelussa avainerotin on korkea- ja matalataajuisen energian suhde: laukaukset keskittävät energian yli 2 kHz:iin lyhyenä impulssimaisena purskeena, kun taas ajoneuvot tuottavat jatkuvaa matalataajuista sisältöä alle 500 Hz:n harmonisella rakenteella.

Log-mel-spektrogrammit. Syväoppimisluokittelijoille log-mel-spektrogrammit – kaksiulotteiset aika-taajuusesitykset mel-asteikolla – antavat mallille pääsyn tapahtuman täydelliseen spektroajalliseen rakenteeseen. 64-kaistainen, 25 ms:n kehys, 10 ms:n hyppy -spektrogrammi 200 ms:n tapahtumaikkunasta tuottaa 64×19-piirrekuvan, jonka pieni CNN luokittelee tarkasti. Log-mel-esitys säilyttää transientin alkurakenteen (kriittinen laukausten tunnistukselle) ja jatkuvat harmoniset kuviot (kriittisiä ajoneuvojen luokittelulle) muodossa, joka soveltuu konvoluutiopohjaiseen piirteenirrotukseen.

Alkamishavainto ja tapahtumasegmentointi. Ennen kuin piirteenirrotus voi käynnistyä, järjestelmän on tunnistettava, että luokittelun arvoinen tapahtuma on tapahtunut. Yksinkertainen energiakynnys laukeaa voimakkaista transienteista, mutta sillä on korkeat väärien hälytysten määrät ukkosesta, metalli-iskuista ja teollisuusmelusta. Parempi lähestymistapa käyttää opittua alkamishavaitsinta – pientä mallia, joka on koulutettu erottamaan akustiset alkamiset, jotka edeltävät luokiteltavia sotilaallisia tapahtumia, kaikista muista transienteista – esisuodattimena. Tämä kaksivaiheinen arkkitehtuuri vähentää pääluokittelijalle syötettyä väärien hälytysten määrää 60–80 % tyypillisissä ulkoteollisuusympäristöissä, 5–10 ms:n ylimääräisen päättelyviiveen kustannuksella.

Koneoppimisarkkitehtuurit akustiseen reunaluokitteluun

Kolme malliperhettä on tuotantokelpoisia akustiseen reunaluokitteluun sotilaallisissa sovelluksissa.

Konvoluutioneuroverkot spektrogrammeilla. Audioon mukautettu MobileNetV2- tai EfficientNet-Lite-arkkitehtuuri (korvaten ImageNet-syöttömuodon spektrogrammimitoilla) saavuttaa 92–96 %:n tarkkuuden neliluokkaisilla akustisten tapahtumien tietojoukoilla (laukaus, ajoneuvo, räjähdys, tausta) alle 20 ms:n päättelyajalla ARM Cortex-M55:llä INT8-kvantisoinnilla. Avainmukautus on suhteellisen kapean ajallisen kontekstin ikkunan käyttö – 200–500 ms – syöttötensorin pitämiseksi riittävän pienenä laitteensisäiselle muistille. Erityisesti laukausten tunnistukseen samat kvantisointi- ja optimointitekniikat, joita käytetään visuaalisessa reunatekoälyssä, soveltuvat suoraan ääni-CNN:ien käyttöönottoon.

Audiotransformerimallit. Audio Spectrogram Transformer (AST) -perheen mallit soveltavat itsetarkkaavaisuutta spektrogrammilaattoihin saavuttaen huipputarkkuuden yleisillä äänen luokittelun vertailutesteissä. Reunalaitteistolla tarkkaavaisuusmekanismi on muistia kuluttavampi kuin konvoluutiot vastaavalla mallikoolla, ja tarkkaavaisuuskerrokset heikkenevät enemmän INT8-kvantisoinnissa kuin konvoluutiokerrokset. Tislatut tiny-AST-variantit 1–5 miljoonalla parametrilla ovat toteutettavissa Cortex-A-luokan prosessoreilla 10–30 ms:n päättelyajalla. Tarkkuusetu CNN-pohjaisiin malleihin verrattuna on vaatimaton (1–3 %) sotilaallisten akustisten tapahtumien luokittelussa, jossa koulutusjoukko on aluekohtainen eikä laaja AudioSet, johon AST suunniteltiin loistamaan.

Toistuvat luokittelijat ajoneuvojen tunnistukseen. Ajoneuvojen luokittelu – pyörällisten erottaminen telaketjuisista, kevyiden raskaista ja tiettyjen alustatyyppien – hyötyy ajallisesta kontekstista, jonka CNN:t tallentavat huonosti lyhyillä ikkunoilla. Kaksisuuntainen LSTM, joka toimii 20–50 MFCC-kehyksen sarjalla (200–500 ms ääntä), tallentaa moottorin yläsävelten kehityksen kuorman ja nopeuden muuttuessa, tuottaen vakaampia ajoneuvotyyppiarvioita useiden sekuntien ikkunoilla. LSTM-luokittelija voi toimia asynkronisesti tapahtumalaukaisinluokittelijan suhteen, päivittäen jatkuvasti ajoneuvotyyppiarviota niin kauan kuin akustinen kontakti säilyy.

Yliäänen ballistinen iskuaalto vastaan suupamaus

Anturia kohti ammuttu kivääri tai raskas ase tuottaa kaksi erillistä akustista tapahtumaa: suupamauksen (kaikkisuuntainen impulssimainen aaltorintama ponnekaasusta) ja ballistisen iskuaallon (yliäänen luodin synnyttämä kartiomainen N-aalto). Nämä saapuvat anturiin eri aikoina kohtaamisen geometrian mukaan, ja niiden välinen aikaero koodaa tietoa aseen tyypistä, lähtönopeudesta ja – kriittisesti – ampujan sijainnista suhteessa kohde-anturi-geometriaan.

Suupamauksen TDOA antaa suunnan kohti asetta. Ballistisen iskuaallon TDOA antaa luodin lentoradan suunnan. Yhdistämällä molemmat arviot oikein koulutettu luokittelija ja arvioija voi määrittää, ammuttiinko ase kohti, poispäin vai poikittain anturin sijaintia. Tämä kyky – tulevan tulen erottaminen lähtevästä – on selvästi operatiivisesti arvokas puolustusasentopäätöksille. Järjestelmät, jotka luokittelevat vain suupamauksen perusteella erottamatta iskuaaltokomponenttia, raportoivat systemaattisesti ampujan suunnan väärin kulmalla, joka kasvaa ampuja–anturi-etäisyyden mukaan.

Keskeinen oivallus: Yleisin luokitteluvirhe käytössä olevissa akustisissa laukaustunnistimissa ei ole malli – se on epäonnistuminen suupamauksen erottamisessa ballistisesta iskuaallosta ennen suunta-arvion ajamista. Yksipiikkinen TDOA-arvioija, joka ei mallinna molempia saapumisia, raportoi suunnan, joka on kahden etenemissuunnan painotettu keskiarvo, vinoutuneena sitä tapahtumaa kohti, jolla on korkeampi SNR ryhmässä. Yli 200 metrin etäisyyksien kohtaamisissa tämä voi tuottaa yli 15°:n suuntavirheitä. Ratkaisu on monihypoteesinen TDOA-arvioija, joka mallintaa molemmat saapumiset eksplisiittisesti ja osoittaa kunkin fyysiseen lähteeseensä.

Akustisten tunnistusten integrointi yhteiseen tilannekuvaan

Akustinen tunnistus, joka jää reunasolmuun, on taktisesti hyödytön. Arvo realisoituu vasta, kun tunnistustapahtuma – suunta, luokittelu, luottamus, aikaleima, anturin sijainti – tavoittaa operaattorit ja automatisoidut sulautusmoottorit COP:lla. Integraatiomalli heijastaa sitä, mikä on hyvin vakiintunut hajautetuille sotilaallisille anturiverkoille: jokainen solmu raportoi paikallisesti käsitellyt tulokset rajoitetun linkin kautta keskittimelle, joka sulauttaa solmujen kesken.

TAK-ekosysteemin integraatiota varten akustiset tunnistustapahtumat julkaistaan CoT XML:nä TAK-palvelimelle. Akustisen havainnon CoT-tapahtumatyyppi otetaan CoT-tyyppitaksonomiasta (b-m-p-s-p-op havainnolle tai vihamielinen tyyppikoodi, jos luokitteluluottamus ja taistelusäännöt sallivat). CoT-yksityiskohtakenttä kantaa jäsenneltyjä laajennuselementtejä: suunta, suuntaepävarmuus, tapahtumaluokka, akustinen luottamus ja tunniste raportoivalle anturisolmulle. TAK-palvelimen sisäänrakennettu CoT-tilausmalli toimittaa tapahtuman kaikille yhdistetyille ATAK-asiakkaille 1–3 sekunnin sisällä akustisesta alkamishetkestä.

Monisolmu-sulautus on kyky, joka muuttaa suuntaviivat sijaintikiinnityksiksi. Kun kaksi tai useampi akustinen solmu raportoi saman tapahtuman (täsmätty aikaleiman ja luokittelun mukaan konfiguroitavan aikaikkunan sisällä), niiden suuntaviivat leikataan painotetulla pienimmän neliösumman algoritmilla. Kunkin suuntaviivan paino on kääntäen verrannollinen suuntaepävarmuuteen. Sulautettu sijainti esitetään 2D-virhe-ellipsinä (CEP), jonka koko kasvaa solmuverkon geometrian ja myötävaikuttavien solmujen suuntaepävarmuuksien mukaan. Kahden solmun verkolle 90°:n risteyskulmalla ja 2°:n suuntaepävarmuudella solmua kohden CEP 500 m:n etäisyydellä on noin 18 metriä – riittävä ohjaamaan tarkkailuryhmää tai suuntaamaan UAS:n tutkimaan.

Akkukäyttöiset reunasolmut, jotka toimivat viestintäkielletyissä jaksoissa, tallentavat tunnistukset paikallisesti tarkoilla GPS-aikaleimoilla. Yhdistettäessä uudelleen taktiseen verkkoon puskuroidut tapahtumat toistetaan TAK-palvelimelle alkuperäisillä aikaleimoillaan, rekonstruoiden akustisen tapahtumahistorian COP:lla tapahtuman jälkeistä analyysiä varten.

Sulauta akustiset tunnistukset operatiiviseen kuvaasi

Corvus SENSE integroi akustiset anturisolmut, TDOA-suunta-arviot ja luokittelutulokset suoraan yhteiseen tilannekuvaan – julkaisten CoT-tapahtumia TAK-palvelimelle ja tarjoten monisolmu-sulautuksen anturiverkon yli reaaliajassa.

Tutustu Corvus SENSEen → Varaa briefing

Tämän analyysin laativat Corvus Intelligence -insinöörit, jotka rakentavat tehtäväkriittisiä ISR- ja kenttäsovelluksia puolustus- ja valtionhallinnon organisaatioille. Lue lisää tiimistämme →