Dźwięk dociera, zanim zobaczysz źródło. Strzał karabinowy na 500 metrów dociera do węzła czujnika akustycznego w niespełna 1,5 sekundy. Pojazd gąsienicowy poruszający się pod osłoną drzew na 2 km wytwarza harmoniczne silnika, które rozchodzą się po terenie na długo przed tym, zanim jakikolwiek czujnik optyczny lub radarowy zdoła rozróżnić platformę. Akustyczna AI wykorzystuje tę fizykę: klasyfikując to, co słyszy macierz mikrofonów – i obliczając namiar z różnic czasowych między elementami – brzegowo wdrożony węzeł akustyczny może wnieść do wspólnego obrazu operacyjnego (COP) warstwę detekcji, której czujniki optyczne nie potrafią odtworzyć. Ten artykuł przeprowadza przez fizykę czujników, ekstrakcję cech, architektury uczenia maszynowego, algorytmy estymacji namiaru i integrację CoT, które czynią brzegowe wykrywanie akustyczne wykonalną wojskową zdolnością AI.

Dlaczego wykrywanie akustyczne na brzegu sieci?

Argument operacyjny za brzegowo wdrożonymi czujnikami akustycznymi opiera się na trzech właściwościach, których nie dzieli żadna inna pasywna modalność wykrywania.

Wykrywanie pasywne. Czujniki akustyczne niczego nie emitują. W przeciwieństwie do radaru czy aktywnego sonaru macierz mikrofonów nie ma podpisu RF, zwrotu laserowego ani wyjścia termicznego poza minimalnym poborem mocy węzła obliczeniowego. To czyni czujniki akustyczne odpowiednimi do ukrytych wdrożeń bezobsługowych czujników naziemnych (UGS) w wąskich gardłach, wzdłuż tras zaopatrzenia lub wokół bronionych pozycji, bez ryzyka zdradzenia pozycji czujnika przez jego własne emisje.

Penetracja przez przesłony wizualne. Fale akustyczne rozchodzą się przez mgłę, dym, roślinność i ciemność ze znacznie mniejszym tłumieniem niż światło widzialne czy podczerwone. Pojazd kołowy w pasie drzew, niewidoczny dla drona EO, jest akustycznie głośny. Zaangażowana broń załogowa za nasypem nadal wytwarza wykrywalny wystrzał wylotowy. Domena akustyczna zapewnia trwałość wykrywania w warunkach pokonujących systemy optyczne.

Niska moc, długa żywotność. Macierz mikrofonów z silnikiem wnioskowania klasy mikrokontrolera zużywa 20–100 mW w trybie ciągłego monitorowania. Mały pakiet baterii zapewnia tygodnie do miesięcy bezobsługowej pracy. Dla kontrastu radar naziemny lub trwały czujnik EO wymaga rzędy wielkości więcej mocy dla porównywalnego ciągłego pokrycia. Czujniki akustyczne wypełniają niszę żywotności, której czujniki zasilane nie mogą.

Geometria macierzy czujników i fizyka TDOA

Pojedynczy mikrofon może wykrywać i klasyfikować zdarzenia akustyczne, ale nie potrafi określić, skąd pochodzą. Namierzanie wymaga macierzy – wielu mikrofonów w znanych separacjach geometrycznych – i algorytmu różnicy czasu nadejścia (TDOA), który oblicza namiar z mikrosekundowych różnic w tym, kiedy front fali akustycznej dociera do każdego elementu.

Dla liniowej macierzy N mikrofonów o rozstawie d maksymalne jednoznaczne TDOA wynosi d/c, gdzie c to prędkość dźwięku (około 343 m/s przy 20°C, zmienna o około 0,6 m/s na stopień Celsjusza). Aby rozwiązać namiar bez aliasingu, rozstaw między elementami nie może przekraczać połowy długości fali na najwyższej interesującej częstotliwości – tego samego kryterium próbkowania przestrzennego co radar z anteną fazowaną. Dla klasyfikacji wystrzałów, gdzie istotna zawartość spektralna sięga 10 kHz (długość fali ≈ 34 mm), rozstaw macierzy musi być poniżej 17 mm, aby uniknąć niejednoznaczności na najwyższej częstotliwości. W praktyce produkcyjne wojskowe macierze akustyczne używają układu 2D (krzyż, pięciokąt lub sześciokąt) z rozstawem elementów w zakresie 10–30 cm i polegają na niższoczęstotliwościowej zawartości wystrzału wylotowego (1–4 kHz) dla jednoznacznego namiaru.

Uogólniona korelacja krzyżowa z transformatą fazową (GCC-PHAT) to standardowy algorytm estymacji TDOA między parą kanałów mikrofonów. Koreluje krzyżowo sygnały dwóch kanałów w dziedzinie częstotliwości, normalizuje przez wielkość widma krzyżowego (krok „transformaty fazowej") i znajduje opóźnienie czasowe w szczycie korelacji. GCC-PHAT jest odporny na pogłos – krok normalizacji tłumi energię wielodrogową – i wytwarza ostry szczyt nawet w hałaśliwych środowiskach zewnętrznych, gdy sygnał ścieżki bezpośredniej jest spójny między kanałami.

Kalibracja macierzy i kompensacja środowiskowa

Dwa praktyczne komplikacje degradują dokładność TDOA we wdrożeniu polowym. Po pierwsze, rzeczywiste pozycje mikrofonów w wyprodukowanej macierzy mogą różnić się od geometrii nominalnej o 1–3 mm z powodu tolerancji produkcyjnych. Przy próbkowaniu 48 kHz i prędkości dźwięku 343 m/s 1 mm błędu pozycji odpowiada około 3 µs błędu czasowego – równoważnego błędowi namiaru 1° na krótkim dystansie dla apertury 15 cm. Macierze należy kalibrować po montażu za pomocą akustycznego źródła punktowego w znanej pozycji, dopasowując rzeczywiste pozycje do obserwowanych TDOA.

Po drugie, temperatura wpływa na prędkość dźwięku o 0,6 m/s na °C. Wahanie temperatury 20°C – powszechne między nocą a południem w średnich szerokościach – przesuwa prędkość dźwięku o 12 m/s (3,5%), co przekłada się bezpośrednio na błąd zasięgu i namiaru, jeśli kompensacja temperatury nie jest stosowana. Brzegowe węzły akustyczne powinny zawierać czujnik temperatury (a najlepiej czujnik wilgotności i ciśnienia barometrycznego) do aktualizacji estymacji prędkości dźwięku w czasie rzeczywistym.

Ekstrakcja cech do klasyfikacji audio

Klasyfikacja zdarzeń akustycznych jako wystrzałów, eksplozji, pojazdów lub szumu otoczenia wymaga cech ujmujących strukturę spektralną i czasową każdej klasy zdarzeń, będąc zarazem na tyle zwartymi, by przetwarzać je na sprzęcie brzegowym w ramach budżetu opóźnień.

Melowo-częstotliwościowe współczynniki cepstralne (MFCC). Najszerzej stosowana zwarta cecha audio do zadań klasyfikacji. MFCC mapują krótkoczasową transformatę Fouriera sygnału na bank filtrów w skali melowej (który przybliża rozdzielczość częstotliwościową ludzkiego układu słuchowego), a następnie stosują dyskretną transformatę kosinusową do dekorelacji wyjść banku filtrów. Dwadzieścia do 40 współczynników na ramkę analizy ujmuje szeroki kształt spektralny zdarzenia. Dla rozróżnienia wystrzału kontra pojazdu kluczowym dyskryminatorem jest stosunek energii wysokoczęstotliwościowej do niskoczęstotliwościowej: wystrzały koncentrują energię powyżej 2 kHz w krótkim impulsowym wybuchu, podczas gdy pojazdy wytwarzają trwałą zawartość niskoczęstotliwościową poniżej 500 Hz ze strukturą harmoniczną.

Logarytmiczne spektrogramy melowe. Dla klasyfikatorów głębokiego uczenia logarytmiczne spektrogramy melowe – dwuwymiarowe reprezentacje czasowo-częstotliwościowe w skali melowej – dają modelowi dostęp do pełnej struktury spektrotemporalnej zdarzenia. Spektrogram 64-pasmowy, 25 ms ramka, 10 ms skok okna zdarzenia 200 ms wytwarza obraz cech 64×19, który mała CNN klasyfikuje dokładnie. Reprezentacja logarytmiczno-melowa zachowuje przejściową strukturę początku (krytyczną dla wykrywania wystrzałów) i trwałe wzorce harmoniczne (krytyczne dla klasyfikacji pojazdów) w formacie podatnym na splotową ekstrakcję cech.

Wykrywanie początku i segmentacja zdarzeń. Zanim ekstrakcja cech może się uruchomić, system musi zidentyfikować, że wystąpiło zdarzenie warte sklasyfikowania. Prosty próg energii wyzwala się na głośnych przejściach, ale ma wysokie wskaźniki fałszywych alarmów od grzmotów, uderzeń metalu i hałasu przemysłowego. Lepsze podejście wykorzystuje wyuczony detektor początku – mały model wytrenowany do odróżniania początków akustycznych poprzedzających klasyfikowalne zdarzenia wojskowe od wszystkich innych przejść – jako pre-filtr. Ta dwuetapowa architektura redukuje wskaźnik fałszywych alarmów podawany do głównego klasyfikatora o 60–80% w typowych zewnętrznych środowiskach przemysłowych, kosztem dodatkowych 5–10 ms opóźnienia wnioskowania.

Architektury uczenia maszynowego do brzegowej klasyfikacji akustycznej

Trzy rodziny modeli są wykonalne produkcyjnie do brzegowej klasyfikacji akustycznej w zastosowaniach wojskowych.

Splotowe sieci neuronowe na spektrogramach. Architektura MobileNetV2 lub EfficientNet-Lite dostosowana do audio (zastępując kształt wejścia ImageNet wymiarami spektrogramu) osiąga 92–96% dokładności na czteroklasowych zbiorach zdarzeń akustycznych (wystrzał, pojazd, eksplozja, otoczenie) przy poniżej 20 ms czasu wnioskowania na ARM Cortex-M55 z kwantyzacją INT8. Kluczową adaptacją jest użycie stosunkowo wąskiego okna kontekstu czasowego – 200–500 ms – aby utrzymać tensor wejściowy na tyle małym dla pamięci na urządzeniu. Dla wykrywania wystrzałów w szczególności te same techniki kwantyzacji i optymalizacji używane w wizyjnej brzegowej AI stosują się bezpośrednio do wdrożenia audio CNN.

Modele transformera audio. Modele z rodziny Audio Spectrogram Transformer (AST) stosują samouwagę między łatkami spektrogramu, osiągając najnowocześniejszą dokładność na ogólnych benchmarkach klasyfikacji audio. Na sprzęcie brzegowym mechanizm uwagi jest bardziej pamięciochłonny niż sploty przy równoważnym rozmiarze modelu, a warstwy uwagi degradują się bardziej pod kwantyzacją INT8 niż warstwy splotowe. Destylowane maleńkie warianty AST z 1–5 milionami parametrów są wykonalne na procesorach klasy Cortex-A przy 10–30 ms czasu wnioskowania. Przewaga dokładności nad modelami opartymi na CNN jest skromna (1–3%) dla wojskowej klasyfikacji zdarzeń akustycznych, gdzie zbiór treningowy jest specyficzny dziedzinowo, a nie szeroki AudioSet, na którym AST zaprojektowano do osiągania doskonałości.

Klasyfikatory rekurencyjne do identyfikacji pojazdów. Klasyfikacja pojazdów – rozróżnianie kołowych od gąsienicowych, lekkich od ciężkich i konkretnych typów platform – korzysta z kontekstu czasowego, który CNN słabo ujmują przy krótkich oknach. Dwukierunkowa LSTM działająca na sekwencji 20–50 ramek MFCC (200–500 ms audio) ujmuje ewolucję harmonicznych silnika, gdy zmienia się obciążenie i prędkość, wytwarzając stabilniejsze estymacje typu pojazdu w oknach wielosekundowych. Klasyfikator LSTM może działać asynchronicznie względem klasyfikatora wyzwalacza zdarzeń, ciągle aktualizując estymację typu pojazdu, dopóki utrzymywany jest kontakt akustyczny.

Naddźwiękowa balistyczna fala uderzeniowa kontra wystrzał wylotowy

Karabin lub ciężka broń wystrzelona w stronę czujnika wytwarza dwa odrębne zdarzenia akustyczne: wystrzał wylotowy (wszechkierunkowy impulsowy front fali od gazów prochowych) i balistyczną falę uderzeniową (stożkową falę N generowaną przez naddźwiękowy pocisk). Docierają one do czujnika w różnym czasie w zależności od geometrii starcia, a różnica czasowa między nimi koduje informacje o typie broni, prędkości wylotowej i – co kluczowe – położeniu strzelca względem geometrii cel-czujnik.

TDOA wystrzału wylotowego daje kierunek ku broni. TDOA balistycznej fali uderzeniowej daje kierunek trajektorii pocisku. Łącząc obie estymacje, właściwie wytrenowany klasyfikator i estymator mogą określić, czy broń została wystrzelona w stronę, od czy w poprzek pozycji czujnika. Ta zdolność – odróżnianie ognia przychodzącego od wychodzącego – ma oczywistą wartość operacyjną dla decyzji o postawie obronnej. Systemy klasyfikujące jedynie na podstawie wystrzału wylotowego bez oddzielenia składowej fali uderzeniowej będą systematycznie błędnie raportować namiar strzelca o kąt rosnący z zasięgiem strzelec-czujnik.

Kluczowy wniosek: Najczęstsza awaria klasyfikacji we wdrożonych akustycznych detektorach wystrzałów to nie model – to niezdolność oddzielenia wystrzału wylotowego od balistycznej fali uderzeniowej przed uruchomieniem estymacji namiaru. Jednoszczytowy estymator TDOA niemodelujący obu nadejść zgłosi namiar będący ważoną średnią dwóch kierunków propagacji, przesunięty ku temu zdarzeniu, które ma wyższy SNR w macierzy. Dla starć na dystansach powyżej 200 metrów może to wytworzyć błędy namiaru przekraczające 15°. Naprawą jest wielohipotezowy estymator TDOA, który jawnie modeluje oba nadejścia i przypisuje każde jego fizycznemu źródłu.

Integracja detekcji akustycznych ze wspólnym obrazem operacyjnym

Detekcja akustyczna, która pozostaje na węźle brzegowym, jest taktycznie bezużyteczna. Wartość realizuje się dopiero, gdy zdarzenie detekcji – namiar, klasyfikacja, pewność, znacznik czasu, pozycja czujnika – dociera do operatorów i zautomatyzowanych silników fuzji na COP. Wzorzec integracji odzwierciedla to, co dobrze ugruntowane dla rozproszonych wojskowych sieci czujników: każdy węzeł raportuje lokalnie przetworzone wyniki przez ograniczone łącze do koncentratora, który łączy dane między węzłami.

Dla integracji z ekosystemem TAK zdarzenia detekcji akustycznej są publikowane jako CoT XML na serwer TAK. Typ zdarzenia CoT dla obserwacji akustycznej jest czerpany z taksonomii typów CoT (b-m-p-s-p-op dla obserwacji lub kod typu wrogiego, jeśli pewność klasyfikacji i zasady użycia siły na to pozwalają). Pole szczegółów CoT niesie ustrukturyzowane elementy rozszerzenia: namiar, niepewność namiaru, klasę zdarzenia, pewność akustyczną oraz identyfikator raportującego węzła czujnika. Wbudowany model subskrypcji CoT serwera TAK dostarcza zdarzenie do wszystkich podłączonych klientów ATAK w ciągu 1–3 sekund od początku akustycznego.

Fuzja wielowęzłowa to zdolność przekształcająca linie namiaru w wyznaczenia pozycji. Gdy dwa lub więcej węzłów akustycznych raportuje to samo zdarzenie (dopasowane po znaczniku czasu i klasyfikacji w ramach konfigurowalnego okna czasowego), ich linie namiaru są przecinane za pomocą ważonego algorytmu najmniejszych kwadratów. Waga dla każdej linii namiaru jest odwrotnie proporcjonalna do niepewności namiaru. Połączona pozycja jest reprezentowana jako 2D elipsa błędu (CEP), której rozmiar rośnie z geometrią sieci węzłów i niepewnościami namiaru uczestniczących węzłów. Dla sieci dwuwęzłowej z kątem przecięcia 90° i niepewnością namiaru 2° na węzeł CEP na dystansie 500 m wynosi około 18 metrów – wystarczająco, by naprowadzić zespół obserwacyjny lub skierować UAS do zbadania.

Zasilane bateryjnie węzły brzegowe działające w okresach pozbawionych łączności przechowują detekcje lokalnie z precyzyjnymi znacznikami czasu GPS. Po ponownym połączeniu z siecią taktyczną buforowane zdarzenia są odtwarzane na serwer TAK z ich oryginalnymi znacznikami czasu, rekonstruując historię zdarzeń akustycznych na COP do analizy po zdarzeniu.

Połącz detekcje akustyczne z Twoim obrazem operacyjnym

Corvus SENSE integruje węzły czujników akustycznych, estymacje namiaru TDOA i wyniki klasyfikacji bezpośrednio ze wspólnym obrazem operacyjnym – publikując zdarzenia CoT na serwer TAK i zapewniając fuzję wielowęzłową w sieci czujników w czasie rzeczywistym.

Poznaj Corvus SENSE → Umów briefing

Tę analizę przygotowali inżynierowie Corvus Intelligence, którzy budują krytyczne dla misji systemy ISR i aplikacje polowe dla organizacji obronnych i rządowych. Poznaj nasz zespół →