Звук приходить раніше, ніж ви бачите джерело. Гвинтівковий постріл на 500 метрах досягає акустичного сенсорного вузла менш ніж за 1,5 секунди. Гусенична машина, що рухається під покровом дерев на 2 км, створює гармоніки двигуна, які поширюються місцевістю задовго до того, як будь-який оптичний або радарний сенсор зможе розрізнити платформу. Акустичний ШІ-детектор використовує цю фізику: класифікуючи те, що чує мікрофонний масив – і обчислюючи пеленг із різниць у часі між елементами – периферійно розгорнутий акустичний вузол може додати шар виявлення до єдиної оперативної картини (COP), який оптичні сенсори не можуть відтворити. Ця стаття проводить через фізику сенсорів, виділення ознак, архітектури машинного навчання, алгоритми оцінки пеленга та інтеграцію CoT, які роблять периферійне акустичне зондування життєздатною військовою можливістю ШІ.
Навіщо акустичне зондування на межі?
Оперативний аргумент на користь периферійно розгорнутих акустичних сенсорів спирається на три властивості, яких не має жодна інша пасивна модальність зондування.
Пасивне виявлення. Акустичні сенсори нічого не випромінюють. На відміну від радара чи активного сонара, мікрофонний масив не має RF-підпису, лазерного відбиття чи теплового виходу понад мінімальне споживання потужності обчислювального вузла. Це робить акустичні сенсори придатними для прихованих розгортань безпілотних наземних сенсорів (UGS) на вузьких місцях, уздовж шляхів постачання чи навколо оборонних позицій, без ризику видати позицію сенсора через його власні випромінювання.
Проникнення крізь візуальні перешкоди. Акустичні хвилі поширюються крізь туман, дим, рослинність і темряву зі значно меншим затуханням, ніж видиме чи інфрачервоне світло. Колісна машина в лісосмузі, невидима для EO-дрона, акустично гучна. Задіяна екіпажна зброя за насипом усе ще створює виявний дульний вибух. Акустична сфера забезпечує стійкість зондування в умовах, що долають оптичні системи.
Низька потужність, тривала автономність. Мікрофонний масив із інференс-двигуном класу мікроконтролера споживає 20–100 мВт у режимі безперервного моніторингу. Невеликий батарейний блок забезпечує тижні чи місяці безпілотної роботи. Натомість наземний радар або постійний EO-сенсор потребує на порядки більше потужності для зіставного безперервного покриття. Акустичні сенсори заповнюють нішу автономності, яку не можуть заповнити сенсори, що живляться.
Геометрія масиву сенсорів і фізика TDOA
Один мікрофон може виявляти й класифікувати акустичні події, але не може визначити, звідки вони надходять. Пеленгування потребує масиву – кількох мікрофонів на відомих геометричних відстанях – і алгоритму різниці часу приходу (TDOA), що обчислює пеленг із мікросекундних різниць у тому, коли акустичний фронт хвилі досягає кожного елемента.
Для лінійного масиву з N мікрофонів зі відстанню d максимальна однозначна TDOA становить d/c, де c – швидкість звуку (приблизно 343 м/с при 20°C, що змінюється приблизно на 0,6 м/с на градус Цельсія). Щоб розв'язати пеленг без аліасингу, відстань між елементами не повинна перевищувати половину довжини хвилі на найвищій частоті, що цікавить – той самий критерій просторової дискретизації, що й у фазованих радарах. Для класифікації пострілів, де релевантний спектральний вміст сягає 10 кГц (довжина хвилі ≈ 34 мм), відстань масиву має бути менша за 17 мм, щоб уникнути неоднозначності на найвищій частоті. На практиці виробничі військові акустичні масиви використовують 2D-розташування (хрест, п'ятикутник чи шестикутник) з відстанями між елементами в діапазоні 10–30 см і покладаються на нижньочастотний вміст дульного вибуху (1–4 кГц) для однозначного пеленга.
Узагальнена кросс-кореляція з фазовим перетворенням (GCC-PHAT) – це стандартний алгоритм оцінки TDOA між парою каналів мікрофонів. Він кросс-корелює сигнали двох каналів у частотній області, нормалізує за крос-спектральною величиною (крок "фазового перетворення") і знаходить часову затримку на піку кореляції. GCC-PHAT стійкий до реверберації – крок нормалізації придушує енергію багатопроменевості – і створює гострий пік навіть у шумних надворі середовищах, коли сигнал прямого шляху когерентний між каналами.
Калібрування масиву та компенсація навколишнього середовища
Два практичні ускладнення погіршують точність TDOA у польовому розгортанні. По-перше, фактичні позиції мікрофонів у виготовленому масиві можуть відрізнятися від номінальної геометрії на 1–3 мм через виробничі допуски. При дискретизації 48 кГц і швидкості звуку 343 м/с 1 мм похибки позиції відповідає приблизно 3 мкс часової похибки – еквівалентно похибці пеленга 1° на короткій відстані для апертури 15 см. Масиви слід калібрувати після збирання за допомогою акустичного точкового джерела у відомій позиції, підганяючи фактичні позиції до спостережуваних TDOA.
По-друге, температура впливає на швидкість звуку на 0,6 м/с на °C. Перепад температури 20°C – звичайний між ніччю та полуднем у середніх широтах – зсуває швидкість звуку на 12 м/с (3,5%), що безпосередньо переходить у похибку дальності та пеленга, якщо температурна компенсація не застосовується. Периферійні акустичні вузли мають включати датчик температури (та ідеально датчик вологості й барометричного тиску) для оновлення оцінки швидкості звуку в реальному часі.
Виділення ознак для класифікації аудіо
Класифікація акустичних подій як пострілів, вибухів, техніки чи навколишнього шуму потребує ознак, що охоплюють спектральну й часову структуру кожного класу подій, будучи водночас достатньо компактними для обробки на периферійній апаратурі в межах бюджету затримки.
Мел-частотні кепстральні коефіцієнти (MFCC). Найбільш широко використовувана компактна аудіоознака для завдань класифікації. MFCC відображають короткочасне перетворення Фур'є сигналу на мел-масштабний фільтрбанк (що наближає частотну роздільну здатність слухової системи людини), потім застосовують дискретне косинусне перетворення для декореляції виходів фільтрбанку. Двадцять-сорок коефіцієнтів на кадр аналізу охоплюють широку спектральну форму події. Для розрізнення пострілу проти техніки ключовим дискримінантом є співвідношення високочастотної до низькочастотної енергії: постріли концентрують енергію вище 2 кГц у короткому імпульсному сплеску, тоді як техніка створює стійкий низькочастотний вміст нижче 500 Гц із гармонічною структурою.
Лог-мел спектрограми. Для класифікаторів глибокого навчання лог-мел спектрограми – двовимірні час-частотні представлення на мел-масштабі – дають моделі доступ до повної спектротемпоральної структури події. Спектрограма 64-смуги, 25 мс кадр, 10 мс крок вікна події 200 мс створює зображення ознак 64×19, яке невелика CNN точно класифікує. Лог-мел представлення зберігає перехідну структуру початку (критичну для виявлення пострілів) і стійкі гармонічні патерни (критичні для класифікації техніки) у форматі, придатному для згорткового виділення ознак.
Виявлення початку та сегментація подій. Перш ніж виділення ознак зможе запуститися, системі потрібно визначити, що сталася подія, варта класифікації. Простий енергетичний поріг спрацьовує на гучних транзієнтах, але має високі рівні хибних тривог від грому, металевих ударів і промислового шуму. Кращий підхід використовує навчений детектор початку – невелику модель, навчену відрізняти акустичні початки, що передують класифікованим військовим подіям, від усіх інших транзієнтів – як попередній фільтр. Ця двоступенева архітектура зменшує рівень хибних тривог, що подаються на головний класифікатор, на 60–80% у типових надворі промислових середовищах, ціною додаткових 5–10 мс затримки інференсу.
Архітектури машинного навчання для периферійної акустичної класифікації
Три сімейства моделей придатні для виробництва для периферійної акустичної класифікації у військових застосуваннях.
Згорткові нейронні мережі на спектрограмах. Архітектура MobileNetV2 чи EfficientNet-Lite, адаптована для аудіо (заміна вхідної форми ImageNet на розміри спектрограми), досягає 92–96% точності на чотирикласних наборах акустичних подій (постріл, техніка, вибух, фон) за менш ніж 20 мс часу інференсу на ARM Cortex-M55 з INT8-квантуванням. Ключова адаптація – використання відносно вузького вікна часового контексту – 200–500 мс – щоб тримати вхідний тензор достатньо малим для пам'яті на пристрої. Для виявлення пострілів зокрема ті самі техніки квантування та оптимізації, що використовуються у візуальному периферійному ШІ застосовуються безпосередньо до розгортання аудіо-CNN.
Аудіотрансформерні моделі. Моделі сімейства Audio Spectrogram Transformer (AST) застосовують самоувагу через патчі спектрограм, досягаючи передового рівня точності на загальних бенчмарках класифікації аудіо. На периферійній апаратурі механізм уваги більш ресурсоємний за пам'яттю, ніж згортки за еквівалентного розміру моделі, і шари уваги деградують більше під INT8-квантуванням, ніж згорткові шари. Дистильовані крихітні варіанти AST з 1–5 мільйонами параметрів реалізовні на процесорах класу Cortex-A за 10–30 мс часу інференсу. Перевага в точності над моделями на основі CNN скромна (1–3%) для військової класифікації акустичних подій, де навчальний набір є предметно-специфічним, а не широким AudioSet, на якому AST був розроблений переважати.
Рекурентні класифікатори для ідентифікації техніки. Класифікація техніки – розрізнення колісної від гусеничної, легкої від важкої та конкретних типів платформ – виграє від часового контексту, який CNN погано охоплюють із короткими вікнами. Двонаправлена LSTM, що працює на послідовності 20–50 кадрів MFCC (200–500 мс аудіо), охоплює еволюцію гармонік двигуна, коли навантаження та швидкість змінюються, створюючи більш стабільні оцінки типу техніки за багатосекундними вікнами. Класифікатор LSTM може працювати асинхронно від класифікатора тригера подій, безперервно оновлюючи оцінку типу техніки, поки підтримується акустичний контакт.
Надзвукова балістична ударна хвиля проти дульного вибуху
Гвинтівка чи важка зброя, вистрілена в сенсор, створює дві різні акустичні події: дульний вибух (всеспрямований імпульсний фронт хвилі від порохового газу) і балістичну ударну хвилю (конічна N-хвиля, що генерується надзвуковим снарядом). Вони приходять до сенсора в різний час залежно від геометрії бою, і різниця в часі між ними кодує інформацію про тип зброї, дульну швидкість і – критично – місцеположення стрільця відносно геометрії ціль-сенсор.
TDOA дульного вибуху дає напрямок до зброї. TDOA балістичної ударної хвилі дає напрямок траєкторії снаряда. Поєднуючи обидві оцінки, належно навчений класифікатор та оцінювач можуть визначити, чи зброя була вистрілена в напрямку сенсора, від нього чи поперек позиції сенсора. Ця можливість – розрізнення вхідного від вихідного вогню – має очевидну оперативну цінність для рішень про оборонну позицію. Системи, що класифікують лише за дульним вибухом без відокремлення компонента ударної хвилі, систематично хибно повідомлятимуть пеленг стрільця на кут, що зростає з дальністю стрілець-сенсор.
Ключовий висновок: Найпоширеніша помилка класифікації у розгорнутих акустичних детекторах пострілів – це не модель, а нездатність відокремити дульний вибух від балістичної ударної хвилі перед запуском оцінки пеленга. Однопіковий оцінювач TDOA, що не моделює обидва приходи, повідомлятиме пеленг, який є зваженим середнім двох напрямків поширення, зміщеним до тієї події, що має вищий SNR на масиві. Для боїв на дальностях понад 200 метрів це може давати похибки пеленга, що перевищують 15°. Виправлення – багатогіпотезний оцінювач TDOA, що явно моделює обидва приходи й призначає кожен його фізичному джерелу.
Інтеграція акустичних виявлень у єдину оперативну картину
Акустичне виявлення, що залишається на периферійному вузлі, тактично марне. Цінність реалізується лише тоді, коли подія виявлення – пеленг, класифікація, впевненість, позначка часу, позиція сенсора – досягає операторів та автоматизованих двигунів злиття на COP. Патерн інтеграції відображає те, що добре усталене для розподілених військових сенсорних мереж: кожен вузол звітує про локально оброблені результати через обмежений канал до вузла-концентратора, що зливає через вузли.
Для інтеграції з екосистемою TAK події акустичного виявлення публікуються як CoT XML на сервер TAK. Тип події CoT для акустичного спостереження береться з таксономії типів CoT (b-m-p-s-p-op для спостереження, або код ворожого типу, якщо впевненість класифікації та правила застосування зброї дозволяють). Поле деталей CoT несе структуровані елементи розширення: пеленг, невизначеність пеленга, клас події, акустичну впевненість та ідентифікатор звітуючого сенсорного вузла. Вбудована модель підписки CoT сервера TAK доставляє подію всім підключеним клієнтам ATAK протягом 1–3 секунд від акустичного початку.
Багатовузлове злиття – це можливість, що перетворює пеленгові лінії на фіксації позиції. Коли два чи більше акустичних вузлів звітують про ту саму подію (зіставлену за позначкою часу та класифікацією в межах налаштовуваного часового вікна), їхні пеленгові лінії перетинаються за допомогою зваженого алгоритму найменших квадратів. Вага для кожної пеленгової лінії обернено пропорційна невизначеності пеленга. Злита позиція представлена як 2D еліпс похибки (CEP), розмір якого зростає з геометрією вузлової мережі та невизначеностями пеленга учасних вузлів. Для двовузлової мережі з кутом перетину 90° і невизначеністю пеленга 2° на вузол CEP на дальності 500 м становить приблизно 18 метрів – достатньо, щоб навести команду спостереження чи спрямувати UAS для дослідження.
Периферійні вузли з батарейним живленням, що працюють у періоди відсутності зв'язку, зберігають виявлення локально з точними GPS-позначками часу. Після відновлення зв'язку з тактичною мережею буферизовані події відтворюються на сервер TAK з їхніми оригінальними позначками часу, реконструюючи історію акустичних подій на COP для постподійного аналізу.
Зливайте акустичні виявлення у вашу оперативну картину
Corvus SENSE інтегрує акустичні сенсорні вузли, оцінки пеленга TDOA та результати класифікації безпосередньо в єдину оперативну картину – публікуючи події CoT на сервер TAK і забезпечуючи багатовузлове злиття через сенсорну мережу в реальному часі.
Цей аналіз підготували інженери Corvus Intelligence, які створюють критично важливі ISR-системи та польові застосунки для оборонних і державних організацій. Дізнайтеся про нашу команду →