Комп'ютерний зір — здатність машини інтерпретувати та розуміти візуальні дані — став однією з найбільш оперативно значущих можливостей ШІ у сучасних оборонних системах. Від встановлених на БПЛА датчиків, що в реальному часі ідентифікують транспортні засоби, до систем захисту периметру, що вночі розрізняють людей і тварин — комп'ютерний зір на пристрої трансформує те, як збройні сили збирають, обробляють і реагують на візуальну розвідку.
Розгортання комп'ютерного зору на обладнанні оборонного призначення принципово відрізняється від розгортання у комерційному центрі обробки даних. Моделі повинні працювати на захищеному обладнанні з обмеженим енергоспоживанням. Вони мають функціонувати в умовах змінного освітлення, погоди та характеристик датчиків. Вимоги до затримки вимірюються мілісекундами, а не секундами. І вони повинні відмовляти у контрольований, а не катастрофічний спосіб, коли вхідні дані виходять за межі навчального розподілу.
Архітектура конвеєра виявлення: від кадру до обмежувальної рамки
Сучасний конвеєр виявлення об'єктів для периферійного розгортання в обороні складається з кількох послідовних етапів. Перший — попередня обробка вхідних даних: зміна розміру вхідного кадру до вхідної роздільної здатності моделі (зазвичай 640×640 або 1280×1280 пікселів), нормалізація значень пікселів до діапазону [0, 1] та опціональне застосування letterboxing для збереження співвідношення сторін. Для теплових (LWIR) камер попередня обробка включає додаткові кроки нормалізації для стиснення 14-бітного або 16-бітного динамічного діапазону датчика.
Сама модель виявлення — наразі домінують варіанти YOLO — приймає попередньо оброблений кадр і видає набір кандидатів на виявлення: кожен з обмежувальною рамкою (x, y, ширина, висота), вектором класової ймовірності та показником об'єктності. YOLOv8 ввів безякірну детекторну голівку, що значно покращила виявлення дрібних об'єктів порівняно з YOLOv5 — критично важливо для повітряної розвідки, де цілі займають лише кілька пікселів. YOLOv9 з механізмом Programmable Gradient Information (PGI) ще більше покращує потік градієнтів під час навчання.
Фінальний етап — Non-Maximum Suppression (NMS). Модель зазвичай генерує сотні перекриваючих кандидатів; NMS фільтрує їх до підмножини найдостовірніших, неперекриваючих виявлень за порогом Intersection-over-Union (IoU, зазвичай 0,45–0,65). На пристрої наївна реалізація NMS на ЦПУ на 1 000 кандидатів при 30 кадрах/с може споживати більше ресурсів, ніж сам інференс моделі. TensorRT надає ефективний GPU-прискорений NMS.
Апаратні платформи: Jetson, Hailo і Movidius у порівнянні
NVIDIA Jetson AGX Orin є лідером за продуктивністю серед захищених вбудованих GPU. При 275 TOPS (INT8) він може одночасно запускати кілька великих моделей виявлення — наприклад, модель YOLOv8-large при 30+ кадрах/с, водночас виконуючи алгоритм відстеження і окрему модель класифікації. AGX Orin споживає 10–60 Вт залежно від режиму живлення, підтримує CUDA 11.4+, TensorRT 8.x та DeepStream SDK. Для встановлених на транспортних засобах застосувань із бюджетом потужності понад 100 Вт — це стандартний вибір.
Hailo-8 та Hailo-8L займають низькоенергетичний кінець спектру високопродуктивного AI-інференсу. Hailo-8 забезпечує 26 TOPS при менш ніж 3 Вт у форматі PCIe M.2 або mPCIe — що робить його придатним для малих корисних навантажень БПЛА та мобільних систем. Hailo-8L (13 TOPS) ще більше знижує споживання до ~1,5 Вт. Компроміс: екосистема Hailo вужча за NVIDIA — нестандартні архітектури моделей потребують додаткових зусиль із конвертацією через Hailo Dataflow Compiler.
Intel Movidius Myriad X та наступні архітектури, інтегровані в набір інструментів Intel OpenVINO, орієнтовані на інтеграцію AI-зору з екосистемою камер та датчиків Intel. Myriad X забезпечує приблизно 4 TOPS при ~1 Вт. OpenVINO надає конвеєр оптимізації та розгортання моделей, що підтримує гетерогенне виконання на ЦПУ, ГПУ, VPU та FPGA.
Оптимізація: квантування TensorRT INT8 та злиття шарів
Модель YOLOv8-medium, навчена у PyTorch з вагами FP32, вимагає приблизно 850 МБ пам'яті та працює зі швидкістю близько 8 кадрів/с на NVIDIA Jetson Orin NX у нативному вигляді. Після оптимізації TensorRT до INT8 та сама модель вимагає приблизно 210 МБ і працює при 65+ кадрів/с — покращення пропускної здатності у 8 разів і зменшення пам'яті у 4 рази, зазвичай менш ніж 1% деградації mAP на репрезентативному наборі для калібрування.
Оптимізація TensorRT включає три основні техніки: квантування INT8 (перетворення ваг і активацій з 32-бітного з плаваючою крапкою до 8-бітного цілого з масштабними факторами квантування, що визначаються набором калібрування з 500–1 000 репрезентативних зображень); злиття шарів (об'єднання послідовностей операцій — згортка + пакетна нормалізація + ReLU — в один оптимізований CUDA-ядро); та автоналаштування ядра (вибір найшвидшої реалізації CUDA-ядра для кожного шару на цільовому GPU).
Ключовий висновок: Якість даних калібрування є основним фактором, що визначає точність INT8. Використання зображень з доменного середовища розгортання — що відповідають типу датчика, умовам освітлення та класам цілей — дає значно кращі результати калібрування, ніж застосування ImageNet або інших загальних наборів. Для теплових LWIR-входів калібруйте виключно з тепловими зображеннями.
Відстеження кількох об'єктів: DeepSORT, ByteTrack та BoT-SORT
Виявлення об'єктів видає детекції для кожного кадру. Відстеження кількох об'єктів (MOT) пов'язує ці детекції між кадрами для створення стійких треків — кожен з унікальним ID, історією траєкторії та оцінкою швидкості. Для оборонних застосувань відстеження так само важливе, як і виявлення: ціль, що зникає за перешкодою на 2–3 секунди, повинна бути правильно переідентифікована при повторній появі.
DeepSORT використовує фільтрацію Калмана для прогнозування траєкторії та легку модель ReID для зіставлення детекцій з існуючими треками через оклюзії. ByteTrack покращує DeepSORT, використовуючи низькодостовірні детекції як додаткові ознаки для асоціації, що різко зменшує кількість перемикань ID при часткових оклюзіях. BoT-SORT додає компенсацію руху камери до фреймворку ByteTrack — критично важливо для встановлених на БПЛА камер, де видимий рух нерухомої цілі може бути значним через рух самого апарату.
Виклики розгортання: теплові входи, злиття датчиків та захист
Розгортання тепловізійних (LWIR) камер вимагає особливої уваги: вони працюють у спектральному діапазоні 8–14 мкм і виробляють 14-бітні або 16-бітні зображення у відтінках сірого. Адаптивне гістограмне вирівнювання (CLAHE) значно покращує видимість цілей у тепловізійних зображеннях. Злиття детекцій від EО та LWIR-камер вимагає зовнішнього калібрування, тимчасової синхронізації та стратегії злиття — раннього, пізнього або на рівні рішень. Пізнє злиття найбільш поширене у розгорнутих оборонних системах, оскільки дозволяє незалежну оптимізацію та сертифікацію кожного сенсорного конвеєра.
Герметичні корпуси класу IP67 є мінімальним стандартом для польового обладнання. MIL-STD-810H визначає методи екологічних випробувань щодо удару, вібрації, температурного циклювання (робочий діапазон −40°C до +71°C для більшості застосувань на наземних транспортних засобах), вологості та висоти. Механізм оновлення моделей у польових умовах є часто недооціненою вимогою розгортання: конвеєр повинен підтримувати пакети моделей з криптографічним підписом, що доставляються через захищений канал оновлення з можливістю відкату.