Комп'ютерний зір у системах оборони: виявлення та відстеження об'єктів на пристрої

Автор: Команда інженерів Corvus Intelligence · Про команду →

11 травня 2026 Оновлено: 18 травня 2026 р. 9 хв читання

Комп'ютерний зір — здатність машини інтерпретувати та розуміти візуальні дані — став однією з найбільш оперативно значущих можливостей ШІ у сучасних оборонних системах. Від встановлених на БПЛА датчиків, що в реальному часі ідентифікують транспортні засоби, до систем захисту периметру, що вночі розрізняють людей і тварин — комп'ютерний зір на пристрої трансформує те, як збройні сили збирають, обробляють і реагують на візуальну розвідку.

Розгортання комп'ютерного зору на обладнанні оборонного призначення принципово відрізняється від розгортання у комерційному центрі обробки даних. Моделі повинні працювати на захищеному обладнанні з обмеженим енергоспоживанням. Вони мають функціонувати в умовах змінного освітлення, погоди та характеристик датчиків. Вимоги до затримки вимірюються мілісекундами, а не секундами. І вони повинні відмовляти у контрольований, а не катастрофічний спосіб, коли вхідні дані виходять за межі навчального розподілу.

Архітектура конвеєра виявлення: від кадру до обмежувальної рамки

Сучасний конвеєр виявлення об'єктів для периферійного розгортання в обороні складається з кількох послідовних етапів. Перший — попередня обробка вхідних даних: зміна розміру вхідного кадру до вхідної роздільної здатності моделі (зазвичай 640×640 або 1280×1280 пікселів), нормалізація значень пікселів до діапазону [0, 1] та опціональне застосування letterboxing для збереження співвідношення сторін. Для теплових (LWIR) камер попередня обробка включає додаткові кроки нормалізації для стиснення 14-бітного або 16-бітного динамічного діапазону датчика.

Сама модель виявлення — наразі домінують варіанти YOLO — приймає попередньо оброблений кадр і видає набір кандидатів на виявлення: кожен з обмежувальною рамкою (x, y, ширина, висота), вектором класової ймовірності та показником об'єктності. YOLOv8 ввів безякірну детекторну голівку, що значно покращила виявлення дрібних об'єктів порівняно з YOLOv5 — критично важливо для повітряної розвідки, де цілі займають лише кілька пікселів. YOLOv9 з механізмом Programmable Gradient Information (PGI) ще більше покращує потік градієнтів під час навчання.

Фінальний етап — Non-Maximum Suppression (NMS). Модель зазвичай генерує сотні перекриваючих кандидатів; NMS фільтрує їх до підмножини найдостовірніших, неперекриваючих виявлень за порогом Intersection-over-Union (IoU, зазвичай 0,45–0,65). На пристрої наївна реалізація NMS на ЦПУ на 1 000 кандидатів при 30 кадрах/с може споживати більше ресурсів, ніж сам інференс моделі. TensorRT надає ефективний GPU-прискорений NMS.

Апаратні платформи: Jetson, Hailo і Movidius у порівнянні

NVIDIA Jetson AGX Orin є лідером за продуктивністю серед захищених вбудованих GPU. При 275 TOPS (INT8) він може одночасно запускати кілька великих моделей виявлення — наприклад, модель YOLOv8-large при 30+ кадрах/с, водночас виконуючи алгоритм відстеження і окрему модель класифікації. AGX Orin споживає 10–60 Вт залежно від режиму живлення, підтримує CUDA 11.4+, TensorRT 8.x та DeepStream SDK. Для встановлених на транспортних засобах застосувань із бюджетом потужності понад 100 Вт — це стандартний вибір.

Hailo-8 та Hailo-8L займають низькоенергетичний кінець спектру високопродуктивного AI-інференсу. Hailo-8 забезпечує 26 TOPS при менш ніж 3 Вт у форматі PCIe M.2 або mPCIe — що робить його придатним для малих корисних навантажень БПЛА та мобільних систем. Hailo-8L (13 TOPS) ще більше знижує споживання до ~1,5 Вт. Компроміс: екосистема Hailo вужча за NVIDIA — нестандартні архітектури моделей потребують додаткових зусиль із конвертацією через Hailo Dataflow Compiler.

Intel Movidius Myriad X та наступні архітектури, інтегровані в набір інструментів Intel OpenVINO, орієнтовані на інтеграцію AI-зору з екосистемою камер та датчиків Intel. Myriad X забезпечує приблизно 4 TOPS при ~1 Вт. OpenVINO надає конвеєр оптимізації та розгортання моделей, що підтримує гетерогенне виконання на ЦПУ, ГПУ, VPU та FPGA.

Оптимізація: квантування TensorRT INT8 та злиття шарів

Модель YOLOv8-medium, навчена у PyTorch з вагами FP32, вимагає приблизно 850 МБ пам'яті та працює зі швидкістю близько 8 кадрів/с на NVIDIA Jetson Orin NX у нативному вигляді. Після оптимізації TensorRT до INT8 та сама модель вимагає приблизно 210 МБ і працює при 65+ кадрів/с — покращення пропускної здатності у 8 разів і зменшення пам'яті у 4 рази, зазвичай менш ніж 1% деградації mAP на репрезентативному наборі для калібрування.

Оптимізація TensorRT включає три основні техніки: квантування INT8 (перетворення ваг і активацій з 32-бітного з плаваючою крапкою до 8-бітного цілого з масштабними факторами квантування, що визначаються набором калібрування з 500–1 000 репрезентативних зображень); злиття шарів (об'єднання послідовностей операцій — згортка + пакетна нормалізація + ReLU — в один оптимізований CUDA-ядро); та автоналаштування ядра (вибір найшвидшої реалізації CUDA-ядра для кожного шару на цільовому GPU).

Ключовий висновок: Якість даних калібрування є основним фактором, що визначає точність INT8. Використання зображень з доменного середовища розгортання — що відповідають типу датчика, умовам освітлення та класам цілей — дає значно кращі результати калібрування, ніж застосування ImageNet або інших загальних наборів. Для теплових LWIR-входів калібруйте виключно з тепловими зображеннями.

Відстеження кількох об'єктів: DeepSORT, ByteTrack та BoT-SORT

Виявлення об'єктів видає детекції для кожного кадру. Відстеження кількох об'єктів (MOT) пов'язує ці детекції між кадрами для створення стійких треків — кожен з унікальним ID, історією траєкторії та оцінкою швидкості. Для оборонних застосувань відстеження так само важливе, як і виявлення: ціль, що зникає за перешкодою на 2–3 секунди, повинна бути правильно переідентифікована при повторній появі.

DeepSORT використовує фільтрацію Калмана для прогнозування траєкторії та легку модель ReID для зіставлення детекцій з існуючими треками через оклюзії. ByteTrack покращує DeepSORT, використовуючи низькодостовірні детекції як додаткові ознаки для асоціації, що різко зменшує кількість перемикань ID при часткових оклюзіях. BoT-SORT додає компенсацію руху камери до фреймворку ByteTrack — критично важливо для встановлених на БПЛА камер, де видимий рух нерухомої цілі може бути значним через рух самого апарату.

Виклики розгортання: теплові входи, злиття датчиків та захист

Розгортання тепловізійних (LWIR) камер вимагає особливої уваги: вони працюють у спектральному діапазоні 8–14 мкм і виробляють 14-бітні або 16-бітні зображення у відтінках сірого. Адаптивне гістограмне вирівнювання (CLAHE) значно покращує видимість цілей у тепловізійних зображеннях. Злиття детекцій від EО та LWIR-камер вимагає зовнішнього калібрування, тимчасової синхронізації та стратегії злиття — раннього, пізнього або на рівні рішень. Пізнє злиття найбільш поширене у розгорнутих оборонних системах, оскільки дозволяє незалежну оптимізацію та сертифікацію кожного сенсорного конвеєра.

Герметичні корпуси класу IP67 є мінімальним стандартом для польового обладнання. MIL-STD-810H визначає методи екологічних випробувань щодо удару, вібрації, температурного циклювання (робочий діапазон −40°C до +71°C для більшості застосувань на наземних транспортних засобах), вологості та висоти. Механізм оновлення моделей у польових умовах є часто недооціненою вимогою розгортання: конвеєр повинен підтримувати пакети моделей з криптографічним підписом, що доставляються через захищений канал оновлення з можливістю відкату.

Обговоріть ваш проєкт

Ми розробляємо системи комп'ютерного зору на пристрої для Збройних Сил України та партнерів — конвеєри YOLOv8/v9, оптимізацію TensorRT, відстеження кількох об'єктів та злиття теплових/EО датчиків на обладнанні Jetson та Hailo.

Розробка Edge AI → Замовити брифінг

Цей аналіз підготовлений інженерами Corvus Intelligence, які розробляють критично важливе програмне забезпечення для оборонних та урядових організацій. Дізнатись про команду →

Frequently Asked Questions

Як виглядає сучасний оборонний конвеєр детекції об'єктів?

Препроцесинг (resize до 640×640 або 1280×1280, нормалізація, letterbox; для LWIR — стиснення динамічного діапазону 14- або 16-бітних значень), модель детекції — зазвичай YOLOv8 чи YOLOv9 з anchor-free головами та PGI для кращої детекції малих об'єктів — і етап Non-Maximum Suppression, що фільтрує перекривні bounding box-и за порогом IoU 0,45–0,65, бажано прискорений на GPU через TensorRT.

Як Jetson AGX Orin, Hailo-8 і Movidius порівнюються для edge AI в обороні?

Jetson AGX Orin лідирує за чистою продуктивністю — 275 TOPS INT8 при 10–60 Вт із CUDA, TensorRT і DeepStream, ідеальний для машин із бюджетом понад 100 Вт. Hailo-8 дає 26 TOPS під 3 Вт у форм-факторі M.2 для малих БпЛА та носимих систем. Intel Movidius Myriad X — близько 4 TOPS при ~1 Вт із тісною інтеграцією з OpenVINO та сенсорами Intel RealSense.

Що TensorRT INT8-квантизація дає моделі YOLOv8?

На Jetson Orin NX модель YOLOv8-medium переходить із ~850 МБ і ~8 fps у FP32 до ~210 МБ і 65+ fps після INT8 — 8-кратний приріст пропускної здатності та 4-кратне зменшення пам'яті при деградації mAP зазвичай менше 1%. Три техніки — INT8-квантизація з калібрувальним набором, злиття шарів (Conv+BN+ReLU в єдині ядра) і per-device автотюнінг ядер.

Який трекер для багатьох об'єктів використати на камері БпЛА?

BoT-SORT — найкращий вибір для рухомих камер, бо додає компенсацію руху камери через оцінку гомографії перед прогнозом Калмана. ByteTrack покращує DeepSORT, асоціюючи детекції з низькою впевненістю, зменшуючи перемикання ID під час часткових перекриттів при меншій обчислювальній вартості. Класичний DeepSORT придатний для статичних камер із чітко відмінними цілями, але деградує у скупчених сценах.

Які виклики розгортання систематично недооцінюють для теплових і захищених систем?

LWIR (8–14 мкм) вимагає CLAHE покадрово або поделянково, а не простої min-max нормалізації, і моделі, навчені на EO, надійно не переносяться на тепловізор без перенавчання. Злиття EO+LWIR потребує екстринсичної калібровки, синхронізації часу і зазвичай пізнього злиття для незалежної сертифікації. Корпуси мають відповідати IP67 і MIL-STD-810H (зазвичай −40 °C до +71 °C для наземних, −54 °C до +85 °C для авіаційних), з кондуктивним охолодженням і підписаним каналом оновлення моделей.