У CV-конвеєра на ISR-дроні одна робота: брати фотони, що потрапляють на сенсор, перетворювати їх на геолоковані треки об'єктів, що мають значення, і подавати ці треки в систему командування й управління достатньо швидко, щоб оператор — або інша система — могли діяти. Усе решта — інженерні накладні витрати на службі цьому циклу. Ця стаття проходить конвеєр від початку до кінця: архітектури моделей, що детектують, алгоритми, що відстежують, фьюжн сенсорів, що переживає ніч і погоду, георефенс-математика, що робить bounding box корисним, та реалії edge-розгортання, що вирішують, чи працює щось із цього в полі.

Для ширшого контексту, де це вписується в оборонний AI-стек, дивіться наш повний гід AI в обороні та аналіз сенсорного краю в sensor-to-shooter частина 2.

1. CV-конвеєр ISR

Канонічний конвеєр має шість стадій: захоплення сенсором (EO та IR), прийом і синхронізація кадрів, детекція, багатооб'єктний трекінг, георефенс і push до C2. End-to-end бюджет на тактичній ISR-платформі — приблизно 150–250 мс wall-clock від прибуття фотона до оновлення треку на поверхні C2. Усе понад 300 мс ламає довіру оператора — рухоме авто на 60 км/год покриває 5 метрів за 300 мс.

Розбивка бюджету на типовій платформі класу Jetson Orin NX: 16–33 мс на захоплення (залежно від того, чи сенсор працює на 30 чи 60 fps), 5–10 мс на ISP і демозаїк, 15–40 мс на forward pass детектора, 3–8 мс на асоціацію трекінгу, 10–20 мс на георефенс-математику, 20–80 мс на радіолінк до C2. Радіо зазвичай — найгірший винуватець, і саме той, який CV-інженер виправити не може. Усе на борту має стискатися, щоб компенсувати.

Синхронізація прийому кадрів важить більше, ніж очікують новачки. EO та IR сенсори рідко поділяють кадровий годинник. Якщо ваша фьюжн-логіка припускає, що поділяють, ви фьюзите EO-піксель цілі в момент t з IR-пікселем у t-16 мс — авто на 30 м/с встигло проїхати півметра. Конвеєр має ставити часову мітку на сенсорі, а не у споживача.

2. Архітектури детекції

Детектор — це домінантне рішення щодо обчислень і точності у конвеєрі. Три сімейства зараз мають значення на ISR-дронах.

YOLOv8, v10, v11. Згорткова лінія YOLO залишається робочим конем — YOLOv8 від Ultralytics та новіші YOLOv10 і v11 дають 30–60 fps на 640×640 на Jetson Orin NX з INT8-квантизацією. YOLOv11n (nano) виходить на ~60 fps з прийнятним mAP на повітряних датасетах; YOLOv11s (small) опускається до ~30 fps з істотно кращим recall на малих об'єктах. YOLOv10 повністю прибирає крок NMS, виграючи 3–5 мс пост-обробки, що важить, коли кожна мілісекунда оспорюється.

RT-DETR. Real-time DETR від Baidu — трансформерна альтернатива — query-based детектор, що пропускає NMS за дизайном і дає фіксований набір object queries. На бенчмарках RT-DETR-L відповідає або перевершує YOLOv8-L mAP на COCO при порівнянній затримці. На повітряній зйомці attention-патерн трансформера часто краще працює зі щільними сценами малих об'єктів (припарковані авто, скупчення піхоти), ніж anchor-based згорткові детектори. Ціна — більша модель і складніша INT8-квантизація: шари attention деградують сильніше під агресивною квантизацією, ніж conv-шари.

Проблема малих об'єктів. ISR-дрон на 1500 м AGL з 30° HFOV бачить людину як приблизно 6–10 пікселів по стороні. Стандартні детектори об'єктів, навчені на COCO-стилі (де об'єкти зазвичай >32 пікселів), сильно провалюються в цьому режимі. Два практичні виправлення — тайлинг (розбити кадр на перекриті 640×640 патчі, запустити інференс на патч, узгодити в просторі зображення) і навчання на повітряно-специфічних датасетах — VisDrone, DOTA, xView та все частіше доменно-специфічні синтетичні дані. Див. наш матеріал синтетичні дані для навчання оборонного AI щодо конвеєра.

3. Алгоритми трекінгу

Детекція дає вам bounding box'и на кадр. Трекінг перетворює їх на ID-стабільні треки у часі — це те, що насправді потрібно C2-системі. Домінантні on-board вибори — BYTETrack, StrongSORT та OC-SORT.

BYTETrack. Дешевий, швидкий і дивовижно стійкий. Інсайт BYTETrack у тому, що детекції низької впевненості — які більшість трекерів відкидає — зазвичай є реальними об'єктами, частково перекритими або тимчасово неоднозначними. Спочатку асоціюючи детекції високої впевненості, а потім зіставляючи бокси низької впевненості з неспівставленими треками у другому проході, BYTETrack відновлює треки, які чисто IoU-методи втрачають. На Jetson Orin NX трекер додає <5 мс на кадр.

StrongSORT. Еволюція DeepSORT — фільтр Калмана для руху плюс re-identification appearance embedding. Краще на сценах, схильних до ID-switch (авто, що обходять одне одного, оклюзія під кронами), але мережа appearance embedding додає 8–15 мс на кадр і потребує власних навчальних даних. Варто витрат, коли стабільність ID важить більше за пропускну спроможність, наприклад при трекінгу колон.

OC-SORT. Observation-Centric SORT адресує специфічний провал BYTETrack/SORT: коли об'єкт втрачений на кілька кадрів, оцінка швидкості фільтром Калмана дрейфує. OC-SORT переоцінює швидкість зі спостереження при re-identification, а не довіряє предикції фільтра. На ISR-відео з частою оклюзією (міські середовища, край лісу) OC-SORT помітно зменшує ID-перемикання порівняно з BYTETrack.

Проблема нестабільної платформи. Усі ці трекери припускають, що рух об'єкта у кадрі камери домінується рухом об'єкта. На дроні в турбулентному повітрі его-рух дає більшість видимої піксельної швидкості. Виправлення — трекати у стабілізованому або світовому кадрі: або подавайте трекеру стабілізовані кадри (homography-based де-ротація проти IMU), або запускайте фільтр Калмана у георефенс-координатах, а не координатах зображення. Друге — більше роботи, але дає драматично чистіші треки.

4. Сенсорний фьюжн EO + IR

Тільки-EO ISR-дрон — це денна платформа. Тільки-IR дрон розрізняє джерела тепла, але не може прочитати маркування авто, надійно полічити особовий склад на відстані чи розрізнити декой подібної температури. Оперативний ISR вимагає обох, і вимагає, щоб вони фьюзилися.

Пізній фьюжн запускає незалежні детектори на потоках EO та IR і узгоджує треки далі по конвеєру. Простіше інженерити, граційно деградує, якщо один сенсор погіршується, але втрачає крос-модальний сигнал — слабкий EO-контакт, підкріплений чистою IR-сигнатурою, повинен давати трек високої впевненості, і пізній фьюжн обробляє це незграбно.

Ранній фьюжн стекає канали EO та IR в один тензор і навчає детектор на комбінованому вході. Краща крос-модальна продуктивність, але потребує вирівняних даних — що потребує дисципліни бор-сайт-калібрування. Оптика EO та IR рідко поділяє бор-сайт; їй потрібне per-airframe калібрування (зазвичай шахівниця або калібрування за гарячою ціллю перед польотом) і повторне калібрування після будь-якої сервісної події.

Перехід день-ніч. Найбільш схильний до провалів момент — сутінки і світанок, коли контраст EO падає, але IR-сцена теж на мінімумі теплового контрасту (усе на навколишній температурі). Хороший фьюжн-конвеєр гейтить per-sensor впевненість метриками рівня сцени — контраст у межах зображення, статистика гістограми — і переважує фьюз-детекцію відповідно, а не довіряє фіксованому раннє-фьюжн ваговому коефіцієнту 24 години на добу.

5. Георефенс на швидкості кадру

Bounding box у піксельних координатах безкорисний для C2-системи. Bounding box має проєктуватися в географічну координату (широта, довгота, висота) з еліпсом помилок. Математика включає: позицію дрона (GPS, часто INS-фьюз), його орієнтацію (IMU), позу гімбала відносно фюзеляжу (енкодери гімбала), внутрішні параметри камери (фокусна відстань, головна точка) та модель рельєфу (ідеально DTED Level 2 або кращу DEM) для непроєктування піксельного променя до перетину з землею.

Дві практичні реалії. По-перше, затримка георефенсу конкурує з затримкою детекції. Наївна реалізація, що читає енкодери гімбала й IMU в момент C2-push, вносить 50–100 мс помилки проти фактичної мітки кадру — на 30 м/с швидкості над землею це 1.5–3 метри помилки позиції. Сампли енкодера й IMU мають бути часо-проштамповані й інтерпольовані до середини експозиції кадру.

По-друге, бюджет помилок. На дальності похилої 1500 м з 0.5° невизначеністю пози гімбала проєкційна помилка на землі — приблизно 13 метрів, перш ніж додати невизначеність GPS, помилку моделі рельєфу та скос часу. Реалістичний CEP для добре сконструйованої системи тактичного класу — 15–25 метрів на типових ISR-висотах. Усе, що звітується тіснішим, — або героїчна інженерія, або видавання бажаного за дійсне.

6. Вибір моделі для edge-розгортання

Обчислювальна платформа обмежує все. Поточні опції класу ISR-дрона:

Jetson Orin Nano (8 ГБ) — ~40 TOPS INT8, придатний для YOLOv8n/v11n на 640×640 плюс легкий трекер. Енергоконверт 7–15 Вт. Добре для платформ Group 1/2, де фюзеляж не може розсіювати більше.

Jetson Orin NX (16 ГБ) — ~100 TOPS INT8. Запускає YOLOv11s комфортно на 60 fps, RT-DETR-R18 на ~30 fps, StrongSORT з appearance embedding. 10–25 Вт. Поточна солодка точка для тактичного ISR.

Jetson AGX Orin (32/64 ГБ) — ~275 TOPS INT8. Запускає більші моделі, мульти-стрім (EO+IR одночасно без поділу GPU) і залишає запас для додаткових CV-задач (виявлення змін, classification heads). 15–60 Вт — зазвичай рішення для платформи Group 3.

Реалії INT8-квантизації. Float32 → INT8 типово дає 3–4× прискорення інференсу й 4× зменшення пам'яті з 0.5–1.5 mAP втратою на добре квантизованих детекторах. Підводні камені: attention трансформера квантизується гірше за згортки; калібрувальні дані мають бути репрезентативними для зображень розгортання (калібрувати на COCO і розгортати на термальному IR — це халатність); деякі кастомні шари відкатуються до FP16, тихо втрачаючи прискорення. Наш гід з оптимізації ONNX/TensorRT покриває toolchain.

TensorRT vs ONNX Runtime. На Jetson TensorRT — правильна відповідь для продакшну — engine builds, налаштовані під точну кількість GPU SM, зрілі пайплайни INT8-калібрування, агресивний kernel fusion. ONNX Runtime з TensorRT execution provider прийнятний для розробки й дає 80–90% продуктивності TensorRT-native з простішою історією розгортання. Чистий CUDA EP втрачає 30–50%.

7. Вихід у C2 в реальному часі

Продукт конвеєра — потік геолокованих, ID-стабільних треків плюс повноруховий відеоряд, що їх породив. Інтероперабельні формати добре визначені.

CoT (Cursor-on-Target). XML-формат подій, започаткований MITRE, lingua franca TAK-екосистеми C2 (ATAK, WinTAK, iTAK). Подія CoT кодує точку (lat/lon/elevation з еліпсом помилок), тип-код (наприклад, a-h-G-U-C-I для ворожого наземного підрозділу) та довільну деталь. Дрон, що публікує CoT кожні 0.5–1 с на відстежуваний об'єкт, інтегрується нативно з операторськими дисплеями.

MISB 0903 VMTI. Video Moving Target Indicator — стандарт NATO/MISB для вбудовування метаданих детекції та треків у KLV поруч із повноруховим відео. Пакет VMTI всередині MISB 0601-кодованого MPEG-TS потоку несе per-frame списки цілей з георефенс-позицією, швидкістю та впевненістю. Обов'язковий для будь-якої платформи, що має включатися у споживачів NATO Class 1 ISR FMV.

Патерни шини повідомлень. Усередині фюзеляжу ROS 2, Zenoh або MQTT переносять проміжні повідомлення між детектором, трекером, георефенсером та процесом радіо-даунлінка. Pub-sub-query модель Zenoh добре справляється з переривчастими лінками — радіо обривається, on-board store-and-forward тримає треки, і C2-клієнт наздоганяє при перепідключенні.

8. Польові реалії

Усе вище — легка частина. Важка частина — підтримувати це у роботі в полі.

Вібрація. Квадрокоптер 2 кг на повному газі вібрує кріплення камери на 100–200 Гц. Rolling-shutter сенсори змазують; global-shutter не змазують, але коштують більше й розсіюють більше. Точність детектора на змазаних рухом зображеннях падає на 5–15 mAP-пунктів, якщо тренувальний набір не містить змазаних зразків.

Тепло. Jetson Orin NX, що працює на 100 TOPS, розсіює 20+ Вт у запечатаному корисному вантажі, який сам може бути під прямим сонцем при +45°C. Без активного охолодження термальне дроселювання вмикається протягом 90 секунд — а дроссельований GPU падає у fps детектора на 40–60%. Проєктування термального конверту корисного вантажу — стільки ж CV-інженерна турбота, як і вибір моделі.

Низькоенергетичні режими. Лоітеринг-ISR-місія може хотіти детектор на 5 fps під час транзиту і 60 fps над зоною інтересу, опускаючи середню потужність у 4–5×. Конвеєр має підтримувати per-stage power gating — не лише тактові частоти GPU, а й кадрову швидкість сенсора, ISP-шлях і duty cycle радіо. Див. AI ISR data triage щодо on-board фільтрації цієї сторони.

Деградація моделі при розгортанні. Детектор, навчений на європейських літніх зображеннях і розгорнутий у балтійській зимі при -20°C, бачить інший світ: вкритий снігом рельєф змінює EO-статистику; холодні двигуни випромінюють менше IR; листя, що ховало авто у липні, у лютому облетіло. Реалістична мітигація — безперервна оцінка проти нових зібраних даних і ритм перенавчання, що міряється тижнями, а не one-shot модель "навчив-і-розгорнув", яку припускає лабораторна робота.

CV-конвеєр ISR-дрона — це не модель, а система. Модель — найменша частина. Бюджет затримки, дисципліна калібрування, формат C2-повідомлень, тепловий дизайн і ритм перенавчання — ось що вирішує, чи система працює для оператора на іншому кінці радіолінка.