Computer vision dla dronów ISR: detekcja, śledzenie i potok czasu rzeczywistego

Potok computer vision na dronie ISR ma jedno zadanie: wziąć fotony uderzające w sensor, zamienić je w geolokalizowane ślady obiektów, które mają znaczenie, i wysłać te ślady do systemu dowodzenia i kierowania wystarczająco szybko, aby operator — lub inny system — mógł na nie zareagować. Wszystko inne to narzut inżynierski w służbie tej pętli. Ten artykuł prowadzi przez potok end-to-end: architektury modeli, które wykrywają, algorytmy, które śledzą, fuzja sensorów przeżywająca noc i pogodę, matematyka georeferencjonowania, która czyni bounding box użytecznym, oraz realia wdrożenia na edge'u, które decydują, czy cokolwiek z tego działa w polu.

Aby uzyskać szerszy kontekst, gdzie to pasuje w stosie AI obronnej, zobacz nasz kompletny przewodnik po AI w obronności oraz analizę sensor-edge w sensor-to-shooter część 2.

1. Potok CV ISR

Kanoniczny potok ma sześć etapów: przechwytywanie z sensora (EO i IR), ingest i synchronizacja klatek, detekcja, śledzenie wielu obiektów, georeferencjonowanie i push do C2. End-to-end budżet na taktycznej platformie ISR to z grubsza 150–250 ms wall-clock od przybycia fotonu do aktualizacji śladu na powierzchni C2. Cokolwiek powyżej 300 ms łamie zaufanie operatora — poruszający się pojazd przy 60 km/h pokonuje 5 metrów w 300 ms.

Rozbicie budżetu na typowej platformie klasy Jetson Orin NX: 16–33 ms na przechwytywanie (w zależności od tego, czy sensor pracuje przy 30 czy 60 fps), 5–10 ms na ISP i demosaic, 15–40 ms na przebieg detektora, 3–8 ms na asocjację śledzenia, 10–20 ms na matematykę georeferencjonowania i 20–80 ms na link radiowy do C2. Radio jest zazwyczaj najgorszym sprawcą i tym, którego inżynier CV nie może naprawić. Wszystko na pokładzie musi się skompresować, aby to skompensować.

Synchronizacja ingest klatek ma większe znaczenie, niż początkujący oczekują. Sensory EO i IR rzadko dzielą zegar klatek. Jeśli twoja logika fuzji zakłada, że tak, fuzjujesz piksel EO celu w czasie t z pikselem IR w czasie t-16 ms — pojazd przy 30 m/s przesunął się o pół metra. Potok musi znakować czas na sensorze, nie u konsumenta.

2. Architektury detekcji

Detektor to dominująca decyzja obliczeniowa i dokładnościowa w potoku. Trzy rodziny obecnie mają znaczenie na dronach ISR.

YOLOv8, v10, v11. Konwolucyjna linia YOLO pozostaje koniem roboczym — YOLOv8 Ultralytics oraz nowsze YOLOv10 i v11 dostarczają 30–60 fps przy 640×640 na Jetson Orin NX z kwantyzacją INT8. YOLOv11n (nano) osiąga ~60 fps przy akceptowalnym mAP na zbiorach lotniczych; YOLOv11s (small) wymienia to na ~30 fps z materialnie lepszym recall małych obiektów. YOLOv10 całkowicie usuwa krok NMS, oszczędzając 3–5 ms opóźnienia post-processingu, co ma znaczenie, gdy każda milisekunda jest sporna.

RT-DETR. Real-time DETR Baidu to alternatywa transformerowa — detektor oparty na zapytaniach, który pomija NMS z założenia i produkuje stały zestaw zapytań o obiekty. Na benchmarkach RT-DETR-L dorównuje lub przewyższa mAP YOLOv8-L na COCO przy porównywalnym opóźnieniu. Na obrazach lotniczych transformerowy wzorzec uwagi często obsługuje gęste sceny z małymi obiektami (zaparkowane pojazdy, klastry piechoty) lepiej niż konwolucyjne detektory oparte na anchor. Kosztem jest większy model i trudniejsza kwantyzacja INT8 — warstwy uwagi transformera degradują się bardziej pod agresywną kwantyzacją niż warstwy conv.

Problem małych obiektów. Dron ISR na 1500 m AGL z 30° HFOV widzi osobę jako z grubsza 6–10 pikseli z boku. Standardowe detektory obiektów trenowane na obrazach w stylu COCO (gdzie obiekty mają zazwyczaj >32 pikseli) zawodzą poważnie w tym reżimie. Dwie praktyczne poprawki to tilowanie (podziel klatkę na nakładające się patche 640×640, uruchom inferencję per patch, uzgodnij w przestrzeni obrazu) i trening na zbiorach lotniczych — VisDrone, DOTA, xView oraz coraz częściej domain-specific dane syntetyczne. Zobacz nasz artykuł o danych syntetycznych dla treningu obronnej AI dla potoku.

3. Algorytmy śledzenia

Detekcja daje ci bounding boxy per klatka. Śledzenie zamienia je w ślady stabilne tożsamościowo w czasie — co jest tym, czego system C2 faktycznie potrzebuje. Dominujące wybory on-board to BYTETrack, StrongSORT i OC-SORT.

BYTETrack. Tani, szybki i zaskakująco solidny. Wgląd BYTETrack polega na tym, że detekcje o niskiej pewności — które większość trackerów odrzuca — są zwykle prawdziwymi obiektami częściowo zasłoniętymi lub tymczasowo niejednoznacznymi. Asocjując najpierw detekcje wysokiej pewności, a następnie dopasowując boxy niskiej pewności do niedopasowanych śladów w drugim przebiegu, BYTETrack odzyskuje ślady, które metody czystej asocjacji IoU porzucają. Na Jetson Orin NX tracker dodaje <5 ms na klatkę.

StrongSORT. Ewolucja DeepSORT — filtr Kalmana dla ruchu plus embedding wyglądu re-identyfikacji. Lepszy na scenach podatnych na ID-switch (pojazdy mijające się, okluzja pod osłoną drzew), ale sieć embeddingu wyglądu dodaje 8–15 ms na klatkę i potrzebuje własnych danych treningowych. Warty kosztu, gdy stabilność ID ma większe znaczenie niż przepustowość, na przykład w śledzeniu konwojów.

OC-SORT. Observation-Centric SORT adresuje specyficzną porażkę BYTETrack/SORT: gdy obiekt jest zgubiony przez kilka klatek, oszacowanie prędkości filtra Kalmana dryfuje. OC-SORT ponownie szacuje prędkość z obserwacji przy re-identyfikacji, zamiast ufać predykcji filtra. Na nagraniach ISR z częstą okluzją (środowiska miejskie, krawędź lasu) OC-SORT mierzalnie redukuje przełączenia ID w porównaniu z BYTETrack.

Problem chwiejnej platformy. Wszystkie te trackery zakładają, że ruch obiektu w klatce kamery jest zdominowany przez ruch obiektu. Na dronie w turbulentnym powietrzu ego-motion wnosi większość pozornej prędkości pikselowej. Rozwiązaniem jest śledzenie w ustabilizowanej lub światowej klatce: albo karm tracker wstępnie ustabilizowanymi klatkami (de-rotacja oparta na homografii względem IMU), albo uruchom filtr Kalmana w współrzędnych georeferencjonowanych, a nie obrazu. To drugie to więcej pracy, ale produkuje dramatycznie czystsze ślady.

4. Fuzja sensorów EO + IR

Dron ISR tylko-EO to platforma dzienna. Dron tylko-IR rozpoznaje źródła ciepła, ale nie może odczytać oznakowań pojazdu, niezawodnie policzyć personelu na dystansie ani odróżnić wabików o podobnej temperaturze. Operacyjny ISR wymaga obu i wymaga, aby się fuzjowały.

Late fusion uruchamia niezależne detektory na strumieniach EO i IR i uzgadnia ślady downstream. Prostsze w inżynierii, zawodzi z gracją, jeśli jeden sensor degraduje, ale traci sygnał cross-modalny — słaby kontakt EO wzmocniony przez wyraźną sygnaturę IR powinien produkować ślad o wysokiej pewności, a late fusion obsługuje to niezgrabnie.

Early fusion układa kanały EO i IR w jeden tensor i trenuje detektor na połączonym wejściu. Lepsza wydajność cross-modalna, ale wymaga wyrównanych danych — co wymaga dyscypliny kalibracji boresight. Optyki EO i IR rzadko dzielą boresight; wymagają kalibracji per płatowiec (zazwyczaj szachownica lub kalibracja hot-target przed lotem) i ponownej kalibracji po każdym zdarzeniu konserwacyjnym.

Przekazanie dzień-noc. Najbardziej podatny na porażkę moment to zmierzch i świt, gdy kontrast EO zapada się, ale scena IR jest również na minimalnym kontraście termicznym (wszystko jest w temperaturze otoczenia). Dobry potok fuzji bramkuje pewność per-sensor metrykami na poziomie sceny — kontrast na poziomie obrazu, statystyki histogramu — i ponownie waży zfuzjowaną detekcję odpowiednio, zamiast ufać stałej wadze early-fusion 24 godziny na dobę.

5. Georeferencjonowanie przy frame rate

Bounding box we współrzędnych pikselowych jest bezużyteczny dla systemu C2. Bounding box musi zostać zaprojektowany na współrzędną geograficzną (szerokość, długość, wysokość) z elipsą błędu. Matematyka obejmuje: pozycję drona (GPS, często INS-fused), postawę drona (IMU), pozę gimbala względem płatowca (enkodery gimbala), wewnętrzne parametry kamery (ogniskowa, punkt główny) i model terenu (idealnie DTED Level 2 lub lepszy DEM), aby odprojektować promień pikselowy do przecięcia z gruntem.

Dwie praktyczne realia. Po pierwsze, opóźnienie georeferencjonowania konkuruje z opóźnieniem detekcji. Naiwna implementacja, która odczytuje enkodery gimbala i IMU w momencie push do C2, wprowadza błąd 50–100 ms względem rzeczywistego znacznika czasu klatki — przy 30 m/s prędkości naziemnej to 1,5–3 metra błędu pozycji. Próbki enkoderów i IMU muszą być znakowane czasem i interpolowane do środka czasu ekspozycji klatki.

Po drugie, budżet błędu. Przy zasięgu skośnym 1500 m z 0,5° niepewności pozy gimbala, błąd projekcji na grunt wynosi z grubsza 13 metrów, zanim dodasz niepewność GPS, błąd modelu terenu i skew czasowy. Realistyczne CEP dla dobrze zaprojektowanego systemu klasy taktycznej to 15–25 metrów na typowych wysokościach ISR. Cokolwiek raportowane ciaśniej to albo heroiczna inżynieria, albo myślenie życzeniowe.

6. Dobór modelu dla wdrożenia edge

Platforma obliczeniowa ogranicza wszystko. Obecne opcje klasy dron ISR:

Jetson Orin Nano (8 GB) — ~40 TOPS INT8, odpowiedni dla YOLOv8n/v11n przy 640×640 plus lekki tracker. Koperta mocy 7–15 W. Dobry dla platform Group 1/2, gdzie płatowiec nie może rozpraszać więcej.

Jetson Orin NX (16 GB) — ~100 TOPS INT8. Uruchamia YOLOv11s komfortowo przy 60 fps, RT-DETR-R18 przy ~30 fps, StrongSORT z embeddingiem wyglądu. 10–25 W. Obecne sweet spot dla taktycznego ISR.

Jetson AGX Orin (32/64 GB) — ~275 TOPS INT8. Uruchamia większe modele, multi-stream (EO+IR równocześnie bez współdzielenia GPU) i zostawia headroom na dodatkowe zadania CV (detekcja zmian, głowice klasyfikacyjne). 15–60 W — zazwyczaj decyzja platformy Group 3.

Realia kwantyzacji INT8. Float32 → INT8 zazwyczaj dostarcza 3–4× przyspieszenia inferencji i 4× redukcji pamięci z 0,5–1,5 stratą mAP na dobrze skwantyzowanych detektorach. Pułapki: uwaga transformera kwantyzuje się gorzej niż konwolucje; dane kalibracyjne muszą być reprezentatywne dla obrazów wdrożenia (kalibracja na COCO i wdrożenie na termalnym IR to nadużycie); a niektóre niestandardowe warstwy spadają do FP16, cicho tracąc przyspieszenie. Nasz przewodnik optymalizacji ONNX/TensorRT obejmuje toolchain.

TensorRT vs ONNX Runtime. Na Jetson TensorRT to właściwa odpowiedź dla produkcji — buildy silnika dostrojone do dokładnej liczby SM GPU, dojrzałe potoki kalibracji INT8, agresywna fuzja kerneli. ONNX Runtime z TensorRT execution provider jest akceptowalny dla developmentu i daje 80–90% wydajności natywnego TensorRT z prostszą historią wdrożenia. Czysty CUDA EP traci 30–50%.

7. Wyjście w czasie rzeczywistym do C2

Produktem potoku jest strumień geolokalizowanych, stabilnych tożsamościowo śladów plus full-motion video, które je wyprodukowało. Interoperacyjne formaty są dobrze zdefiniowane.

CoT (Cursor-on-Target). Format zdarzeń oparty na XML, zapoczątkowany przez MITRE, lingua franca ekosystemu TAK C2 (ATAK, WinTAK, iTAK). Zdarzenie CoT koduje punkt (lat/lon/wysokość z elipsą błędu), kod typu (np. a-h-G-U-C-I dla wrogiej jednostki naziemnej) i dowolny szczegół. Dron publikujący CoT co 0,5–1 s na śledzony obiekt integruje się natywnie z wyświetlaczami operatora.

MISB 0903 VMTI. Video Moving Target Indicator — standard NATO/MISB do osadzania metadanych detekcji i śladu w KLV obok full-motion video. Pakiet VMTI wewnątrz strumienia MPEG-TS zakodowanego MISB 0601 niesie per-frame listy celów z georeferencjonowaną pozycją, prędkością i pewnością. Wymagany dla każdej platformy, która musi podłączyć się do konsumentów NATO Class 1 ISR FMV.

Wzorce message-bus. Wewnątrz płatowca ROS 2, Zenoh lub MQTT przenoszą wiadomości pośrednie między detektorem, trackerem, georeferencerem i procesem downlink radiowego. Model pub-sub-query Zenoh dobrze obsługuje przerywane linki — radio pada, on-board store-and-forward trzyma ślady, a klient C2 nadrabia po reconnect.

8. Realia w polu

Wszystko powyżej to łatwa część. Trudna część to utrzymanie tego w działaniu w polu.

Wibracje. Kwadrokopter 2 kg na pełnym gazie wibruje mocowanie kamery przy 100–200 Hz. Sensory rolling-shutter rozmywają; sensory global-shutter nie, ale kosztują więcej i rozpraszają więcej. Dokładność detektora na obrazach rozmytych ruchem spada o 5–15 punktów mAP, chyba że zbiór treningowy zawiera próbki rozmyte ruchem.

Termika. Jetson Orin NX pracujący przy 100 TOPS rozprasza 20+ W w zamkniętym payloadzie, który sam może być w bezpośrednim słońcu przy +45°C. Bez aktywnego chłodzenia thermal throttling włącza się w ciągu 90 sekund — a throttle GPU spada fps detektora o 40–60%. Projektowanie koperty termicznej payloadu jest tak samo troską inżynierii CV, jak wybór modelu.

Tryby niskiej mocy. Misja loitering ISR może chcieć detektora pracującego przy 5 fps podczas tranzytu i 60 fps nad obszarem zainteresowania, obniżając średnią moc 4–5×. Potok musi wspierać per-stage power gating — nie tylko zegary GPU, ale klatkowanie sensora, ścieżkę ISP i duty cycle radia. Zobacz triage danych AI ISR dla strony filtrowania on-board.

Degradacja modelu w trakcie wdrożenia. Detektor trenowany na europejskich letnich obrazach i wdrożony w bałtyckiej zimie -20°C widzi inny świat: śnieg pokrywający teren zmienia statystyki reflectance EO; zimne silniki emitują mniej IR; listowie, które ukrywało pojazdy w lipcu, jest bezlistne w lutym. Realistyczna mitygacja to ciągła ewaluacja względem nowych zebranych danych i kadencja ponownego treningu mierzona w tygodniach, nie one-shot model treningu-i-wdrożenia, który zakłada praca laboratoryjna.

Potok CV drona ISR nie jest modelem — jest systemem. Model to najmniejsza część. Budżet opóźnienia, dyscyplina kalibracji, format wiadomości C2, projekt termiczny i kadencja ponownego treningu decydują, czy system działa dla operatora po drugiej stronie linku radiowego.