O conductă de viziune prin calculator pe o dronă ISR are un singur job: să preia fotonii care lovesc un senzor, să îi transforme în urme geolocalizate ale obiectelor care contează și să trimită acele urme unui sistem de comandă și control suficient de rapid încât un operator — sau un alt sistem — să poată acționa pe baza lor. Orice altceva este overhead de inginerie în serviciul acelui ciclu. Acest articol parcurge conducta de la capăt la capăt: arhitecturile de model care detectează, algoritmii care urmăresc, fuziunea senzorilor care supraviețuiește nopții și vremii, matematica de georeferențiere care face o casetă de limitare utilă și realitățile implementării la margine care decid dacă oricare dintre acestea funcționează pe câmp.
Pentru un context mai larg despre locul în care aceasta se încadrează în stiva AI de apărare, consultați ghidul nostru complet privind AI în apărare și analiza marginii senzorului în de la senzor la trăgător, partea 2.
1. Conducta CV pentru ISR
Conducta canonică are șase etape: captura senzorului (EO și IR), ingestia și sincronizarea cadrelor, detectarea, urmărirea mai multor obiecte, georeferențierea și trimiterea la C2. De la capăt la capăt, bugetul pe o platformă ISR tactică este de aproximativ 150–250 ms timp real de la sosirea fotonului la actualizarea urmei pe suprafața C2. Orice depășește 300 ms rupe încrederea operatorului — un vehicul în mișcare la 60 km/h parcurge 5 metri în 300 ms.
Distribuția bugetului pe o platformă tipică de clasă Jetson Orin NX: 16–33 ms pentru captură (în funcție de dacă senzorul rulează la 30 sau 60 fps), 5–10 ms pentru ISP și demosaicing, 15–40 ms pentru pasul înainte al detectorului, 3–8 ms pentru asocierea urmăririi, 10–20 ms pentru matematica de georeferențiere și 20–80 ms pentru legătura radio la C2. Radio-ul este de obicei cel mai mare vinovat și cel pe care inginerul CV nu îl poate repara. Tot ce este la bord trebuie comprimat pentru a compensa.
Sincronizarea ingestiei cadrelor contează mai mult decât se așteptă cei neinițiați. Senzorii EO și IR rar partajează un ceas de cadre. Dacă logica dvs. de fuziune presupune că o fac, fuzionați pixelul EO al unei ținte la momentul t cu pixelul IR la t-16 ms — un vehicul la 30 m/s s-a deplasat jumătate de metru. Conducta trebuie să marcheze temporal la senzor, nu la consumator.
2. Arhitecturi de Detectare
Detectorul este decizia dominantă de calcul și acuratețe din conductă. Trei familii contează în prezent pe drone ISR.
YOLOv8, v10, v11. Linia convoluțională YOLO rămâne calul de bătaie — YOLOv8 al Ultralytics și mai noul YOLOv10 și v11 livrează 30–60 fps la 640×640 pe Jetson Orin NX cu cuantizare INT8. YOLOv11n (nano) atinge ~60 fps la mAP acceptabil pe seturi de date aeriene; YOLOv11s (small) face compromis la ~30 fps cu un recall semnificativ mai bun al obiectelor mici. YOLOv10 elimină complet pasul NMS, reducând 3–5 ms de latență post-procesare, ceea ce contează atunci când fiecare milisecundă este contestată.
RT-DETR. DETR-ul în timp real al Baidu este alternativa transformatoare — un detector bazat pe interogare care sare peste NMS prin design și produce un set fix de interogări de obiecte. Pe benchmark-uri RT-DETR-L egalează sau depășește mAP YOLOv8-L pe COCO în timp ce rulează la latență comparabilă. Pe imagini aeriene, modelul de atenție al transformatoarelor gestionează adesea mai bine scenele dense cu obiecte mici (vehicule parcate, grupuri de infanterie) decât detectoarele bazate pe ancore convoluționale. Costul este un model mai mare și o cuantizare INT8 mai dificilă — straturile de atenție ale transformatoarelor se degradează mai mult sub cuantizarea agresivă decât straturile conv.
Problema obiectelor mici. O dronă ISR la 1500 m altitudine cu un HFOV de 30° vede o persoană ca aproximativ 6–10 pixeli pe latură. Detectoarele de obiecte standard antrenate pe imagini de stil COCO (unde obiectele au tipic >32 pixeli) eșuează grav în acest regim. Cele două soluții practice sunt fragmentarea (împărțiți cadrul în patch-uri suprapuse de 640×640, rulați inferența per patch, reconciliați în spațiul imaginii) și antrenamentul pe seturi de date specifice aeriene — VisDrone, DOTA, xView și din ce în ce mai mult date sintetice specifice domeniului. Consultați articolul nostru despre date sintetice pentru antrenamentul AI de apărare pentru conductă.
3. Algoritmi de Urmărire
Detectarea vă oferă casete de limitare per cadru. Urmărirea le transformă în urme cu identitate stabilă de-a lungul timpului — ceea ce un sistem C2 are de fapt nevoie. Alegerile dominante la bord sunt BYTETrack, StrongSORT și OC-SORT.
BYTETrack. Ieftin, rapid și surprinzător de robust. Ideea BYTETrack este că detecțiile cu încredere scăzută — pe care majoritatea urmăritorilor le elimină — sunt de obicei obiecte reale parțial ocluzionate sau temporar ambigue. Asociind mai întâi detecțiile cu încredere ridicată, apoi potrivind casetele cu încredere scăzută cu urmele fără potrivire într-un al doilea pas, BYTETrack recuperează urmele pe care metodele de asociere pure IoU le pierd. Pe un Jetson Orin NX urmăritorul adaugă <5 ms per cadru.
StrongSORT. O evoluție a DeepSORT — filtru Kalman pentru mișcare plus un embedding de aspect de reidentificare. Mai bun în scenele predispuse la schimbări de ID (vehicule care se depășesc, ocluzie sub acoperire de copaci) dar rețeaua de embedding de aspect adaugă 8–15 ms per cadru și are nevoie de propriile date de antrenament. Merită costul când stabilitatea ID-ului contează mai mult decât debitul, de exemplu în urmărirea convoaielor.
OC-SORT. Observation-Centric SORT abordează un eșec specific BYTETrack/SORT: când un obiect este pierdut pentru mai multe cadre, estimarea de viteză a filtrului Kalman derivă. OC-SORT re-estimează viteza din observația la reidentificare mai degrabă decât să aibă încredere în predicția filtrului. Pe imagini ISR cu ocluzie frecventă (medii urbane, marginea pădurii) OC-SORT reduce măsurabil schimbările de ID față de BYTETrack.
Problema platformei instabile. Toți acești urmăritori presupun că mișcarea în cadrul camerei a unui obiect este dominată de mișcarea obiectului. Pe o dronă în aer turbulent, ego-mișcarea contribuie la cea mai mare parte a vitezei aparente în pixeli. Soluția este urmărirea într-un cadru stabilizat sau mondial: fie alimentați urmăritorul cu cadre pre-stabilizate (de-rotație bazată pe homografie față de IMU), fie rulați filtrul Kalman în coordonate georeferențiate în loc de coordonate ale imaginii. Acesta din urmă necesită mai multă muncă, dar produce urme semnificativ mai curate.
4. Fuziunea Senzorilor EO + IR
O dronă ISR numai EO este o platformă de zi. O dronă numai IR rezolvă sursele de căldură, dar nu poate citi marcajele unui vehicul, nu poate număra personalul fiabil la distanță sau nu poate distinge momeală cu temperaturi similare. ISR operațional necesită ambele și necesită să se fuzioneze.
Fuziunea tardivă rulează detectori independenți pe fluxuri EO și IR și reconciliază urmele în aval. Mai simplu de proiectat, eșuează gradat dacă un senzor se degradează, dar pierde semnalul cross-modal — un contact EO slab întărit de o semnătură IR clară ar trebui să producă o urmă cu încredere ridicată, și fuziunea tardivă gestionează aceasta incomod.
Fuziunea timpurie stivuiește canalele EO și IR într-un singur tensor și antrenează un detector pe intrarea combinată. Performanță cross-modală mai bună, dar necesită date aliniate — ceea ce necesită disciplina calibrării boresight. Optica EO și IR rar partajează un boresight; necesită calibrare per aeronavă (tipic o calibrare tablă de șah sau țintă fierbinte înainte de zbor) și re-calibrare după orice eveniment de întreținere.
Tranziția zi-noapte. Momentul cel mai predispus la eșec este amurgul și zorile, când contrastul EO se prăbușește, dar scena IR se află și la contrast termic minim (totul este la temperatura ambientală). O conductă bună de fuziune condiționează încrederea per senzor prin metrici la nivel de scenă — contrast la nivelul întregii imagini, statistici ale histogramei — și re-ponderează detecția fuzionată în consecință, în loc să aibă încredere într-o pondere de fuziune timpurie fixă 24 de ore pe zi.
5. Georeferențierea la Rata Cadrelor
O casetă de limitare în coordonate de pixeli este inutilă pentru un sistem C2. Caseta de limitare trebuie proiectată la o coordonată geografică (latitudine, longitudine, elevație), cu o elipsă de eroare. Matematica implică: poziția dronei (GPS, adesea fusionat INS), atitudinea dronei (IMU), poza giroscopului relativ la aeronavă (encodere ale giroscopului), intrinsecele camerei (distanța focală, punctul principal) și un model de teren (ideal un DEM DTED Nivel 2 sau mai bun) pentru a proiecta raza pixelului la intersecția cu solul.
Două realități practice. Prima, latența georeferențierii concurează cu latența detecției. O implementare naivă care citește encoderele giroscopului și IMU-ul la momentul trimiterii la C2 introduce o eroare de 50–100 ms față de marca temporală reală a cadrului — la o viteză la sol de 30 m/s aceasta reprezintă 1,5–3 metri de eroare de poziție. Eșantioanele encoderului și IMU-ului trebuie marcate temporal și interpolate la punctul de mijloc al expunerii cadrului.
A doua, bugetul de eroare. La o raza de slant de 1500 m cu o incertitudine de 0,5° a pozei giroscopului, eroarea proiectată la sol este de aproximativ 13 metri înainte de a adăuga incertitudinea GPS, eroarea modelului de teren și decalajul de timp. CEP realist pentru un sistem de clasă tactică bine proiectat este de 15–25 metri la altitudini ISR tipice. Orice raportat mai strâns de atât este fie inginerie eroică, fie gândire de tip wishful.
6. Selectarea Modelului pentru Implementarea la Margine
Platforma de calcul constrânge totul. Opțiunile actuale de clasă dronă ISR:
Jetson Orin Nano (8 GB) — ~40 TOPS INT8, potrivit pentru YOLOv8n/v11n la 640×640 plus un urmăritor ușor. Anvelopa de putere 7–15 W. Bun pentru platformele Grupului 1/2 unde aeronava nu poate disipa mai mult.
Jetson Orin NX (16 GB) — ~100 TOPS INT8. Rulează YOLOv11s confortabil la 60 fps, RT-DETR-R18 la ~30 fps, StrongSORT cu embedding de aspect. 10–25 W. Punctul dulce actual pentru ISR tactic.
Jetson AGX Orin (32/64 GB) — ~275 TOPS INT8. Rulează modele mai mari, multi-flux (EO+IR simultan fără a partaja GPU-ul) și lasă marge de manevră pentru sarcini CV suplimentare (detectarea schimbărilor, capete de clasificare). 15–60 W — de obicei o decizie pentru platforma Grupului 3.
Realitățile cuantizării INT8. Float32 → INT8 livrează tipic o accelerare de 3–4× a inferenței și o reducere de 4× a memoriei cu o pierdere de 0,5–1,5 mAP pe detectori bine cuantizați. Capcanele: atenția transformatorului se cuantizează mai prost decât convoluțiile; datele de calibrare trebuie să fie reprezentative pentru imaginile de implementare (calibrarea pe COCO și implementarea pe IR termic este malpractice); și unele straturi personalizate revin la FP16, pierzând silențios accelerarea. Ghidul nostru de optimizare ONNX/TensorRT acoperă lanțul de instrumente.
TensorRT față de ONNX Runtime. Pe Jetson, TensorRT este răspunsul corect pentru producție — construcțiile de motor ajustate la numărul exact de SM al GPU-ului, conductele de calibrare INT8 mature, fuziunea nucleelor agresivă. ONNX Runtime cu furnizorul de execuție TensorRT este acceptabil pentru dezvoltare și oferă 80–90% din performanța nativă TensorRT cu o poveste de implementare mai simplă. EP-ul CUDA pur pierde 30–50%.
7. Ieșire în Timp Real la C2
Produsul conductei este un flux de urme geolocalizate cu identitate stabilă plus videoclipul full-motion care le-a produs. Formatele interoperabile sunt bine definite.
CoT (Cursor-on-Target). Format de eveniment bazat pe XML, originar de la MITRE, lingua franca a ecosistemului TAK C2 (ATAK, WinTAK, iTAK). Un eveniment CoT codifică un punct (lat/lon/elevație cu elipsă de eroare), un cod de tip (de ex. a-h-G-U-C-I pentru o unitate terestră inamică) și detalii în formă liberă. O dronă care publică CoT la fiecare 0,5–1 s per obiect urmărit se integrează nativ cu afișajele operatorilor.
MISB 0903 VMTI. Video Moving Target Indicator — standardul NATO/MISB pentru încorporarea metadatelor de detectare și urmărire în KLV alături de videoclipul full-motion. Un pachet VMTI în interiorul fluxului MPEG-TS codificat MISB 0601 transportă liste de ținte per cadru cu poziție georeferențiată, viteză și încredere. Necesar pentru orice platformă care trebuie să se conecteze la consumatorii NATO de FMV ISR Clasa 1.
Modele de magistrală de mesaje. În interiorul aeronavei, ROS 2, Zenoh sau MQTT transportă mesaje intermediare între detector, urmăritor, georeferențiator și procesul de downlink radio. Modelul pub-sub-query al Zenoh gestionează bine legăturile intermitente — radio-ul cade, stocarea și redirecționarea la bord păstrează urmele, iar clientul C2 recuperează la reconectare.
8. Realități pe Teren
Tot ce este de mai sus este partea ușoară. Partea grea este menținerea funcționării pe câmp.
Vibrații. Un quadcopter de 2 kg la putere maximă vibrează montajul camerei la 100–200 Hz. Senzorii cu obturator rulant produc neclaritate; senzorii cu obturator global nu o fac, dar costă mai mult și disipă mai mult. Acuratețea detectorului pe imagini neclare prin mișcare scade cu 5–15 puncte mAP dacă setul de antrenament nu include eșantioane neclare prin mișcare.
Termic. Un Jetson Orin NX care rulează la 100 TOPS disipă 20+ W într-o sarcină utilă sigilată care poate fi ea însăși în soare direct la +45°C. Fără răcire activă, limitarea termică intră în acțiune în 90 de secunde — iar un GPU cu limitare termică scade fps-ul detectorului cu 40–60%. Proiectarea anvelopei termice a sarcinii utile este la fel de mult o preocupare de inginerie CV ca și alegerea modelului.
Moduri de putere scăzută. O misiune ISR de andurare poate dori detectorul rulând la 5 fps în timpul tranzitului și la 60 fps peste zona de interes, reducând puterea medie cu 4–5×. Conducta trebuie să suporte blocarea puterii per etapă — nu doar ceasurile GPU, ci și rata de cadre a senzorului, calea ISP și ciclul de service al radio-ului. Consultați trierea datelor ISR AI pentru latura de filtrare la bord a acestui aspect.
Degradarea modelului pe durata implementării. Un detector antrenat pe imagini de vară europeană și implementat în iarna baltică de -20°C vede o lume diferită: reflectanța terenului acoperit de zăpadă schimbă statisticile EO; motoarele reci emit mai puțin IR; foliajul care ascundea vehiculele în iulie este fără frunze în februarie. Atenuarea realistă este evaluarea continuă față de datele colectate nou și un cadence de re-antrenament măsurat în săptămâni, nu modelul de antrenare-și-implementare o singură dată pe care îl presupune munca de laborator.
O conductă CV pentru drone ISR nu este un model — este un sistem. Modelul este cea mai mică parte. Bugetul de latență, disciplina de calibrare, formatul de mesaje C2, designul termic și cadence-ul de re-antrenament sunt cele care decid dacă sistemul funcționează pentru operatorul de la celălalt capăt al legăturii radio.