Viziunea prin calculator — capacitatea unei mașini de a interpreta și înțelege datele vizuale — a devenit una dintre cele mai semnificative operațional capabilități AI din sistemele moderne de apărare. De la senzorii montați pe UAV care identifică vehicule în timp real la sistemele de securitate perimetrală care disting oamenii de animale noaptea, viziunea prin calculator pe dispozitiv transformă modul în care armatele colectează, procesează și acționează pe baza informațiilor vizuale.
Implementarea viziunii prin calculator pe hardware de apărare este fundamental diferită față de implementarea într-un centru de date comercial. Modelele trebuie să ruleze pe hardware blindat, cu constrângeri de putere. Trebuie să funcționeze în condiții variabile de iluminare, vreme și senzori. Trebuie să îndeplinească cerințe de latență măsurate în milisecunde, nu secunde. Și trebuie să eșueze gradat, nu catastrofal, atunci când intrările cad în afara distribuției de antrenament. Acest articol acoperă întreaga conductă: arhitectura de detectare, platformele hardware, optimizarea, urmărirea mai multor obiecte și ingineria implementării.
Arhitectura Conductei de Detectare: De la Cadru la Casetă de Limitare
O conductă modernă de detectare a obiectelor pentru implementarea la margine în apărare constă din mai multe etape secvențiale. Prima etapă este preprocesarea intrării: redimensionarea cadrului primit la rezoluția de intrare a modelului (tipic 640×640 sau 1280×1280 pixeli), normalizarea valorilor pixelilor la intervalul [0, 1] și opțional aplicarea letterboxing pentru a păstra raportul de aspect fără distorsiune. Pentru camerele termice (LWIR), preprocesarea include pași suplimentari de normalizare pentru a contabiliza intervalul dinamic pe 14 biți sau 16 biți al senzorului comprimat într-o intrare de inferență pe 8 biți sau 16 biți.
Modelul de detectare în sine — dominat în prezent de variante YOLO — ia cadrul preprocesate ca intrare și produce un set de detecții candidate: fiecare cu o casetă de limitare (x, y, lățime, înălțime), un vector de probabilitate de clasă și un scor de obiectivitate. YOLOv8, lansat în 2023, a introdus un cap de detectare fără ancore care a îmbunătățit semnificativ detectarea obiectelor mici față de YOLOv5 — o îmbunătățire critică pentru recunoașterea aeriană unde țintele ocupă doar câțiva pixeli. YOLOv9, cu mecanismul său de Informații de Gradient Programabile (PGI), îmbunătățește și mai mult fluxul de gradient în timpul antrenamentului și produce o mai bună generalizare din seturi de date cu etichete limitate.
Etapa finală de preprocesare este Non-Maximum Suppression (NMS). Un model de detectare produce tipic sute de casete candidate suprapuse; NMS le filtrează la subsetul de detecții cu cea mai mare încredere și fără suprapunere, folosind un prag Intersection-over-Union (IoU) (tipic 0,45–0,65). Implementarea NMS pe dispozitiv contează: un NMS naiv pe CPU pe 1.000 de candidați la 30 fps consumă mai multă putere de calcul decât inferența modelului însuși. TensorRT furnizează NMS accelerat GPU eficient, iar pentru platformele cu putere ultra-scăzută, implementarea NMS în nuclee accelerate hardware este esențială.
Platforme Hardware: Comparație Jetson, Hailo și Movidius
Trei familii hardware domină implementările edge AI de apărare, fiecare cu caracteristici distincte de performanță, putere și ecosistem:
NVIDIA Jetson AGX Orin este liderul de performanță în spațiul GPU încorporat blindat. La 275 TOPS (INT8), poate rula simultan mai multe modele de detectare mari — de exemplu, un model YOLOv8-large la 30+ fps concomitent cu rularea unui algoritm de urmărire și a unui model de clasificare separat. AGX Orin funcționează la 10W–60W în funcție de modul de putere, suportă CUDA 11.4+, TensorRT 8.x și DeepStream SDK pentru conducte multi-cameră. Memoria unificată LPDDR5 de 64 GB permite ponderi mari ale modelului și tampoane mari de cadre simultan. Pentru aplicațiile montate pe vehicule cu un buget de putere de 100W+, AGX Orin este alegerea standard.
Hailo-8 și Hailo-8L ocupă capătul de putere scăzută al inferenței AI de înaltă performanță. Hailo-8 livrează 26 TOPS sub 3W în factor de formă PCIe M.2 sau mPCIe — făcându-l viabil pentru sarcini utile mici de UAV și sisteme portabile. Hailo-8L (13 TOPS) reduce puterea și mai mult la ~1,5W. Hailo folosește o Arhitectură Dataflow proprietară optimizată pentru inferența CNN, cu Hailo Model Zoo furnizând versiuni pre-compilate ale variantelor YOLO optimizate pentru execuția Hailo. Compromisul: ecosistemul Hailo este mai îngust decât cel NVIDIA — arhitecturile de modele personalizate necesită efort suplimentar de conversie prin Hailo Dataflow Compiler.
Intel Movidius Myriad X și arhitectura sa succesor (integrată în setul de instrumente Intel OpenVINO) vizează integrarea AI vizual cu ecosistemul de camere și senzori Intel. Myriad X livrează aproximativ 4 TOPS la ~1W, potrivit pentru aplicații de viziune încorporată. OpenVINO furnizează o conductă de optimizare și implementare a modelelor care suportă execuție heterogenă pe ținte CPU, GPU, VPU și FPGA pe siliciu Intel. Pentru programele care utilizează camerele de adâncime Intel RealSense sau integrate cu conductele Intel ISP, Movidius furnizează cea mai strânsă integrare hardware.
Optimizare: Cuantizarea TensorRT INT8 și Fuziunea Straturilor
Un model YOLOv8-medium antrenat în PyTorch cu ponderi FP32 necesită aproximativ 850 MB de memorie și rulează la aproximativ 8 fps pe un NVIDIA Jetson Orin NX în forma sa nativă. După optimizarea TensorRT la INT8, același model necesită aproximativ 210 MB și rulează la 65+ fps — o îmbunătățire de 8× a debitului și o reducere de 4× a memoriei, cu tipic mai puțin de 1% degradare mAP pe un set de date de calibrare reprezentativ.
Optimizarea TensorRT implică trei tehnici principale. Cuantizarea INT8 convertește ponderile modelului și activările din reprezentarea flotantă pe 32 de biți în reprezentarea întreagă pe 8 biți, folosind un set de date de calibrare (tipic 500–1.000 de imagini reprezentative) pentru a determina factorii optimi de scalare a cuantizării per strat. Fuziunea straturilor combină secvențe de operații — convoluție urmată de normalizare batch urmată de activare ReLU — într-un singur nucleu CUDA optimizat, eliminând overhead-ul lățimii de bandă a memoriei de scriere și citire a rezultatelor intermediare. Auto-ajustarea nucleelor evaluează mai multe implementări de nuclee CUDA pentru fiecare strat pe hardware-ul GPU țintă și o selectează pe cea mai rapidă, luând în considerare numărul specific de nuclee CUDA și ierarhia de memorie a dispozitivului de implementare.
Inferența FP16 (precizie jumătate) este adesea utilizată ca pas de optimizare intermediar între FP32 și INT8. FP16 nu necesită un set de date de calibrare și livrează aproximativ un accelerare de 2× fără pierdere de acuratețe pe arhitecturile GPU Turing/Ampere care au suport nativ de nuclee tensor FP16.
Perspectivă cheie: Calitatea datelor de calibrare este factorul primar determinant al acurateței INT8. Folosirea imaginilor din domeniul de implementare — tipul de senzor, condițiile de iluminare și clasele de ținte corespunzătoare — produce rezultate de calibrare semnificativ mai bune decât utilizarea ImageNet sau a altor seturi de date generice. Pentru intrările termice LWIR, calibrați exclusiv cu imagini termice.
Urmărirea Mai Multor Obiecte: DeepSORT, ByteTrack și BoT-SORT
Detectarea obiectelor produce detecții per cadru. Urmărirea mai multor obiecte (MOT) leagă aceste detecții de-a lungul cadrelor pentru a produce urme persistente — fiecare cu un ID unic, istoricul traiectoriei și estimarea vitezei. Pentru aplicațiile de apărare, urmărirea este la fel de importantă ca detectarea: o țintă care dispare în spatele unui obstacol timp de 2–3 secunde trebuie reidentificată corect când reapare, nu i se atribuie un nou ID care întrerupe cronologia angajamentului.
DeepSORT (Deep Simple Online and Realtime Tracking) a fost standardul timp de câțiva ani. Folosește filtrarea Kalman pentru predicția traiectoriei și un extractor de caracteristici de aspect profund (un model ReID ușor) pentru a potrivi detecțiile cu urmele existente în ocluzioni. Modelul ReID adaugă overhead computațional, dar îmbunătățește semnificativ reidentificarea după ocluzie. DeepSORT funcționează bine când țintele au aspect vizual distinct, dar se degradează în scene aglomerate unde multe ținte cu aspect similar se încrucișează.
ByteTrack îmbunătățește DeepSORT prin utilizarea detecțiilor cu încredere scăzută (sub pragul standard) ca indicii suplimentare de asociere în loc să le elimine. Aceasta reduce dramatic schimbările de ID în ocluzioni parțiale, unde încrederea de detectare a unei ținte scade temporar. ByteTrack atinge metrici de stat al artei MOT pe benchmark-uri standard cu un cost computațional mai mic decât DeepSORT, făcându-l o alegere puternică pentru implementarea la margine.
BoT-SORT (Robust Associations Multi-Pedestrian Tracking) adaugă compensarea mișcării camerei la cadrul ByteTrack. Pentru o cameră montată pe UAV care se mișcă și se rotește, predicția naivă Kalman eșuează deoarece mișcarea aparentă a unei ținte staționare poate fi mare din cauza ego-mișcării camerei. BoT-SORT estimează mișcarea camerei din homografie (folosind potrivirea caracteristicilor între cadre) și o compensează înainte de a rula predicția Kalman, îmbunătățind substanțial acuratețea urmăririi pentru platformele aeriene.
Provocări de Implementare: Intrări Termice, Fuziunea Senzorilor și Blindarea
Implementarea modelelor de viziune prin calculator din mediile de testare controlate pe hardware de câmp operațional introduce mai multe provocări care sunt sistematic subestimate în dezvoltare.
Procesarea intrărilor IR și termice. Camerele cu infraroșu cu undă lungă (LWIR) funcționează în banda spectrală 8–14 µm și produc imagini în tonuri de gri pe 14 biți sau 16 biți care mapează temperatura la intensitate. Abordarea de normalizare contează semnificativ: normalizarea simplă min-max pe întregul interval dinamic spală țintele cu contrast scăzut. Egalizarea adaptivă a histogramei (CLAHE) aplicată per cadru sau per regiune îmbunătățește semnificativ vizibilitatea țintei în imagini termice. Modelele antrenate pe imagini EO trebuie reantrenate sau ajustate fin pe date termice; transferul cross-modal nu funcționează fiabil.
Fuziunea senzorilor cu camere LWIR și EO. O arhitectură comună asociază o cameră EO (pentru detalii de clasificare și discriminare a culorilor) cu o cameră LWIR (pentru detectare prin camuflaj și în condiții de lumină scăzută). Fuzionarea detecțiilor de la doi senzori necesită calibrare extrinsecă (alinierea câmpurilor de vedere geometric), sincronizare temporală (asigurarea alinierii marcajelor temporale ale cadrelor) și o strategie de fuziune — fie fuziune timpurie (combinarea hărților de caracteristici de la ambii senzori), fuziune tardivă (combinarea detecțiilor din două modele independente) sau fuziune la nivel de decizie (votul pe rezultatele de detectare independente). Fuziunea tardivă este cea mai comună în sistemele de apărare implementate deoarece permite ca fiecare conductă de senzori să fie optimizată și certificată independent.
Carcase blindate. Carcasele clasificate IP67 (rezistente la praf, rezistente la imersie) sunt minimul pentru hardware-ul de viziune prin calculator implementat pe câmp. MIL-STD-810H definește metodele de testare de mediu pentru șoc, vibrații, cicluri de temperatură (intervalul de funcționare −40°C până la +71°C pentru majoritatea aplicațiilor pe vehicule terestre, −54°C până la +85°C pentru aviație), umiditate și altitudine. Hardware-ul trebuie calificat pentru secvențele de testare MIL-STD aplicabile înainte de implementare. Gestionarea termică în carcasele sigilate — prevenirea temperaturii joncțiunii GPU de a depăși limitele sigure fără răcire cu ventilator sau aerisit — necesită tipic răcire prin conducție prin peretele carcasei la un difuzor de căldură sau șasiul vehiculului.
Mecanismele de actualizare a modelului pe câmp sunt o cerință de implementare frecvent trecută cu vederea. Un model care performează bine în vegetația de vară se poate degrada semnificativ în iarna sau în teren urban. Conducta de implementare trebuie să suporte pachete de modele semnate criptografic împinse pe dispozitivele de câmp printr-un canal de actualizare securizat, cu capabilitate de revenire dacă noul model degradează performanța.