Computer vision — het vermogen van een machine om visuele data te interpreteren en te begrijpen — is een van de meest operationeel significante AI-capaciteiten in moderne defensiesystemen geworden. Van UAV-gemonteerde sensoren die voertuigen in realtime identificeren tot perimeterbeveiligingssystemen die mensen van dieren onderscheiden in de nacht, transformeert on-device computer vision hoe legers visuele inlichtingen verzamelen, verwerken en ernaar handelen.
Computer vision implementeren op defensiehardware verschilt fundamenteel van implementeren in een commercieel datacenter. De modellen moeten draaien op geharde, vermogensbegrensde hardware. Ze moeten werken bij variabele belichting, weersomstandigheden en sensorcondities. Ze moeten voldoen aan latentievereisten gemeten in milliseconden, niet seconden. En ze moeten graceful falen in plaats van catastrofaal wanneer invoer buiten de trainingsdistributie valt. Dit artikel behandelt de volledige pijplijn: detectiearchitectuur, hardwareplatforms, optimalisatie, multi-objecttracking en implementatie-engineering.
Detectiepijplijn Architectuur: Van Frame naar Begrenzingskader
Een moderne objectdetectiepijplijn voor defensie edge-implementatie bestaat uit verschillende opeenvolgende fasen. De eerste fase is invoervoorverwerking: het herschalen van het inkomende frame naar de invoerresolutie van het model (doorgaans 640×640 of 1280×1280 pixels), het normaliseren van pixelwaarden naar het [0, 1] bereik en optioneel het toepassen van letterboxing om de beeldverhouding te behouden zonder vervorming. Voor thermische (LWIR) camera's omvat voorverwerking aanvullende normalisatiestappen om rekening te houden met het 14-bits of 16-bits dynamisch bereik van de sensor dat wordt gecomprimeerd naar een 8-bits of 16-bits inferentieinvoer.
Het detectiemodel zelf — momenteel gedomineerd door YOLO-varianten — neemt het voorverwerkte frame als invoer en produceert een set kandidaatdetecties: elk een begrenzingskader (x, y, breedte, hoogte), een klassewaarschijnlijkheidsvector en een objectscores core. YOLOv8, uitgebracht in 2023, introduceerde een ankervrij detectiehoofd dat de detectie van kleine objecten significant verbeterde ten opzichte van YOLOv5 — een kritieke verbetering voor luchtverkenning waarbij doelen slechts een paar pixels beslaan. YOLOv9, met zijn Programmable Gradient Information (PGI) mechanisme, verbetert verder de gradiëntstroom tijdens training en produceert betere generalisatie uit beperkte gelabelde datasets.
De laatste voorverwerkingsfase is Non-Maximum Suppression (NMS). Een detectiemodel produceert doorgaans honderden overlappende kandidaatkaders; NMS filtert deze naar de subset van detecties met de hoogste betrouwbaarheid en zonder overlap, met een Intersection-over-Union (IoU) drempel (doorgaans 0,45–0,65). On-device NMS-implementatie is van belang: een naïeve CPU-gebaseerde NMS op 1.000 kandidaten bij 30 fps verbruikt meer rekenkracht dan de modelinferentie zelf. TensorRT biedt efficiënte GPU-versnelde NMS, en voor ultra-lage-vermogens platforms is het implementeren van NMS in hardwareversnelde kernels essentieel.
Hardwareplatforms: Jetson, Hailo en Movidius Vergeleken
Drie hardwarefamilies domineren defensie edge AI-implementaties, elk met onderscheidende prestaties, vermogen en ecosysteemkenmerken:
NVIDIA Jetson AGX Orin is de prestatieleider in de geharde embedded GPU-ruimte. Met 275 TOPS (INT8) kan het meerdere grote detectiemodellen tegelijkertijd uitvoeren — bijvoorbeeld een YOLOv8-large model bij 30+ fps terwijl tegelijkertijd een trackingalgoritme en een apart classificatiemodel draaien. De AGX Orin werkt bij 10W–60W afhankelijk van de vermogensmodus, ondersteunt CUDA 11.4+, TensorRT 8.x en DeepStream SDK voor multi-camerapijplijnen. Voor voertuiggemonteerde toepassingen met een 100W+ vermogensbudget is de AGX Orin de standaardkeuze.
Hailo-8 en Hailo-8L bezetten het lage-vermogen uiteinde van hoogpresterende AI inferentie. De Hailo-8 levert 26 TOPS bij onder 3W in PCIe M.2 of mPCIe vormfactor — wat het levensvatbaar maakt voor kleine UAV-payloads en onbemande systemen. De Hailo-8L (13 TOPS) vermindert het vermogen verder tot ~1,5W. Hailo gebruikt een eigen Dataflow Architecture geoptimaliseerd voor CNN-inferentie, met de Hailo Model Zoo die voorgecompileerde versies van YOLO-varianten biedt geoptimaliseerd voor de Hailo-runtime.
Intel Movidius Myriad X en zijn opvolgarchitectuur (geïntegreerd in de Intel OpenVINO toolkit) richten zich op de integratie van vision AI met Intel's camera- en sensorecosysteem. De Myriad X levert ongeveer 4 TOPS bij ~1W, geschikt voor embedded vision-toepassingen. OpenVINO biedt een modeloptimalisatie- en implementatiepijplijn die heterogene uitvoering ondersteunt over CPU, GPU, VPU en FPGA-doelen op Intel-silicium.
Optimalisatie: TensorRT INT8 Kwantisatie en Laagfusie
Een YOLOv8-medium model getraind in PyTorch met FP32-gewichten vereist ongeveer 850 MB geheugen en draait bij ongeveer 8 fps op een NVIDIA Jetson Orin NX in zijn native vorm. Na TensorRT-optimalisatie naar INT8 vereist hetzelfde model ongeveer 210 MB en draait bij 65+ fps — een 8× doorvoerverbetering en 4× geheugenreductie, met doorgaans minder dan 1% mAP-degradatie op een representatieve kalibratiedataset.
TensorRT-optimalisatie omvat drie hoofdtechnieken. INT8-kwantisatie converteert modelgewichten en -activaties van 32-bits zwevend punt naar 8-bits integer representatie. Laagfusie combineert reeksen bewerkingen — convolutie gevolgd door batchnormalisatie gevolgd door ReLU-activatie — in één geoptimaliseerde CUDA-kernel. Kernel auto-tuning evalueert meerdere CUDA-kernel-implementaties voor elke laag op de doelgpu en selecteert de snelste.
FP16 (halve precisie) inferentie wordt vaak gebruikt als tussenliggende optimalisatiestap tussen FP32 en INT8. FP16 vereist geen kalibratiedataset en levert ruwweg een 2× versnelling zonder nauwkeurigheidsverlies op Turing/Ampere GPU-architecturen die native FP16 tensorkernsupport hebben.
Kernbevinding: Kwaliteit van kalibratiedata is de primaire bepalende factor van INT8-nauwkeurigheid. Het gebruik van afbeeldingen uit het implementatiedomein — passend bij sensortype, lichtomstandigheden en doelklassen — levert significant betere kalibratieresultaten dan het gebruik van ImageNet of andere generieke datasets. Voor LWIR thermische invoer, kalibreer uitsluitend met thermisch beeldmateriaal.
Multi-Object Tracking: DeepSORT, ByteTrack en BoT-SORT
Objectdetectie produceert per-frame detecties. Multi-object tracking (MOT) koppelt deze detecties over frames heen om persistente sporen te produceren — elk met een unieke ID, trajectgeschiedenis en snelheidsschatting. Voor defensietoepassingen is tracking even belangrijk als detectie: een doel dat 2–3 seconden achter een obstakel verdwijnt, moet correct worden heridentificeerd wanneer het terugkeert, niet een nieuwe ID toegewezen krijgen die de betrokkenings tijdlijn onderbreekt.
DeepSORT (Deep Simple Online and Realtime Tracking) was jarenlang de standaard. Het gebruikt Kalman-filtering voor trajectvoorspelling en een diep uiterlijks-kenmerkextractor (een lichtgewicht ReID-model) om detecties te koppelen aan bestaande sporen over occlusions heen. DeepSORT werkt goed wanneer doelen onderscheidende visuele verschijningen hebben maar verslechtert in drukke scènes.
ByteTrack verbetert DeepSORT door laag-betrouwbaarheids detecties te gebruiken als aanvullende associatiecues in plaats van ze te verwerpen. Dit vermindert ID-switches tijdens gedeeltelijke occlusions drastisch. ByteTrack bereikt state-of-the-art MOT-statistieken op standaard benchmarks met lagere rekenkosten dan DeepSORT, waardoor het een sterke keuze is voor edge-implementatie.
BoT-SORT voegt camerabewegingscompensatie toe aan het kader van ByteTrack. Voor een UAV-gemonteerde camera die zelf beweegt en roteert, faalt naïeve Kalman-voorspelling omdat de schijnbare beweging van een stilstaand doel groot kan zijn door de camera-ego-beweging. BoT-SORT schat camerabeweging via homografie en compenseert ervoor vóór het uitvoeren van Kalman-voorspelling, wat de trackingnauwkeurigheid voor luchtplatforms substantieel verbetert.
Implementatie-uitdagingen: Thermische Invoer, Sensorfusie en Hardening
Computer vision-modellen implementeren vanuit gecontroleerde testomgevingen naar operationele veldhardware introduceert verschillende uitdagingen die routinematig worden onderschat tijdens ontwikkeling.
IR en thermische invoerverwerking. Longwave-infrarood (LWIR) camera's werken in de 8–14 µm spectrale band en produceren 14-bits of 16-bits grijswaardenafbeeldingen die temperatuur op intensiteit afbeelden. De normalisatiebenadering is significant van belang: eenvoudige min-max normalisatie over het volledige dynamisch bereik wast laag-contrast doelen uit. Adaptive Histogram Equalization (CLAHE) toegepast per-frame of per-regio verbetert de zichtbaarheid van doelen in thermisch beeldmateriaal significant.
Sensorfusie met LWIR en EO camera's. Een veelgebruikte architectuur koppelt een EO camera (voor classificatiedetail en kleuronderscheiding) aan een LWIR camera (voor detectie door camouflage en in omstandigheden met weinig licht). Late fusie — detecties combineren van twee onafhankelijke modellen — is het meest voorkomende ingezette patroon omdat het elke sensorpijplijn in staat stelt onafhankelijk te worden geoptimaliseerd en gecertificeerd.
Geharde behuizingen. IP67-beoordeelde behuizingen (stofvrij, onderdompelingsbestendig) zijn het minimum voor veld-ingezette computer vision-hardware. MIL-STD-810H definieert omgevingstestmethoden voor schok, trillingen, temperatuurcyclus (bedrijfsbereik −40°C tot +71°C voor de meeste grondvoertuigtoepassingen, −54°C tot +85°C voor de luchtvaart), vochtigheid en hoogte.
Modelupdate-mechanismen in het veld zijn een frequent over het hoofd geziene implementatievereiste. Een model dat goed presteert in zomervegetatie kan significant verslechteren in winter of stedelijk terrein. De implementatiepijplijn moet cryptografisch ondertekende modelpakketten ondersteunen die via een beveiligd updatekanaal naar veldapparaten worden gepusht, met terugrolmogelijkheid als het nieuwe model de prestaties verslechtert.