Een computer vision-pijplijn op een ISR-drone heeft één taak: fotonen die een sensor raken omzetten in geogelokaliseerde sporen van objecten die van belang zijn, en die sporen snel genoeg naar een command-and-control systeem pushen zodat een operator — of een ander systeem — ernaar kan handelen. Al het andere is engineering-overhead in dienst van die lus. Dit artikel doorloopt de pijplijn van begin tot eind: de modelarchitecturen die detecteren, de algoritmen die tracken, de sensorfusie die nacht en weer overleeft, de georeferentiëringswiskunde die een begrenzingskader bruikbaar maakt, en de edge-implementatierealiteiten die bepalen of al het bovenstaande in het veld werkt.
Voor bredere context over hoe dit past in de defensie AI-stapel, zie onze volledige gids voor AI in defensie en de sensor-edge-analyse in sensor-naar-schutter deel 2.
1. De ISR CV Pijplijn
De canonieke pijplijn heeft zes fasen: sensoropname (EO en IR), frame-ingestie en synchronisatie, detectie, multi-object tracking, georeferentiëring en C2-push. Van begin tot eind is het budget op een tactisch ISR-platform ruwweg 150–250 ms wall-clock van fotonaankomst tot sporupdate op het C2-oppervlak. Alles boven 300 ms breekt het vertrouwen van de operator — een rijdend voertuig bij 60 km/u legt 5 meter af in 300 ms.
De budgetverdeling op een typisch Jetson Orin NX-klasse platform: 16–33 ms voor opname (afhankelijk van of de sensor bij 30 of 60 fps werkt), 5–10 ms voor ISP en demosaic, 15–40 ms voor de detector voorwaartse pas, 3–8 ms voor tracking-associatie, 10–20 ms voor georeferentiëringswiskunde en 20–80 ms voor de radioverbinding naar C2. De radio is doorgaans de ergste overtreder en degene die de CV-engineer niet kan repareren. Alles aan boord moet comprimeren om te compenseren.
Frame-ingestie-synchronisatie is van groter belang dan beginners verwachten. EO en IR-sensoren delen zelden een frameklok. Als uw fusielogica aanneemt dat ze dit doen, fusioneert u de EO-pixel van een doel op t met de IR-pixel op t-16 ms — een voertuig bij 30 m/s is een halve meter verplaatst. De pijplijn moet tijdstempels bij de sensor toevoegen, niet bij de consument.
2. Detectiearchitecturen
De detector is de dominante berekenings- en nauwkeurigheidsbeslissing in de pijplijn. Drie families zijn momenteel van belang op ISR-drones.
YOLOv8, v10, v11. De convolutionele YOLO-lijn blijft het werkpaard — Ultralytics' YOLOv8 en de nieuwere YOLOv10 en v11 leveren 30–60 fps bij 640×640 op Jetson Orin NX met INT8-kwantisatie. YOLOv11n (nano) haalt ~60 fps bij aanvaardbare mAP op luchtdatasets; YOLOv11s (small) handelt naar ~30 fps met materieel betere kleine-objectterugroeping. YOLOv10 verwijdert de NMS-stap volledig, waarmee 3–5 ms naverwerkingslatentie wordt bespaard, wat van belang is wanneer elke milliseconde betwist is.
RT-DETR. Baidu's realtime DETR is het transformer-alternatief — een query-gebaseerde detector die NMS overslaat en een vaste set objectquery's produceert. Op benchmarks evenaart of verslaat RT-DETR-L YOLOv8-L mAP op COCO bij vergelijkbare latentie. Op luchtbeeldmateriaal verwerkt het transformer-aandachtspatroon vaak dichte kleine-objectscènes (geparkeerde voertuigen, infanterieclusters) beter dan convolutionele ankerbasis detectoren.
Het kleine-objectprobleem. Een ISR-drone op 1500 m AGL met een 30° HFOV ziet een persoon als ruwweg 6–10 pixels aan een kant. Standaard objectdetectoren getraind op COCO-stijl beeldmateriaal (waarbij objecten doorgaans >32 pixels zijn) falen ernstig in dit regime. De twee praktische oplossingen zijn tegeling (splits het frame in overlappende 640×640 patches, voer inferentie per patch uit, versoen in beeldruimte) en training op luchtspecifieke datasets — VisDrone, DOTA, xView en toenemend domeinspecifieke synthetische data.
3. Trackingalgoritmen
Detectie geeft u begrenzingskaders per frame. Tracking zet die om in identiteitstabiele sporen over de tijd — dat is wat een C2-systeem daadwerkelijk nodig heeft. De dominante aan-boord keuzes zijn BYTETrack, StrongSORT en OC-SORT.
BYTETrack. Goedkoop, snel en verrassend robuust. BYTETrack's inzicht is dat laag-betrouwbaarheids detecties — die de meeste trackers verwerpen — gewoonlijk echte objecten zijn die gedeeltelijk verborgen of tijdelijk ambigu zijn. Door eerst hoog-betrouwbaarheids detecties te associëren, dan laag-betrouwbaarheidskaders te koppelen aan niet-overeenkomende sporen in een tweede pas, herstelt BYTETrack sporen die pure IoU-associatiemethoden laten vallen. Op een Jetson Orin NX voegt de tracker <5 ms per frame toe.
StrongSORT. Een evolutie van DeepSORT — Kalman-filter voor beweging plus een heridentificatie-uiterlijks-embedding. Beter op ID-switch-gevoelige scènes maar het uiterlijks-embedding-netwerk voegt 8–15 ms per frame toe en heeft zijn eigen trainingsdata nodig. De kosten waard wanneer ID-stabiliteit meer van belang is dan doorvoer, bijvoorbeeld bij konvooitracking.
OC-SORT. Observation-Centric SORT adresseert een specifieke BYTETrack/SORT-fout: wanneer een object meerdere frames is verloren, driftet de snelheidsschatting van het Kalman-filter. OC-SORT schat de snelheid opnieuw uit de observatie bij heridentificatie in plaats van de filtervoorspelling te vertrouwen. Op ISR-materiaal met frequente occlusie (stedelijke omgevingen, bosrand) vermindert OC-SORT ID-switches meetbaar versus BYTETrack.
Het trillend-platform probleem. Al deze trackers gaan ervan uit dat de cameraframe-beweging van een object gedomineerd wordt door objectbewegingen. Op een drone in turbulente lucht draagt ego-beweging het meeste bij aan de schijnbare pixelsnelheid. De oplossing is te tracken in een gestabiliseerd of wereldframe.
4. EO + IR Sensorfusie
Een EO-only ISR-drone is een dagtime-platform. Een IR-only drone lost warmtebronnen op maar kan de markeringen van een voertuig niet lezen, personeel niet betrouwbaar tellen op afstand, of gelijkaardige-temperatuurlokvogels niet onderscheiden. Operationele ISR vereist beide, en vereist dat ze fusioneren.
Late fusie voert onafhankelijke detectoren uit op EO- en IR-streams en versoen sporen stroomafwaarts. Eenvoudiger te ontwerpen, faalt graceful als één sensor verslechtert, maar verliest het cross-modaal signaal.
Vroege fusie stapelt EO- en IR-kanalen in één tensor en traint een detector over de gecombineerde invoer. Betere cross-modale prestaties, maar vereist uitgelijnde data — wat boresight-kalibratiediscipline vereist. EO- en IR-optica delen zelden een boresight; ze hebben per-airframe kalibratie nodig.
Dag-nacht overdracht. Het meest foutgevoelige moment is schemering en dageraad, wanneer EO-contrast instort maar de IR-scène ook bij minimaal thermisch contrast is. Een goede fusiepijplijn bemiddelt per-sensor betrouwbaarheid op basis van scèneniveau-statistieken.
5. Georeferentiëring bij Framesnelheid
Een begrenzingskader in pixelcoördinaten is nutteloos voor een C2-systeem. Het begrenzingskader moet worden geprojecteerd naar een geografische coördinaat (breedte, lengte, hoogte), met een foutenellips. De wiskunde omvat: de positie van de drone (GPS, vaak INS-gefusioneerd), de houding van de drone (IMU), de gimbalpositie ten opzichte van het vliegtuig (gimbalecoders), de camera-intrinsics (brandpuntsafstand, principaal punt) en een terreinmodel om de pixelstraal te projecteren naar de grondintersectie.
De realistische CEP voor een goed ontworpen tactisch-klasse systeem is 15–25 meter bij typische ISR-hoogtes. Alles wat strakker wordt gemeld, is ofwel heroïsche engineering of wensdenken.
6. Modelselectie voor Edge-Implementatie
Het rekenbereik begrenst alles. De huidige ISR-drone-klasse opties:
Jetson Orin Nano (8 GB) — ~40 TOPS INT8, geschikt voor YOLOv8n/v11n bij 640×640 plus een lichte tracker. Vermogensenvelop 7–15 W. Goed voor Groep 1/2-platforms waar het vliegtuig niet meer kan afgeven.
Jetson Orin NX (16 GB) — ~100 TOPS INT8. Voert YOLOv11s comfortabel uit bij 60 fps, RT-DETR-R18 bij ~30 fps, StrongSORT met uiterlijks-embedding. 10–25 W. De huidige ideale keuze voor tactische ISR.
Jetson AGX Orin (32/64 GB) — ~275 TOPS INT8. Voert grotere modellen uit, multi-stream (EO+IR tegelijkertijd zonder de GPU te delen) en laat ruimte over voor aanvullende CV-taken. 15–60 W — gewoonlijk een Groep 3-platformbeslissing.
INT8-kwantisatierealiteiten. Float32 → INT8 levert doorgaans 3–4× inferentieversnelling en 4× geheugenreductie met 0,5–1,5 mAP-verlies. De valkuilen: transformer-aandacht kwantiseert slechter dan convoluties; kalibratiedata moet representatief zijn voor implementatiebeeldmateriaal; en sommige aangepaste lagen vallen terug naar FP16. Onze ONNX/TensorRT optimalisatiegids behandelt de toolchain.
7. Realtime Output naar C2
Het product van de pijplijn is een stroom van geogelokaliseerde, identiteitstabiele sporen plus de full-motion video die ze produceerde. De interoperabele formaten zijn goed gedefinieerd.
CoT (Cursor-on-Target). XML-gebaseerd gebeurtenisformaat, voortgekomen uit MITRE, de lingua franca van TAK-ecosysteem C2 (ATAK, WinTAK, iTAK). Een CoT-gebeurtenis codeert een punt (breedte/lengte/hoogte met foutenellips), een typecode en vrije-vorm details. Een drone die elke 0,5–1 s CoT per getrackt object publiceert, integreert native met operatordisplays.
MISB 0903 VMTI. Video Moving Target Indicator — de NATO/MISB-standaard voor het inbedden van detectie- en sporenmetadata in KLV naast full-motion video. Vereist voor elk platform dat verbinding moet maken met NATO Klasse 1 ISR FMV-consumenten.
Berichtenbus-patronen. Binnen het vliegtuig dragen ROS 2, Zenoh of MQTT tussenliggende berichten tussen de detector, tracker, georeferentiëring en het radiodownlink-proces. Zenoh's pub-sub-query model handelt intermitterende verbindingen goed af.
8. Veldrealiteiten
Al het bovenstaande is het gemakkelijke deel. Het moeilijke deel is het werkend houden in het veld.
Trilling. Een 2 kg quadcopter op vol vermogen trilt de cameramontage bij 100–200 Hz. Rolling-shutter sensoren geven bewegingsvervaging; global-shutter sensoren niet, maar kosten meer. Detectornauwkeurigheid op bewegingsvaag beeldmateriaal daalt 5–15 mAP-punten tenzij de trainingsset bewegingsvage samples bevat.
Thermisch. Een Jetson Orin NX die bij 100 TOPS werkt, geeft 20+ W af in een verzegelde payload die zelf in direct zonlicht bij +45°C kan zijn. Zonder actieve koeling treedt thermische throttling op binnen 90 seconden — en een gethrotteld GPU verlaagt de detector fps met 40–60%.
Lage-vermogensmodi. Een rondscharrelende ISR-missie kan de detector bij 5 fps tijdens transit en 60 fps boven het interessegebied willen draaien, waardoor het gemiddeld vermogen met 4–5× daalt. Zie AI ISR datatriage voor de aan-boord filterkant hiervan.
Modeldegradatie over implementatie. Een detector getraind op Europees zomers beeldmateriaal en ingezet in -20°C Baltische winter ziet een andere wereld. De realistische mitigatie is continue evaluatie tegen nieuw verzamelde data en een hertrainingscadans gemeten in weken.
Een ISR-drone CV-pijplijn is geen model — het is een systeem. Het model is het kleinste deel. Het latentiebudget, de kalibratiediscipline, het C2-berichtformaat, het thermische ontwerp en de hertrainingscadans zijn wat bepaalt of het systeem werkt voor de operator aan het andere uiteinde van de radioverbinding.