ISR-dronen konenäköputkella on yksi tehtävä: ottaa anturiin osuvat fotonit, muuttaa ne maantieteellisesti paikallistetuiksi jäljiksi tärkeistä kohteista ja lähettää nämä jäljet C2-järjestelmään riittävän nopeasti, jotta operaattori — tai jokin muu järjestelmä — voi toimia niiden perusteella. Kaikki muu on tämän silmukan palveluksessa olevaa teknistä ylimäärää. Tässä artikkelissa käydään läpi putki päästä päähän: mallin arkkitehtuurit, jotka tunnistavat, algoritmit, jotka seuraavat, anturifuusio, joka selviää yöstä ja säästä, georeferensoinnin matematiikka, joka tekee rajaruudusta hyödyllisen, ja reunakäyttöönoton todellisuudet, jotka päättävät, toimiiko mikään tästä kentällä.
Laajempi konteksti siitä, miten tämä sopii puolustuksen tekoälypinoon, on kattavassa oppaassamme tekoälyyn puolustuksessa ja anturipuolen analyysissa sensor-to-shooter osa 2:ssa.
1. ISR CV -putki
Kanoninen putki koostuu kuudesta vaiheesta: anturikaappaus (EO ja IR), kehyksen syöttö ja synkronointi, tunnistus, moniseuranta, georeferensointi ja C2-lähetys. Päästä päähän budjetti taktisella ISR-alustalla on noin 150–250 ms seinäkelloaikaa fotonin saapumisesta jäljen päivitykseen C2-pinnalla. Yli 300 ms rikkoo operaattorin luottamuksen — 60 km/h kulkeva ajoneuvo etenee 5 metriä 300 ms:ssa.
Budjetin jakauma tyypillisellä Jetson Orin NX -luokan alustalla: 16–33 ms kaappaukseen (riippuen siitä, toimiiko anturi 30 vai 60 fps:llä), 5–10 ms ISP:lle ja demosaicille, 15–40 ms tunnistimen eteenpäinajoon, 3–8 ms seurantayhdistykseen, 10–20 ms georeferensoinnin matematiikkaan ja 20–80 ms radioyhteyteen C2:een. Radio on yleensä pahin aiheuttaja ja se, johon CV-insinööri ei voi puuttua. Kaiken laitteen sisällä on pakattava kompensoidakseen.
Kehyksen syötön synkronointi on tärkeämpää kuin ensikertalaiset odottavat. EO- ja IR-anturit eivät harvoin jaa kehyskelloa. Jos fuusiologiikkasi olettaa niiden tekevän niin, fuusioit kohteen EO-pikselin hetkellä t IR-pikselin kanssa hetkellä t-16 ms — 30 m/s kulkeva ajoneuvo on liikkunut puoli metriä. Putken on aikaleimatava anturilla, ei kuluttajalla.
2. Tunnistusarkkitehtuurit
Tunnistin on putken hallitseva laske- ja tarkkuuspäätös. Kolme perhettä ovat tällä hetkellä tärkeitä ISR-droneissa.
YOLOv8, v10, v11. Konvolutiivinen YOLO-linja on edelleen perusratkaisu — Ultralyticsin YOLOv8 ja uudemmat YOLOv10 ja v11 tuottavat 30–60 fps 640×640-koolla Jetson Orin NX:llä INT8-kvantisoinnilla. YOLOv11n (nano) saavuttaa noin 60 fps hyväksyttävällä mAP:lla ilmakuvadataseteillä; YOLOv11s (small) vaihtaa noin 30 fps:ään merkittävästi paremmalla pienen kohteen muistilla. YOLOv10 poistaa NMS-vaiheen kokonaan, leikaten 3–5 ms jälkikäsittelyviivettä, mikä on tärkeää kun jokainen millisekunti on kiistelty.
RT-DETR. Baidun reaaliaikainen DETR on transformer-vaihtoehto — kyselypohjainen tunnistin, joka ohittaa NMS:n rakenteellisesti ja tuottaa kiinteän joukon kohdekyselyjä. Benchmarkeissa RT-DETR-L vastaa tai ylittää YOLOv8-L:n mAP:n COCO:ssa suunnilleen samalla viiveellä. Ilmakuvissa transformer-huomiokaava usein käsittelee tiheitä pienen kohteen kohtauksia (pysäköidyt ajoneuvot, jalkaväkiklusterit) paremmin kuin konvolutiiviset ankkuripohjaiset tunnistimet. Hintana on suurempi malli ja hankalampi INT8-kvantisointi — transformer-huomiokerrokset heikkenevät aggressiivisen kvantisoinnin alla enemmän kuin conv-kerrokset.
Pienen kohteen ongelma. ISR-drone 1 500 metrin korkeudella 30°:n HFOV:lla näkee henkilön noin 6–10 pikselin kokoisena. Vakio-kohteiden tunnistimet, jotka on koulutettu COCO-tyylisillä kuvilla (joissa kohteet ovat tyypillisesti yli 32 pikseliä), epäonnistuvat pahasti tällä alueella. Kaksi käytännön ratkaisua ovat tiling (jaa kehys päällekkäisiin 640×640-paloihin, aja päättely per pala, sovita kuvantilassa yhteen) ja koulutus ilmakuvakohtaisilla dataseteillä — VisDrone, DOTA, xView ja yhä enemmän toimialakohtaisella synteettisellä datalla. Katso synteettinen data puolustuksen tekoälyn koulutukseen -artikkelimme putkesta.
3. Seurantaalgoritmit
Tunnistus antaa sinulle rajaruudut kehystä kohti. Seuranta muuttaa nämä identiteettivakaiksi jäljiksi ajan myötä — mikä on mitä C2-järjestelmä oikeasti tarvitsee. Hallitsevat laitteen valinnat ovat BYTETrack, StrongSORT ja OC-SORT.
BYTETrack. Halpa, nopea ja yllättävän kestävä. BYTETrackin oivallus on, että matalan luottamuksen havainnot — jotka useimmat seurantaohjelmat hylkäävät — ovat yleensä todellisia osittain peittyneitä tai tilapäisesti epäselviä kohteita. Yhdistämällä ensin korkean luottamuksen havainnot, sitten sovittamalla matalan luottamuksen ruudut sovittamattomiin jälkiin toisessa vaiheessa, BYTETrack palauttaa jäljet, jotka puhdas IoU-yhdistysmenetelmä pudottaa. Jetson Orin NX:llä seurantaohjelma lisää alle 5 ms kehystä kohti.
StrongSORT. DeepSORT:in evoluutio — Kalman-suodatin liikkeelle plus uudelleentunnistuksen ulkonäköupotus. Parempi tunnistusvaihtumistaipumuksen kohtauksissa (ajoneuvot ohittavat toisensa, peittyminen puuston alla), mutta ulkonäköupotusverkko lisää 8–15 ms kehystä kohti ja tarvitsee oman koulutusdata. Kustannusten arvoinen, kun tunnistevakaus on tärkeämpää kuin suorituskyky, esimerkiksi saattueseurannassa.
OC-SORT. Havaintokeskeinen SORT käsittelee tietyn BYTETrackin/SORTin virheen: kun kohde menetetään useiksi kehyksiksi, Kalman-suodattimen nopeusmääritys ajautuu. OC-SORT arvioi nopeuden uudelleen uudelleentunnistuksen havainnosta suodattimen ennusteen luottamisen sijaan. ISR-materiaalilla, jossa on tiheä peittyminen (kaupunkiympäristöt, metsän reuna), OC-SORT vähentää mitattavasti tunnistevaihtumisia verrattuna BYTETrackiin.
Tärisevän alustan ongelma. Kaikki nämä seurantaohjelmat olettavat, että kohteen kamerakehysliikettä hallitsee kohteen liike. Myrskyisässä ilmassa lentävällä dronella omaliike aiheuttaa suurimman osan näennäisestä pikselinopeudesta. Ratkaisu on seurata vakaistettua tai maailmankehystä: joko syötä seurantaohjelmalle valmiiksi vakaistettuja kehyksiä (homografiapohjainen pyöristyksen poisto IMU:ta vasten), tai aja Kalman-suodatin georeferensoiduissa koordinaateissa kuvakoordinaattien sijaan. Jälkimmäinen vaatii enemmän työtä, mutta tuottaa dramaattisesti puhtaampia jälkiä.
4. EO + IR -anturifuusio
Pelkkä EO-ISR-drone on päiväplatformi. Pelkkä IR-drone ratkaisee lämpölähteet, mutta ei pysty lukemaan ajoneuvon merkkejä, laskemaan henkilöstöä luotettavasti etäisyydeltä tai erottamaan samankaltaisia lämpötiloja olevia houkutuksia. Operatiivinen ISR vaatii molempia, ja vaatii niiden fuusiota.
Myöhäinen fuusio ajaa itsenäiset tunnistimet EO- ja IR-virroilla ja sovittaa jäljet alajuoksulla. Yksinkertaisempi toteuttaa, vikaantuu hallitusti jos yksi anturi heikkenee, mutta menettää modaliteettienvälisen signaalin — heikko EO-kontakti vahvistettuna selkeällä IR-sormenjäljellä pitäisi tuottaa korkean luottamuksen jälki, ja myöhäinen fuusio käsittelee tämän hankalasti.
Aikainen fuusio pinoo EO- ja IR-kanavat yhdeksi tensoriksi ja kouluttaa tunnistimen yhdistetyssä syötteessä. Parempi modaliteettienväline suorituskyky, mutta vaatii kohdistettua dataa — mikä vaatii optisen akselin kalibroinnin kurinalaisuutta. EO- ja IR-optiikka jakaa harvoin optisen akselin; ne tarvitsevat lentokohtaisen kalibroinnin (tyypillisesti shakkilauta- tai kuumakohde kalibrointi ennen lentoa) ja uudelleenkalibroinnin jokaisen huoltotapahtuman jälkeen.
Päivä-yö-siirtymä. Epäonnistumisalttisin hetki on iltahämärä ja aamunkoitto, kun EO-kontrasti romahtaa, mutta IR-kohtaus on myös minimaalisen lämpökontrastitila (kaikki on ympäristölämpötilassa). Hyvä fuusioputki portittaa antorikohtaisen luottamuksen kohtaustason mittareiden perusteella — kuvanlaaja kontrasti, histogrammitilastot — ja painottaa fuusioitua tunnistusta uudelleen vastaavasti, eikä luota kiinteään aikaisen fuusion painoon ympäri vuorokauden.
5. Georeferensointi kehysnopeudella
Rajaruutu pikselikoordinaateissa on hyödytön C2-järjestelmälle. Rajaruutu on projisoitava maantieteelliseen koordinaattiin (leveysaste, pituusaste, korkeus) virheellipsin kanssa. Matematiikka sisältää: dronen sijainnin (GPS, usein INS-fuusioitu), dronen asenteen (IMU), gimbalin asennon suhteessa ilmakehykseen (gimbalin enkoderit), kameran intrinsiset parametrit (polttopiste, päätepiste) ja maastomallin (mieluiten DTED taso 2 tai parempi DEM) pikselisuoran projisoinnista maainterferenssiin.
Kaksi käytännön todellisuutta. Ensinnäkin georeferensoinnin viive kilpailee tunnistusviiveen kanssa. Naivi toteutus, joka lukee gimbalin enkoderit ja IMU:n C2-lähetyshetkellä, tuo 50–100 ms virheen todelliseen kehyksen aikaleimaan — 30 m/s maanopeudella se on 1,5–3 metrin sijaintivirhe. Enkoderi- ja IMU-näytteet on aikaleimatava ja interpoloitava kehyksen valotuksen keskenäiseen hetkeen.
Toiseksi virhebudjetti. 1 500 metrin vinoetäisyydellä 0,5°:n gimbalin asentoepävarmuudella maaprojisoitu virhe on noin 13 metriä ennen GPS-epävarmuuden, maastomallin virheen ja ajoitusvinon lisäämistä. Realistinen CEP hyvin suunnitellulle taktiselle järjestelmälle on 15–25 metriä tyypillisissä ISR-korkeuksissa. Mikä tahansa tätä tiukempi raportointi on joko sankarillista insinöörityötä tai toiveajattelua.
6. Mallivalinta reunakäyttöönottoon
Laskenta-alusta rajoittaa kaikkea. Nykyiset ISR-droneluokan vaihtoehdot:
Jetson Orin Nano (8 GB) — noin 40 TOPS INT8, sopii YOLOv8n/v11n:lle 640×640 plus kevyt seurantaohjelma. Tehokuori 7–15 W. Hyvä ryhmä 1/2 -alustoille, joissa ilmakehys ei pysty hajottamaan enempää.
Jetson Orin NX (16 GB) — noin 100 TOPS INT8. Ajaa YOLOv11s:ää mukavasti 60 fps:llä, RT-DETR-R18:ta noin 30 fps:llä, StrongSORT:ia ulkonäköupotuksella. 10–25 W. Nykyinen makea paikka taktiselle ISR:lle.
Jetson AGX Orin (32/64 GB) — noin 275 TOPS INT8. Ajaa suurempia malleja, monivirrattaista käyttöä (EO+IR samanaikaisesti ilman GPU:n jakamista) ja jättää tilaa lisäCV-tehtäville (muutostunnistus, luokittelupäät). 15–60 W — yleensä ryhmä 3 -alustan päätös.
INT8-kvantisoinnin todellisuudet. Float32 → INT8 tuottaa tyypillisesti 3–4× päättelynopeutuksen ja 4× muistinvähennyksen 0,5–1,5 mAP-menettämisellä hyvin kvantisoiduissa tunnistimissa. Sudenkuopat: transformer-huomio kvantisoituu huonommin kuin konvoluutiot; kalibrointidatan on oltava edustavaa käyttöönottokuvauksen suhteen (kalibroiminen COCO:lla ja käyttöönotto termisellä IR:llä on malpraktis); ja jotkut mukautetut kerrokset palaavat FP16:een, menettäen hiljaa nopeuden. ONNX/TensorRT-optimointiopas kattaa työkaluketjun.
TensorRT vs ONNX Runtime. Jetsonilla TensorRT on oikea vastaus tuotantoon — moottorin rakennukset viritetty tarkalle GPU SM -luvulle, INT8-kalibrointiputket kypsät, ytimen fuusio aggressiivinen. ONNX Runtime TensorRT-suorituspalveluntarjoajalla on hyväksyttävä kehitykseen ja antaa 80–90% TensorRT-natiivin suorituskyvystä yksinkertaisemmalla käyttöönottotarinalla. Puhdas CUDA EP menettää 30–50%.
7. Reaaliaikainen tuloste C2:een
Putken tuote on virta maantieteellisesti paikallistetuista, identiteettivakaisista jäljistä sekä niitä tuottaneesta täysliikevideosta. Yhteentoimivat formaatit on hyvin määritelty.
CoT (Cursor-on-Target). XML-pohjainen tapahtumaformaatti, MITRE:n luoma, TAK-ekosysteemin C2:n (ATAK, WinTAK, iTAK) yhteinen kieli. CoT-tapahtuma koodaa pisteen (lat/lon/korkeus virheellipsin kanssa), tyyppikoodin (esim. a-h-G-U-C-I vihamieliselle maajoukolle) ja vapaata yksityiskohtaa. Drone, joka julkaisee CoT:ia 0,5–1 s välein seurattua kohdetta kohti, integroituu natiivisti operaattorin näyttöihin.
MISB 0903 VMTI. Video Moving Target Indicator — NATO/MISB-standardi havainnon ja jälkimetadatan upottamiseen KLV:nä täysliikevideo viereen. VMTI-paketti MISB 0601 -koodatussa MPEG-TS-virrassa kantaa kehyskohtaisia kohdelistoja georeferensoiduilla sijainneilla, nopeuksilla ja luottamuksilla. Vaaditaan kaikille alustoille, joiden on liityttävä NATO-luokan 1 ISR FMV -kuluttajiin.
Viestiväylän kuviot. Ilmakehyksen sisällä ROS 2, Zenoh tai MQTT kantaa välilliset viestit tunnistimen, seurantaohjelman, georeferensoijan ja radioalavirtaprosessin välillä. Zenohin pub-sub-query-malli käsittelee epäjatkuvat yhteydet hyvin — radio katkeaa, laitteen store-and-forward pitää jäljet, ja C2-asiakas saa kiinni uudelleenkytkennässä.
8. Kenttätodellisuudet
Kaikki yllä oleva on helppo osa. Vaikea osa on pitää se toiminnassa kentällä.
Tärinä. 2 kg:n nelikopteri täyskaasulla tärisee kameran kiinnikettä 100–200 Hz:llä. Rullaavat suljinanturit summentavat; globaalit suljin-anturit eivät, mutta maksavat enemmän ja hajottavat enemmän. Tunnistimen tarkkuus liike-epäterävässä kuvassa laskee 5–15 mAP-pistettä, ellei koulutusjoukko sisällä liike-epäteräviä näytteitä.
Lämpö. Jetson Orin NX 100 TOPS:lla hajottaa yli 20 W sinetöidyssä hyötykuormassa, joka itse voi olla suorassa auringonpaisteessa +45°C:ssa. Ilman aktiivista jäähdytystä lämpörajoitus alkaa 90 sekunnin kuluessa — ja rajoitettu GPU pudottaa tunnistimen fps:n 40–60%. Hyötykuorman lämpökuorison suunnittelu on yhtä suuri CV-insinöörointikysymys kuin mallivalinta.
Matalan tehon tilat. Leijaava ISR-tehtävä voi haluta tunnistimen toimivan 5 fps:llä kauttakulun aikana ja 60 fps:llä kiinnostusalueen yllä, laskien keskimääräistä tehoa 4–5×. Putken on tuettava vaiheen mukaista tehoportitusta — ei pelkästään GPU-kelloja, vaan anturin kehysnopeutta, ISP-polkua ja radion käyttöjaksoa. Katso tekoäly ISR-datan triage laitteen suodatuksen puolelle tästä.
Mallin heikkeneminen käyttöönottoa pitkin. Tunnistin, joka on koulutettu eurooppalaisella kesäkuvauksialla ja otettu käyttöön -20°C:n Baltian talvessa, näkee erilaisen maailman: lumipeitteisen maaston heijastuvuus muuttaa EO-tilastoja; kylmät moottorit lähettävät vähemmän IR:ää; heinäkuussa ajoneuvot peittänyt lehvistö on lehdettömänä helmikuussa. Realistinen lieventäminen on jatkuva arviointi uutta kerättyä dataa vasten ja uudelleenkoulutustahti viikkoina mitattuna, ei laboratoriotyön olettama kertakoulutus-ja-käyttöönotto-malli.
ISR-dronen CV-putki ei ole malli — se on järjestelmä. Malli on pienin osa. Viivebudjetti, kalibroinnin kurinalaisuus, C2-viestiformaatti, lämpösuunnittelu ja uudelleenkoulutustahti ovat mitä päättää, toimiiko järjestelmä radiolinkin toisessa päässä olevalle operaattorille.