Konenäkö — koneen kyky tulkita ja ymmärtää visuaalista dataa — on tullut yhdeksi operatiivisesti merkittävimmistä tekoälykyvyistä nykyaikaisissa puolustusjärjestelmissä. UAV-kiinnitetyistä antureista, jotka tunnistavat ajoneuvoja reaaliajassa, perimeterturvallisuusjärjestelmiin, jotka erottavat ihmiset eläimistä öisin, laitteen paikallinen konenäkö muuttaa tapaa, jolla armeijat keräävät, käsittelevät ja toimivat visuaalisen tiedustelun pohjalta.
Konenäön käyttöönotto puolustuslaitteistolla on perustavanlaatuisesti erilaista kuin kaupallisessa datakeskuksessa. Mallien on toimittava ruggeroiduilla, teholtaan rajoitetuilla laitteistoilla. Niiden on toimittava vaihtelevissa valo-, sää- ja anturiolosuhteissa. Niiden on täytettävä viivevaatimukset millisekunneissa, ei sekunneissa. Ja niiden on epäonnistuttava hallitusti eikä katastrofaalisesti, kun syötteet jäävät koulutusjakauman ulkopuolelle. Tämä artikkeli kattaa koko putken: tunnistusarkkitehtuurin, laitteistoalustat, optimoinnin, moniseurannan ja käyttöönoton tekniset ratkaisut.
Tunnistusputken arkkitehtuuri: kehyksestä rajaruutuun
Nykyaikainen kohteiden tunnistusputki puolustuksen reunakäyttöönottoon koostuu useista peräkkäisistä vaiheista. Ensimmäinen vaihe on syötteen esikäsittely: tulevan kehyksen koon muuttaminen mallin syöttötarkkuuteen (tyypillisesti 640×640 tai 1280×1280 pikseliä), pikseliarvojen normalisointi välille [0, 1] ja valinnaisesti letterboxingin käyttö kuvasuhteen säilyttämiseksi ilman vääristymää. Termisille (LWIR) kameroille esikäsittely sisältää lisänormalisointivaiheita, joissa otetaan huomioon anturin 14-bittinen tai 16-bittinen dynaaminen alue pakattuna 8-bittiseksi tai 16-bittiseksi päättelynsyötteeksi.
Itse tunnistusmalli — tällä hetkellä YOLO-varianttien hallitsema — ottaa esikäsitellyn kehyksen syötteenä ja tuottaa joukon ehdokashavaintoja: kukin rajaruutuna (x, y, leveys, korkeus), luokkatorvektorina ja kohde-arvopisteenä. Vuonna 2023 julkaistu YOLOv8 esitteli ankkurivapaan tunnistuspään, joka paransi merkittävästi pienten kohteiden tunnistusta YOLOv5:een verrattuna — kriittinen parannus ilmatiedustelussa, jossa kohteet vievät vain muutaman pikselin. YOLOv9 lisää ohjelmoitavan gradienttitiedon (PGI) mekanisminsa avulla, joka parantaa gradienttivirtaa koulutuksen aikana ja tuottaa paremman yleistämisen rajallisista merkityistä dataseteistä.
Viimeinen esikäsittelyvaihe on Non-Maximum Suppression (NMS). Tunnistusmalli tuottaa tyypillisesti satoja päällekkäisiä ehdokaslaatikoita; NMS suodattaa nämä korkeimman luottamuksen, ei-päällekkäisten havaintojen osajoukoksi käyttäen Intersection-over-Union (IoU) -kynnystä (tyypillisesti 0,45–0,65). Laitteen NMS-toteutus on tärkeää: naivi CPU-pohjainen NMS 1 000 ehdokkaalla 30 fps:llä kuluttaa enemmän laskentaa kuin itse mallin päättely. TensorRT tarjoaa tehokkaan GPU-kiihdytetyn NMS:n, ja ultramatalatehoalustoille NMS:n toteutus laitteistokiihdytetyissä ytimissä on välttämätöntä.
Laitteistoalustat: Jetson, Hailo ja Movidius vertailussa
Kolme laitteistoperhettä hallitsee puolustuksen reunatekoälyn käyttöönottoa, kullakin on omat suorituskyky-, teho- ja ekosysteemiominaisuutensa:
NVIDIA Jetson AGX Orin on suorituskyvyn johtaja ruggeroidussa sulautetussa GPU-tilassa. 275 TOPS:lla (INT8) se voi ajaa useita suuria tunnistusmalleja samanaikaisesti — esimerkiksi YOLOv8-large-mallia 30+ fps:llä samalla kun se ajaa samanaikaisesti seurantaalgoritmia ja erillistä luokittelumallia. AGX Orin toimii 10W–60W tehotilasta riippuen, tukee CUDA 11.4+, TensorRT 8.x:ää ja DeepStream SDK:ta monikameraputkille. Sen 64 GB LPDDR5-yhtenäinen muisti mahdollistaa suuret mallinpainot ja suuret kehyspuskurit samanaikaisesti. Ajoneuvokiinnitteisiin sovelluksiin, joilla on yli 100 W:n tehokuori, AGX Orin on standardivalinta.
Hailo-8 ja Hailo-8L sijoittuvat korkean suorituskyvyn tekoälypäättelyn matalatehoalueelle. Hailo-8 tuottaa 26 TOPS alle 3 W:lla PCIe M.2- tai mPCIe-muotoilussa — tehden siitä mahdollisen pienille UAV-kuormille ja jalkaväkijärjestelmille. Hailo-8L (13 TOPS) vähentää tehoa edelleen noin 1,5 W:iin. Hailo käyttää omaa Dataflow-arkkitehtuuria, joka on optimoitu CNN-päättelyyn, ja Hailo Model Zoo tarjoaa esikäännetyt versiot YOLO-varianteista optimoituna Hailo-ajoympäristölle. Kompromissi: Hailo-ekosysteemi on kapeampi kuin NVIDIA:n — mukautetut malliarkkitehtuurit vaativat lisämuunnostyötä Hailo Dataflow Compilerin kautta.
Intel Movidius Myriad X ja sen seuraaja-arkkitehtuuri (integroitu Intel OpenVINO -työkalupakettiin) kohdistuvat konenäkö-tekoälyn integrointiin Intelin kamera- ja anturiekosysteemiin. Myriad X tuottaa noin 4 TOPS noin 1 W:lla, sopien sulautettuihin konenäkösovelluksiin. OpenVINO tarjoaa mallin optimointi- ja käyttöönottoputken, joka tukee heterogeenistä suoritusta CPU:lla, GPU:lla, VPU:lla ja FPGA-kohteilla Intel-piillä. Ohjelmille, jotka käyttävät Intel RealSense -syvyyskameroita tai on integroitu Intel ISP -putkiin, Movidius tarjoaa tiiveimmän laitteistointegraaation.
Optimointi: TensorRT INT8 -kvantisointi ja kerrosfuusio
YOLOv8-medium-malli, joka on koulutettu PyTorchissa FP32-painoilla, vaatii noin 850 MB muistia ja toimii noin 8 fps:llä NVIDIA Jetson Orin NX:llä alkuperäisessä muodossaan. TensorRT INT8 -optimoinnin jälkeen sama malli vaatii noin 210 MB ja toimii 65+ fps:llä — 8-kertainen suorituskykyvoitto ja 4-kertainen muistinvähennys, tyypillisesti alle 1 %:n mAP-heikkenemisellä edustavalla kalibrointidatasetillä.
TensorRT-optimointi sisältää kolme päätekniikkaa. INT8-kvantisointi muuntaa mallinpainot ja aktivoinnit 32-bittisestä liukuluvusta 8-bittiseksi kokonaisluvuksi käyttäen kalibrointidatasettia (tyypillisesti 500–1 000 edustavaa kuvaa) optimaalisten kvantisointiskaalakertoimien määrittämiseen kerroksittain. Kerrosfuusio yhdistää operaatiosekvenssit — konvoluutio, jota seuraa eränormalisointi, jota seuraa ReLU-aktivointi — yhdeksi optimoiduksi CUDA-ytimeksi poistaen välimuistin kaistanleveyskulut välivaiheiden kirjoittamisesta ja lukemisesta. Ytimen automaattinen viritys arvioi useita CUDA-ydinmalleja kullekin kerrokselle kohde-GPU-laitteistolla ja valitsee nopeimman ottaen huomioon kohteen CUDA-ydinten määrän ja muistihierarkian.
FP16 (puolitarkkuus) -päättely käytetään usein välioptimointivaiheena FP32:n ja INT8:n välillä. FP16 ei vaadi kalibrointidatasettia ja tuottaa noin 2-kertaisen nopeuden ilman tarkkuuden menetystä Turing/Ampere-GPU-arkkitehtuureilla, joilla on natiivi FP16-tensoriytimen tuki.
Keskeinen havainto: Kalibrointidatan laatu on INT8-tarkkuuden ensisijainen määrittäjä. Käyttöönottotoimialalta peräisin olevien kuvien käyttö — jotka vastaavat anturityyppiä, valaistusolosuhteita ja kohdeluokkia — tuottaa merkittävästi parempia kalibrointituloksia kuin ImageNetin tai muiden yleisten datasettien käyttö. LWIR-termisyötteitä varten kalibroi yksinomaan termisellä kuvankäsittelyllä.
Moniseuranta: DeepSORT, ByteTrack ja BoT-SORT
Kohteiden tunnistus tuottaa kehyskohtaisia havaintoja. Moniseuranta (MOT) yhdistää nämä havainnot kehysten välillä tuottaakseen pysyviä jälkiä — kullakin on yksilöllinen tunniste, reittinhistoria ja nopeusmääritys. Puolustussovelluksissa seuranta on yhtä tärkeää kuin tunnistus: kohde, joka katoaa esteen taakse 2–3 sekunniksi, on tunnistettava oikein uudelleen kun se ilmestyy uudelleen, eikä sille saa antaa uutta tunnistetta, joka rikkoo sitoutumisaikataulun.
DeepSORT (Deep Simple Online and Realtime Tracking) oli standardi useita vuosia. Se käyttää Kalman-suodatusta reitin ennustamiseen ja syväoppimiseen perustuvaa ulkonäköpiirteiden poimijaa (kevyt ReID-malli) havaintojen yhdistämiseen olemassa oleviin jälkiin peittymisten yli. ReID-malli lisää laskentakustannuksia, mutta parantaa merkittävästi uudelleentunnistusta peittymisen jälkeen. DeepSORT toimii hyvin, kun kohteilla on erottuva visuaalinen ulkonäkö, mutta heikkenee ruuhkaisissa kohtauksissa, joissa monet samanlaiset kohteet ylittävät reitit.
ByteTrack parantaa DeepSORT:ia käyttämällä matalan luottamuksen havaintoja (alle standardikynnyksen) lisäyhdistämisvihjeinä niiden hylkäämisen sijaan. Tämä vähentää dramaattisesti tunnistuksen vaihtumisia osittaisten peittymisten aikana, jolloin kohteen havaitsemisluottamus laskee tilapäisesti. ByteTrack saavuttaa huippuluokan MOT-mittareita standardibenchmarkeissa pienemmillä laskentakustannuksilla kuin DeepSORT, tehden siitä vahvan valinnan reunakäyttöönottoon.
BoT-SORT (Robust Associations Multi-Pedestrian Tracking) lisää kameran liikkeen kompensaation ByteTrack-kehykseen. UAV-kiinnitetylle kameralle, joka itse liikkuu ja pyörii, naivi Kalman-ennuste epäonnistuu, koska paikallaan olevan kohteen näennäinen liike voi olla suuri kameran omaliikeestä johtuen. BoT-SORT arvioi kameran liikkeen homografiasta (käyttäen piirteiden yhteensovitusta kehysten välillä) ja kompensoi sen ennen Kalman-ennusteen suorittamista, parantaen merkittävästi seurantatarkkuutta ilma-alustoille.
Käyttöönoton haasteet: termiset syötteet, anturifuusio ja ruggerointitekniikka
Konenäkömallien käyttöönotto hallituista testiympäristöistä operatiiviselle kenttälaitteistolle tuo mukanaan useita haasteita, jotka aliarvioidaan rutiininomaisesti kehityksessä.
IR- ja termisen syötteen käsittely. Pitkäaaltoinfrapuna (LWIR) -kamerat toimivat 8–14 µm:n spektrikaistalla ja tuottavat 14-bittisiä tai 16-bittisiä harmaasävy kuvia, jotka kartoittavat lämpötilan intensiteettiin. Normalisointimenetelmä on merkittävä: yksinkertainen min-max-normalisointi koko dynaamisen alueen yli hukuttaa matalakontrastitiset kohteet. Mukautuva histogrammin tasoitus (CLAHE) kehyskohtaisesti tai aluekohtaisesti parantaa merkittävästi kohteen näkyvyyttä termisessä kuvankäsittelyssä. EO-kuvilla koulutetut mallit on koulutettava uudelleen tai hienosäädettävä termisellä datalla; modaalinen siirto ei toimi luotettavasti.
Anturifuusio LWIR- ja EO-kameroilla. Yleinen arkkitehtuuri yhdistää EO-kameran (luokitteluyksityiskohtiin ja värien erotteluun) LWIR-kameran kanssa (tunnistukseen naamioimisen läpi ja heikon valon olosuhteissa). Havaintojen fuusio kahdesta anturista vaatii ekstrinsisen kalibroinnin (näkökenttien geometrinen kohdistaminen), ajallisen synchronoinnin (kehysaikaleimojen yhtenäistymisen varmistaminen) ja fuusiostrategian — joko aikaisen fuusion (ominaisuuskarttojen yhdistäminen molemmista antureista), myöhäisen fuusion (havaintojen yhdistäminen kahdesta itsenäisestä mallista) tai päätöstason fuusion (äänestys itsenäisten tunnistustulosten välillä). Myöhäinen fuusio on yleisin käytössä olevissa puolustusjärjestelmissä, koska se mahdollistaa kummankin anturiputken optimoinnin ja sertifioinnin itsenäisesti.
Ruggeroitu koteloinh. IP67-luokitellut kotelot (pölytiivis, upottamiskestävä) ovat vähintäänvaatimus kenttäkäytössä olevan konenäkölaitteiston osalta. MIL-STD-810H määrittelee ympäristötestausmenetelmät iskuille, tärinälle, lämpötilasykleille (käyttölämpötila-alue −40 °C – +71 °C useimmille maajoneuvosovelluksille, −54 °C – +85 °C ilmailulle), kosteudelle ja korkeudelle. Laitteiston on täytettävä sovellettavat MIL-STD-testisekvenssit ennen käyttöönottoa. Lämpöhallinta sinetöityjen koteloiden sisällä — GPU-liitoslämpötilan pitäminen turvallisten rajojen alapuolella ilman tuuletinta tai ilmajäähdytystä — vaatii tyypillisesti johtavan jäähdytyksen kotelon seinän läpi lämpölevittimeen tai ajoneuvon runkoon.
Mallinpäivitysmekanismit kentällä ovat usein unohdettu käyttöönottovaatimus. Malli, joka toimii hyvin kesäkasvustossa, voi heikentyä merkittävästi talvella tai kaupunkialueella. Käyttöönottoputken on tuettava kryptografisesti allekirjoitettuja mallipaketteja, jotka työnnetään kenttälaitteisiin turvallisen päivityskanavan kautta, sekä takaisinkytkentäominaisuutta jos uusi malli heikentää suorituskykyä.