Widzenie maszynowe — zdolność maszyny do interpretowania i rozumienia danych wizualnych — stało się jedną z najbardziej operacyjnie istotnych możliwości sztucznej inteligencji we współczesnych systemach obronnych. Od zamontowanych na dronach czujników identyfikujących pojazdy w czasie rzeczywistym, po systemy ochrony obwodowej rozróżniające ludzi i zwierzęta w nocy — widzenie maszynowe na urządzeniu transformuje sposób, w jaki siły zbrojne zbierają, przetwarzają i reagują na informacje wizualne.

Wdrożenie widzenia maszynowego na sprzęcie wojskowym różni się zasadniczo od wdrożenia w komercyjnym centrum danych. Modele muszą działać na odpornym sprzęcie o ograniczonym poborze mocy, w zmiennych warunkach oświetlenia, pogody i charakterystyki czujników. Wymagania dotyczące opóźnień mierzone są w milisekundach, nie sekundach. Modele muszą zawodzić w kontrolowany, nie katastrofalny sposób, gdy dane wejściowe wykraczają poza rozkład treningowy.

Architektura potoku detekcji: od klatki do ramki ograniczającej

Nowoczesny potok detekcji obiektów dla obronnego wdrożenia brzegowego składa się z kilku sekwencyjnych etapów. Pierwszym jest wstępne przetwarzanie wejść: skalowanie klatki wejściowej do rozdzielczości modelu (zazwyczaj 640×640 lub 1280×1280 pikseli), normalizacja wartości pikseli do zakresu [0, 1] oraz opcjonalne letterboxing w celu zachowania proporcji. Dla kamer termicznych (LWIR) wstępne przetwarzanie obejmuje dodatkowe kroki normalizacji dla 14-bitowego lub 16-bitowego zakresu dynamicznego sensora.

Model detekcji — zdominowany przez warianty YOLO — przyjmuje wstępnie przetworzoną klatkę i generuje zestaw kandydatów: każdy z ramką ograniczającą (x, y, szerokość, wysokość), wektorem prawdopodobieństwa klasy i wynikiem obiektowości. YOLOv8 wprowadził bezkotwicową głowicę detekcji, znacząco poprawiając wykrywanie małych obiektów — kluczowe dla rozpoznania lotniczego. YOLOv9 z mechanizmem Programmable Gradient Information (PGI) dodatkowo poprawia przepływ gradientów podczas treningu.

Ostatnim etapem jest Non-Maximum Suppression (NMS). Model generuje zazwyczaj setki nakładających się kandydatów; NMS filtruje je do podzbioru najbardziej pewnych, nienakładających się detekcji przy progu IoU (zazwyczaj 0,45–0,65). TensorRT zapewnia wydajne GPU-przyspieszone NMS niezbędne dla wdrożeń na urządzeniach brzegowych.

Platformy sprzętowe: Jetson, Hailo i Movidius w porównaniu

NVIDIA Jetson AGX Orin to lider wydajności wśród odpornych wbudowanych GPU. Przy 275 TOPS (INT8) może jednocześnie uruchamiać wiele dużych modeli detekcji. AGX Orin pracuje przy 10–60 W w zależności od trybu zasilania, obsługuje CUDA 11.4+, TensorRT 8.x i DeepStream SDK dla potoków wielokamerowych. Dla zastosowań montowanych na pojazdach z budżetem mocy powyżej 100 W jest to standardowy wybór zgodny z wymaganiami MON.

Hailo-8 i Hailo-8L zajmują niskoenergetyczny koniec wydajnego wnioskowania AI. Hailo-8 dostarcza 26 TOPS przy mniej niż 3 W w formacie PCIe M.2 lub mPCIe — czyniąc go przydatnym dla małych ładunków dronów i systemów wyposażenia osobistego żołnierza. Hailo-8L (13 TOPS) redukuje pobór mocy do ~1,5 W. Kompromis: ekosystem Hailo jest węższy niż NVIDIA — niestandardowe architektury modeli wymagają dodatkowego wysiłku konwersji.

Intel Movidius Myriad X i zestaw narzędzi Intel OpenVINO celują w integrację AI wizyjnego z ekosystemem kamer i czujników Intel. Myriad X dostarcza około 4 TOPS przy ~1 W, odpowiedni dla wbudowanych aplikacji wizyjnych o bardzo niskim poborze mocy.

Optymalizacja: kwantyzacja TensorRT INT8 i fuzja warstw

Model YOLOv8-medium wytrenowany w PyTorch z wagami FP32 wymaga około 850 MB pamięci i działa z prędkością około 8 kl./s na NVIDIA Jetson Orin NX. Po optymalizacji TensorRT do INT8 ten sam model wymaga około 210 MB i działa z prędkością 65+ kl./s — 8-krotna poprawa przepustowości i 4-krotna redukcja pamięci, z degradacją mAP zazwyczaj poniżej 1% na reprezentatywnym zestawie kalibracyjnym.

Optymalizacja TensorRT obejmuje trzy główne techniki: kwantyzację INT8 (konwersja wag i aktywacji z 32-bitowej zmiennoprzecinkowej na 8-bitową całkowitą); fuzję warstw (łączenie sekwencji operacji — splot + normalizacja wsadowa + ReLU — w jedno zoptymalizowane jądro CUDA); oraz automatyczne dostrajanie jądra (wybór najszybszej implementacji jądra CUDA dla każdej warstwy na docelowym GPU).

Kluczowa obserwacja: Jakość danych kalibracyjnych jest głównym wyznacznikiem dokładności INT8. Używanie obrazów z domeny wdrożenia — dopasowanych do typu czujnika, warunków oświetlenia i klas celów — daje znacznie lepsze wyniki kalibracji niż zastosowanie ImageNet lub innych ogólnych zbiorów. Dla termicznych wejść LWIR kalibruj wyłącznie na obrazach termicznych.

Śledzenie wielu obiektów: DeepSORT, ByteTrack i BoT-SORT

Detekcja obiektów generuje detekcje dla każdej klatki. Śledzenie wielu obiektów (MOT) łączy te detekcje między klatkami, tworząc trwałe ślady z unikalnym ID, historią trajektorii i oszacowaniem prędkości. DeepSORT używa filtrowania Kalmana i lekkiego modelu ReID. ByteTrack poprawia DeepSORT, wykorzystując niskopewne detekcje jako dodatkowe wskazówki asocjacji. BoT-SORT dodaje kompensację ruchu kamery do frameworku ByteTrack — kluczowe dla platform lotniczych, gdzie ruch kamery powoduje pozorny ruch nieruchomych celów.

Wyzwania wdrożeniowe: wejścia termiczne, fuzja czujników i ochrona

Kamery termiczne LWIR działają w paśmie spektralnym 8–14 µm i produkują 14- lub 16-bitowe obrazy w skali szarości. Adaptacyjne wyrównanie histogramu (CLAHE) znacząco poprawia widoczność celów. Fuzja detekcji z kamer EO i LWIR wymaga kalibracji zewnętrznej, synchronizacji czasowej i strategii fuzji — wczesnej, późnej lub na poziomie decyzji. Późna fuzja jest najczęstsza w wdrożonych systemach obronnych, ponieważ umożliwia niezależną optymalizację i certyfikację każdego potoku czujnika. Obudowy IP67 i kwalifikacja MIL-STD-810H są wymagane dla sprzętu polowego Wojska Polskiego.