Najbardziej niebezpieczne założenie, jakie program obronny może poczynić w odniesieniu do swoich systemów AI, polega na tym, że przeciwnicy będą je atakować tak samo, jak robią to akademickie benchmarki — za pomocą starannie skonstruowanych cyfrowych zaburzeń testowanych na zbiorach przytrzymanych. Operacyjny wojskowy AI staje przed szerszą i bardziej surową powierzchnią ataku: podmioty państwowe z miesięcznym czasem przygotowania, dostęp insiderski do potoków treningowych i zdolność do manipulowania fizycznym środowiskiem obserwowanym przez czujniki.

Dlaczego ataki adwersarialne mają znaczenie dla wojskowej AI

Kiedy model AI popełni błąd w zastosowaniu komercyjnym, kosztem jest pogorszone doświadczenie użytkownika lub utracona sprzedaż. Kiedy model klasyfikacji ISR błędnie identyfikuje pojazd jako cywilny, ponieważ przeciwnik umieścił starannie zaprojektowany wzór na jego dachu, konsekwencje operacyjne są kategorycznie inne. Wojskowy AI jest wbudowany w pętle decyzyjne, gdzie błędy niosą wagę śmiertelną lub strategiczną — namierzanie, autoryzacja logistyki, identyfikacja personelu, analiza sygnałów.

Powierzchnia ataku rośnie z każdym nowym wdrożeniem AI. AI logistyki zatwierdzający trasy uzupełnienia można manipulować poprzez zatrutą danymi, aby zatwierdzał trasy narażające konwoje. Akustyczny klasyfikator na bezzałogowym węźle czujnikowym można oszukać za pomocą wstrzyknięcia sygnału RF, powodując, że nie wykryje wrogiej strzelaniny. Model wykrywania obiektów w strumieniu UAV można obejść za pomocą wydrukowanej łaty na dachu pojazdu.

Zagrożenie nie jest hipotetyczne: niezależne organizacje badawcze wykazały ataki adwersarialne w świecie fizycznym na produkcyjne modele wykrywania obiektów, osiągając wskaźnik sukcesu powyżej 85% bez dostępu do wag modelu.

Taksonomia ataków adwersarialnych

Ataki evasion zachodzą w czasie inferencji. Atakujący konstruuje dane wejściowe — obraz, próbkę audio, sekwencję tekstu — które są percepcyjnie podobne do prawidłowych, ale powodują, że model generuje błędne wyjście. Sam model nie jest modyfikowany.

Ataki poisoning zachodzą w czasie trenowania. Atakujący zatrucza lub uzupełnia dane treningowe próbkami, które powodują, że model uczy się określonego złośliwego zachowania. Wytrenowany model działa normalnie na czystych danych, ale zachowuje się niepoprawnie na wejściach zawierających wzorzec wyzwalacza. Ta kategoria ataków jest najbardziej istotna dla obrony, gdy dane treningowe pochodzą z otwartych lub niewystarczająco zweryfikowanych repozytoriów.

Ataki ekstrakcji modelu umożliwiają atakującemu z dostępem zapytań do wdrożonego modelu odtworzenie jego funkcjonalnej aproksymacji przez systematyczne sondowanie. Wyekstrahowany model może być następnie używany do opracowywania bardziej skutecznych ataków evasion bez bezpośredniego dostępu do oryginalnych wag.

Ataki backdoor i trojany — choć są podzbiorem poisoning — zasługują na oddzielne wyróżnienie ze względu na właściwości ukrytości. Model z backdoorem przechodzi wszystkie standardowe testy dokładności i zachowuje się identycznie jak czysty model na każdym wejściu z wyjątkiem tych zawierających wyzwalacz osadzony przez atakującego podczas trenowania.

Adwersarialne przykłady w świecie fizycznym

Łaty adwersarialne są najszerzej badanym atakiem w świecie fizycznym. Łata jest wydrukowanym obrazem, zazwyczaj 20–30 cm w największym wymiarze dla celów w skali pojazdu, zaprojektowanym techniką Expectation over Transformation (EOT), aby pozostać adwersarialnym przy różnych kątach widzenia, oświetleniu, odległości i jakości druku. Po umieszczeniu na dachu lub kadłubie pojazdu łata powoduje, że modele wykrywania obiektów nie lokalizują lub błędnie klasyfikują pojazd.

Adwersarialne wzory maskowania stanowią bardziej zaawansowane rozwinięcie. Zamiast dyskretnej łaty atakujący projektuje teksturę lub wzór maskowania dla całego pojazdu lub wyposażenia personelu, który jest systematycznie adwersarialny wobec docelowej klasy modeli wykrywania. Wzór wygląda wizualnie podobnie do standardowego maskowania wojskowego, ale zapewnia stałe omijanie klasyfikacji opartej na AI.

Wstrzyknięcie sygnału RF do klasyfikatorów akustycznych jest mniej nagłośnionym, ale operacyjnie istotnym atakiem w świecie fizycznym. Atakujący z kierunkowym nadajnikiem RF może wstrzykiwać starannie zaprojektowane zakłócenia, które powodują, że klasyfikator akustyczny tłumi wykrywanie prawdziwych zdarzeń lub halucynuje fałszywe.

Trening adwersarialny i certyfikowana odporność

Trening adwersarialny jest empirycznie najskuteczniejszą obroną przed atakami evasion. Metoda Projected Gradient Descent (PGD) generuje najsilniejsze zaburzenia w obrębie określonej kuli normy — zazwyczaj L-infinity z epsilon = 8/255 dla naturalnych obrazów — i dodaje je do każdej partii treningowej.

Funkcja straty TRADES rozszerza trening PGD, jawnie penalizując różnicę między predykcją modelu na czystym przykładzie a jego predykcją na adwersarialnie zaburzonej wersji. Produkuje to lepsze kompromisy odporność-dokładność niż zwykły trening PGD.

Metody certyfikowanej odporności — przede wszystkim randomized smoothing — oferują matematycznie udowodnioną gwarancję, że wyjście modelu nie może się zmienić w obrębie określonego promienia L2 wokół danego wejścia. Każde podejście do treningu adwersarialnego wiąże się z kosztem w postaci czystej dokładności — zazwyczaj 2–8% na naturalnych obrazach.

Obrony przez preprocessing wejść

Feature squeezing redukuje precyzję lub rozdzielczość wejścia w celu usunięcia wysokoczęstotliwościowych zaburzeń, na których polega większość ataków adwersarialnych. Kompresja JPEG jako krok preprocessingu niszczy wiele zaburzeń gradientowych. Detektory oparte na Local Intrinsic Dimensionality (LID) i odległości Mahalanobisa porównują aktywacje pośrednie warstw z rozkładem aktywacji na czystych danych treningowych. Wykrywanie niezgodności zespołu uruchamia wejście przez wiele niezależnie trenowanych modeli i flaguje wysoką niezgodność między ich wyjściami jako sygnał manipulacji adwersarialnej.

Zarządzanie modelami dla odporności adwersarialnej

Podpisywanie modeli polega na dołączaniu kryptograficznego podpisu do artefaktu wytrenowanego modelu, tak aby każda nieautoryzowana modyfikacja między treningiem a wdrożeniem była wykrywalna. RBAC na punktach końcowych inferencji ogranicza, które systemy i użytkownicy mogą odpytywać wdrożony model — bezpośrednio ogranicza ataki ekstrakcji modelu. Wersjonowanie modeli i rollback zapewnia, że każda wdrożona wersja modelu jest zarejestrowana i organizacja może szybko powrócić do poprzednio zweryfikowanej wersji. Ciągły cykl oceny red team zamyka pętlę zwrotną między badaniami zagrożeń a wdrożeniem.

Metodologia oceny red team

Framework AutoAttack jest obecnym standardem do cyfrowego benchmarkingu odporności. AutoAttack zbiera stały zestaw różnorodnych ataków — APGD-CE, APGD-T, FAB i Square Attack — i automatycznie ocenia model pod względem wszystkich z nich. Foolbox zapewnia uzupełniającą bibliotekę indywidualnych ataków do ukierunkowanych badań.

Ocena w świecie fizycznym wymaga specjalnego protokołu. Zespół oceniający generuje adwersarialne łaty metodą EOT, celując w konkretny typ czujnika, rozdzielczość i zasięg wysokości operacyjnego wdrożenia. Łaty są drukowane w operacyjnie istotnych rozmiarach, montowane na obiektach docelowych i oceniane w warunkach zbierania analogicznych do operacyjnych.

Kluczowy wniosek: Najbardziej niedocenianym wektorem ataku w wdrożonym wojskowym AI nie jest white-box atak gradientowy dominujący w badaniach akademickich — lecz adwersarialna łata w świecie fizycznym. Wydrukowana adwersarialna łata 20×20 cm umieszczona na dachu pojazdu pokonuje większość produkcyjnych modeli wykrywania obiektów w strumieniach dronów ISR z wskaźnikiem sukcesu powyżej 85% bez dostępu do wag modelu. Obrona przed atakami w świecie fizycznym wymaga empirycznej oceny odporności według protokołów fizycznych łat, nie tylko benchmarków cyfrowych zaburzeń.

Oceń odporność adwersarialną swojego potoku AI obrony

Inżynierowie Corvus Intelligence oceniają powierzchnię ataku adwersarialnego w wdrożonych wojskowych systemach AI — od klasyfikatorów obrazów ISR po triage danych wywiadowczych oparty na LLM — i wdrażają środki wzmacniające odpowiednie do operacyjnego modelu zagrożeń.

Zamów briefing Poznaj Corvus SENSE →

Analiza przygotowana przez inżynierów Corvus Intelligence, którzy budują i oceniają misyjnie krytyczne systemy AI dla organizacji obronnych i rządowych. Poznaj nasz zespół →