Trenowanie modeli AI wymaga danych. W środowiskach obronnych dane, które tworzyłyby najlepsze próbki treningowe — operacyjne nagrania z czujników, przechwycenia SIGINT, sygnatury akustyczne z rzeczywistych starć — to dokładnie te dane, których nie można scentralizować. Są tajne, rozdzielone, generowane na węzłach rozmieszczonych na przedzie bez szerokopasmowego backhaulu lub po prostu zbyt wrażliwe operacyjnie, aby przekazywać je do centralnego ośrodka treningowego.

Uczenie federacyjne rozwiązuje to napięcie. Zamiast przenosić dane treningowe do modelu, przenosi model do danych. Każdy węzeł czujnika trenuje lokalny model na własnych obserwacjach, a następnie przekazuje tylko wynikające aktualizacje gradientów — nie surowe dane — do serwera agregacji. Serwer łączy te gradienty, aby stworzyć ulepszony model globalny, i przesyła go z powrotem do wszystkich węzłów. Surowe dane czujnika nigdy nie opuszczają węzła.

Dlaczego uczenie federacyjne jest ważne dla obronności

Obronna AI stoi przed problemem danych bez komercyjnego odpowiednika. Obrazy z drona ISR operującego nad obszarem spornym są tajne u źródła — nie mogą być routowane przez komercyjną infrastrukturę chmurową do treningu. Ograniczenie przepustowości jest równie fundamentalne. Sieć rozsuniętych pasywnych czujników SIGINT nie może przesyłać godzin danych IQ dziennie do centralnego serwera przez taktyczne łącze radiowe 64 kbps.

Architektura: lokalny trening, agregacja gradientów, aktualizacja globalna

Kanoniczny cykl uczenia federacyjnego składa się z czterech kroków powtarzanych w wielu rundach: (1) Dystrybucja modelu — serwer agregacji dystrybuuje bieżące wagi globalnego modelu do wszystkich uczestniczących węzłów w zaplanowanych oknach synchronizacji; (2) Lokalny trening — każdy węzeł trenuje otrzymany model na lokalnym zbiorze danych przez 1–5 lokalnych epok bez przesyłania tych danych; (3) Agregacja gradientów — każdy węzeł oblicza delta między lokalnie wytrenowanymi wagami a początkowymi wagami globalnymi i przesyła tę deltę do serwera; (4) Aktualizacja modelu globalnego — zagregowana aktualizacja jest aplikowana do modelu globalnego metodą FedAvg lub bardziej zaawansowanymi strategiami jak FedProx czy SCAFFOLD.

Wyzwania: dane non-IID i węzły bizantyjskie

Niehomogeniczny rozkład danych (non-IID) w sieciach wojskowych degraduje wydajność standardowego FedAvg i wymaga bardziej zaawansowanych strategii. Węzły bizantyjskie — skompromitowane lub złośliwe — mogą zatruć agregowany model. Obrona obejmuje algorytmy solidnej agregacji (Krum, Bulyan, Trimmed Mean) i kryptograficzną atestację tożsamości węzłów.

Kluczowa obserwacja: Kompresja gradientów znacząco redukuje nakłady komunikacyjne uczenia federacyjnego na pasmowo-ograniczonych łączach wojskowych Wojska Polskiego. Techniki rzadkości top-k lub kwantyzacja gradientów mogą zmniejszyć wolumen komunikacji na rundę 10–100× przy minimalnym wpływie na konwergencję.

Implementacja na Jetson: frameworki PyTorch FL

Dla węzłów czujników opartych na Jetson dwa najbardziej dojrzałe frameworki uczenia federacyjnego to Flower (flwr) i PySyft. Flower jest niezależny od frameworka i zapewnia czystą architekturę klient-serwer z wymiennymi strategiami agregacji. PySyft zapewnia abstrakcję wyższego poziomu skupioną na prywatności z obsługą bezpiecznych obliczeń wielostronnych.

Prywatność różnicowa: zapobieganie rekonstrukcji danych

Nawet aktualizacje gradientów mogą ujawniać informacje o lokalnych danych treningowych poprzez ataki inwersji gradientów. Prywatność różnicowa (DP) rozwiązuje to przez dodawanie skalibrowanego szumu Gaussa lub Laplace'a do aktualizacji gradientów przed transmisją, zapewniając formalną gwarancję prywatności. Implementacja DP-SGD na węzłach Jetson używa przycinania gradientów per-próbka, a następnie dodawania szumu. Biblioteka Opacus PyTorch zapewnia wydajną implementację DP-SGD kompatybilną z interfejsem klienta Flower.