Навчання моделей ШІ потребує даних. В оборонних середовищах дані, що формують найкращі навчальні зразки — оперативні відео з датчиків, перехоплення SIGINT, акустичні сигнатури з реальних зіткнень — є саме тими даними, які не можна централізувати. Вони засекречені, розподілені по відділеним підрозділам, генеруються на передових розгорнутих вузлах без широкосмугового бекхолу або просто занадто оперативно чутливі для передачі до центрального навчального об'єкту.

Федеративне навчання вирішує це протиріччя. Замість переміщення навчальних даних до моделі, воно переміщує модель до даних. Кожен вузол датчика тренує локальну модель на своїх власних спостереженнях, а потім передає лише отримані оновлення градієнтів — не необроблені дані — до сервера агрегації. Сервер об'єднує ці градієнти для отримання покращеної глобальної моделі та повертає її до всіх вузлів. Необроблені дані датчика ніколи не залишають вузол.

Чому федеративне навчання важливе для оборони

Оборонний ШІ стикається з проблемою даних, що не має комерційного аналогу. Зображення від розвідувального БПЛА, що діє над спірною зоною ЗСУ, є секретними з джерела — вони не можуть маршрутизуватися через комерційну хмарну інфраструктуру для навчання. Акустичні сигнатури з передових сенсорних вузлів можуть бути засекречені на рівні, що забороняє передачу навіть по військових мережах без явного дозволу.

Обмеження пропускної здатності є однаково фундаментальним. Мережа передових пасивних SIGINT-датчиків, кожен з яких записує години IQ-даних на день, не може передавати ці дані до центрального сервера по тактичному радіоканалу з 64 кбіт/с. Обсяг даних просто перевищує пропускну здатність каналу. Оновлення градієнтів від федеративного навчального раунду, навпаки, як правило, в 10–100 разів менші за базові навчальні дані, що робить передачу можливою на обмежених каналах.

Архітектура: локальне навчання, агрегація градієнтів, глобальне оновлення

Канонічний цикл федеративного навчання складається з чотирьох кроків, що повторюються впродовж кількох раундів:

1. Розподіл моделі. Сервер агрегації розподіляє поточні ваги глобальної моделі до всіх вузлів-учасників. У військовій сенсорній мережі це може відбуватися у заплановані вікна синхронізації — при наявності супутникового аплінку, під час технічного обслуговування або через задані інтервали.

2. Локальне навчання. Кожен вузол тренує отриману модель на своєму локальному наборі даних протягом заданої кількості епох (зазвичай 1–5 локальних епох за раунд). Вузол використовує власні локально зібрані дані датчика — без передачі цих даних будь-якій зовнішній системі.

3. Агрегація градієнтів. Кожен вузол обчислює різницю між локально натренованими вагами та початковими глобальними вагами (оновлення градієнта) та передає цю дельту на сервер агрегації. Сервер об'єднує оновлення від усіх вузлів, найчастіше за допомогою Federated Averaging (FedAvg), що обчислює зважене середнє оновлень, пропорційне розміру локального набору даних кожного вузла.

4. Оновлення глобальної моделі. Агреговане оновлення застосовується до глобальної моделі, що включає навчання від усіх вузлів. Ця нова модель потім розподіляється для наступного раунду.

Виклики: non-IID дані та візантійські вузли

Федеративне навчання у військовій сенсорній мережі стикається з кількома проблемами, більш серйозними, ніж у комерційних розгортаннях. Не-IID розподіл даних: у розподіленій сенсорній мережі кожен вузол спостерігає принципово різний розподіл даних — SIGINT-вузол в міському середовищі бачить інші сигнатури емітентів, ніж поблизу авіабази. Це вимагає більш складних стратегій агрегації, таких як FedProx або SCAFFOLD.

Візантійські вузли. Скомпрометований або навмисно маніпульований вузол може зіпсувати агреговану модель, подаючи отруєні градієнти. Захист включає алгоритми надійної агрегації (Krum, Bulyan, Trimmed Mean) та криптографічну атестацію ідентичності вузла.

Ключовий висновок: Стиснення градієнтів значно зменшує накладні витрати на зв'язок федеративного навчання на пропускно-обмежених військових каналах. Методи top-k розрідження (передача лише k найбільших значень градієнту) або квантування градієнтів можуть зменшити обсяг зв'язку за раунд в 10–100 разів з мінімальним впливом на конвергенцію.

Реалізація на Jetson: фреймворки PyTorch FL

Для вузлів датчиків на базі Jetson два найбільш зрілі фреймворки федеративного навчання — Flower (flwr) та PySyft. Flower є фреймворко-незалежним і забезпечує чисту клієнт-серверну архітектуру із замінними стратегіями агрегації. Клієнт Flower на вузлі Jetson обертає стандартний навчальний цикл PyTorch інтерфейсом клієнта Flower. PySyft надає більш високорівневу абстракцію з фокусом на конфіденційності та підтримкою безпечних обчислень між кількома сторонами.

Диференційна конфіденційність: запобігання реконструкції даних

Навіть оновлення градієнтів можуть розкривати інформацію про локальні навчальні дані через атаки інверсії градієнтів. Диференційна конфіденційність (DP) вирішує це, додаючи калібрований гауссів або лапласів шум до оновлень градієнтів перед передачею, забезпечуючи формальну гарантію конфіденційності. Реалізація DP-SGD на вузлах Jetson використовує обмеження градієнта для кожного зразка, а потім додавання шуму. Бібліотека Opacus PyTorch надає ефективну реалізацію DP-SGD, сумісну з інтерфейсом клієнта Flower.