Розгортання ШІ-моделі в комерційному продукті та розгортання у військовій системі розділені не лише операційними ставками — вони вимагають принципово різних методологій валідації. Комерційне тестування ШІ передбачає, що середовище нейтральне: користувачі взаємодіють із системою добросовісно, розподіли даних змінюються повільно та передбачувано, а неправильна відповідь є виправною. Оборонний ШІ працює в протилежних умовах. Адверсаріальні актори вивчають поведінку вашої моделі та активно намагаються її знищити. Зміщення розподілу між навчальним середовищем та операційним театром може бути значним і раптовим. А в летальному або близькому до летального ланцюжку прийняття рішень неправильна відповідь може бути непоправною.

Валідація моделей оборонного ШІ — це дисципліна, яка закриває розрив між добре функціонуючою моделлю в лабораторії та моделлю, що підлягає сертифікації в польових умовах. Вона охоплює функціональне тестування, тестування стійкості та адверсаріальне тестування, тестування в операційному середовищі, аналіз пояснюваності та формальну сертифікаційну документацію — кожен етап розроблений для виявлення режимів відмов, які стандартні метрики точності повністю пропускають.

Чому комерційне тестування ШІ недостатнє для оборони

Стандартні практики оцінки машинного навчання — розподіл даних на навчальні, валідаційні та тестові набори, обчислення показників точності та F1 — є необхідними, але далеко не достатніми для оборонного ШІ. Найважливіший розрив — адверсаріальна стійкість. Комерційне тестування ШІ передбачає, що вхідні дані, які модель отримуватиме під час розгортання, будуть витягнуті з того ж розподілу, що й тестовий набір. Оборонні розгортання стикаються з противниками, які розуміють це припущення та навмисно його експлуатують.

Противник, який знає, що модель виявлення цілей дрона була навчена переважно на зображеннях від певного сенсора та діапазону висот, може модифікувати сигнатури транспортних засобів — застосовуючи специфічні фарбувальні або камуфляжні візерунки, теплові ковдри або розміщуючи адверсаріальні патчі на місці — щоб перемістити вхідні дані моделі за межі розподілу, де вона функціонує надійно. Точність моделі на оригінальному тестовому наборі нічого не говорить про її стійкість до цих атак.

Фреймворк валідації: п'ять етапів

Суворий конвеєр валідації оборонного ШІ проходить через п'ять послідовних етапів, кожен з визначеними критеріями прийнятності/відхилення, що контролюють перехід до наступного. Жоден етап не може бути пропущений.

Етап 1: Функціональне тестування встановлює базову продуктивність в номінальних умовах. Тестовий набір повинен бути чітко відокремлений від навчальних даних на рівні джерела. Функціональне тестування звітує про метрики продуктивності з розбивкою за класом цілі, типом операційного середовища, часом доби, модальністю сенсора та діапазоном висот.

Етап 2: Тестування стійкості оцінює деградацію продуктивності при не-адверсаріальних варіаціях: шум сенсора на межах конверту специфікацій, стиснені або деградовані зображення, сценарії часткового перекриття та цілі на краях операційного конверту.

Етап 3: Адверсаріальне тестування вводить навмисні атаки, розроблені для спричинення відмови моделі, включаючи атаки FGSM/PGD та фізичні патч-атаки.

Етап 4: Операційне тестування оцінює модель в умовах, максимально наближених до реального середовища розгортання: представницьке апаратне забезпечення з реальними сенсорними потоками, інтеграція людини в контур, вимірювання затримки та наскрізне тестування робочого процесу.

Етап 5: Сертифікація збирає всі результати тестування, аналіз та документацію у формальний пакет, що перевіряється органом сертифікації. Сертифікація визначає затверджений конверт продуктивності, операційні обмеження та вимоги до нагляду оператора.

Аналіз зміщення розподілу

Аналіз зміщення розподілу порівнює статистичні властивості навчального набору з очікуваним операційним середовищем, виявляючи прогалини, що можуть спричинити деградацію продуктивності під час розгортання. Аналіз починається з характеристики обох розподілів: для моделей зору це включає географічні регіони та типи місцевості, охоплені навчальними даними, моделі та стани калібрування сенсорів, сезонні та погодні умови, розподіли висоти та дальності, а також різноманітність конфігурацій цілей.

Кількісне виявлення зміщення використовує статистичні міри розбіжності — дивергенцію Кульбака-Лейблера, Maximum Mean Discrepancy (MMD) або Population Stability Index (PSI) — для вимірювання відхилення операційного розподілу від навчального розподілу в просторі ознак. Там, де виявлено значні прогалини, параметри: збір та анотація додаткових навчальних даних, техніки адаптації домену або визначення операційного обмеження, що виключає позарозподільне середовище із сертифікованого конверту продуктивності.

Тестування адверсаріальної стійкості

Тестування адверсаріальної стійкості оцінює модель проти атак, які противник може реалістично виконати в польових умовах. Набір тестів повинен охоплювати щонайменше три категорії атак: атаки на основі градієнту, фізичні патч-атаки та доменно-специфічні атаки, релевантні для цільової модальності сенсора.

Атаки на основі градієнту — FGSM та PGD — додають непомітні збурення на рівні пікселів до вхідних зображень, що спричиняють впевнену неправильну класифікацію. Версії білого ящика передбачають, що противник має доступ до ваг моделі; версії чорного ящика передбачають лише доступ до запитів. Оборонні моделі повинні оцінюватись за обома припущеннями.

Фізичні патч-атаки є більш оперативно релевантними для більшості оборонних застосувань. Адверсаріальний патч — це надрукований візерунок, розміщений у полі зору сенсора — на даху транспортного засобу, на землі поблизу цілі — що пригнічує виявлення або спричиняє неправильну класифікацію. Тестування використовує оптимізацію Expectation over Transformation (EoT) для генерації патчів, стійких до варіацій точки огляду, освітлення та відстані.

Виявлення граничних випадків

Граничні випадки — це маловірогідні вхідні дані, що спричиняють непропорційні відмови моделі. Вони особливо небезпечні в обороні, оскільки часто кластеризуються навколо оперативно значущих сценаріїв — специфічні погодні переходи, незвичайні конфігурації транспортних засобів, геометрії оклюзії з кількома цілями.

Автоматичне виявлення граничних випадків використовує кілька взаємодоповнюючих технік: фаззинг сценаріїв (випадкове збурення вхідних параметрів), метаморфне тестування (застосування відомих інваріантних перетворень та перевірка узгодженості прогнозів) та ін'єкція рідкісних подій — навмисне введення малочастотних, але оперативно релевантних сценаріїв у тестовий розподіл.

Вимоги до пояснюваності

Сертифікація оборонного ШІ вимагає, щоб рішення моделі були пояснюваними — не лише для верифікації правильності, але й для побудови інституційної довіри, що дозволяє операторам належним чином калібрувати свою довіру до виходів моделі.

Для моделей класифікації та виявлення LIME та SHAP генерують оцінки важливості ознак для кожного прогнозу, які визначають, які вхідні регіони найбільше вплинули на прогноз. Аудитори перевіряють ці пояснення, щоб підтвердити, що модель звертає увагу на оперативно релевантні ознаки. Аналіз калібрування підтверджує, що заявлені оцінки впевненості відповідають емпіричній точності.

Підходи формальної верифікації

Формальна верифікація застосовує математичні методи доведення для підтвердження того, що модель задовольняє задані властивості безпеки — гарантії, що виконуються по всіх вхідних регіонах, а не на вибіркових тестових точках. Для критично важливих рішень оборонного ШІ формальна верифікація забезпечує більш сильне підтвердження, ніж лише емпіричне тестування.

Поточні техніки формальної верифікації масштабуються до мереж із десятками мільйонів параметрів зі значними обчислювальними витратами, що робить повну верифікацію мережі непрактичною для великих моделей зору. Практичний підхід — вибіркове застосування формальної верифікації до критично важливих підкомпонентів безпеки.

Сертифікаційна документація

Виходом конвеєра валідації є пакет сертифікації, що документує, що тестувалось, як тестувалось, які були результати та які є сертифіковані операційні обмеження. Цей пакет перевіряється органом сертифікації перед тим, як модель буде затверджена для оперативного розгортання.

Повний пакет сертифікації включає: TEMP із критеріями покриття та порогами прийнятності/відхилення; звіти про функціональну продуктивність; результати тестування стійкості та адверсаріального тестування; аналіз зміщення розподілу; звіти перевірки пояснюваності; звіт аналізу калібрування; документ конверту продуктивності; реєстр обмежень; та протокол нагляду оператора.