Состязальні атаки на оборонні системи ШІ: моделі загроз і захист

Від Інженерної команди Corvus Intelligence · Про команду →

23 червня 2026 10 хв читання

Найнебезпечніше припущення, яке оборонна програма може зробити щодо своїх систем ШІ, полягає в тому, що зловмисники атакуватимуть їх так само, як академічні бенчмарки — за допомогою ретельно сконструйованих цифрових збурень, протестованих на відкладених датасетах. Оперативний військовий ШІ стикається з ширшою та суворішою поверхнею атаки: державні гравці з місяцями підготовки, інсайдерський доступ до конвеєрів навчання та здатність маніпулювати фізичним середовищем, яке спостерігають датчики.

Чому состязальні атаки важливі для військового ШІ

Коли модель ШІ помиляється у комерційному застосуванні, це погіршує досвід користувача або призводить до втрати продажу. Коли модель класифікації ISR неправильно ідентифікує транспортний засіб як цивільний, бо зловмисник помістив спеціально розроблений малюнок на його дах, оперативні наслідки кардинально інші. Військовий ШІ вбудований у контури прийняття рішень, де помилки несуть летальну або стратегічну вагу — прицілювання, авторизація логістики, ідентифікація особистості, аналіз сигналів — і ця асиметрія наслідків є саме тим, що робить оборонний ШІ привабливою ціллю для зловмисників.

Поверхня атаки зростає з кожним новим розгортанням ШІ. ШІ логістики, який схвалює маршрути поповнення запасів, можна маніпулювати через отруєні вхідні дані для схвалення маршрутів, що наражають конвої на ризик. Акустичний класифікатор на безпілотному сенсорному вузлі може бути обманутий за допомогою ін'єкції РЧ-сигналу, змусивши його не виявляти ворожу стрілянину. Модель виявлення об'єктів у відеопотоці БпЛА може бути обійдена за допомогою надрукованого патчу на даху транспортного засобу.

Загроза не гіпотетична: незалежні дослідницькі організації продемонстрували атаки на виробничі моделі виявлення об'єктів у фізичному світі з рівнем успіху понад 85% без доступу до ваг моделі.

Таксономія состязальних атак

Состязальні атаки на системи ШІ поділяються на чотири основні категорії, кожна з яких спрямована на різну фазу життєвого циклу моделі.

Атаки ухилення відбуваються під час інференсу. Зловмисник конструює вхідні дані — зображення, аудіосемпл, текстову послідовність — які є перцептивно схожими на легітимні, але змушують модель видавати неправильний результат. Модель при цьому не змінюється.

Атаки отруєння відбуваються під час навчання. Зловмисник псує або доповнює навчальні дані зразками, що змушують модель вивчити певну зловмисну поведінку. Навчена модель нормально функціонує на чистих входах, але неправильно поводиться на входах із тригерним шаблоном зловмисника. Ця категорія атак, відома також як бекдор або троян, найбільш актуальна для оборони, коли навчальні дані беруться з відкритих або недостатньо перевірених репозиторіїв.

Атаки вилучення моделі дозволяють зловмисникові з доступом до розгорнутої моделі через систематичне зондування відновити її функціональну апроксимацію. Витягнута модель потім може використовуватися для розробки більш ефективних атак ухилення без прямого доступу до оригінальних ваг.

Атаки через бекдор і трояни заслуговують на окрему увагу через їхні властивості прихованості. Модель із бекдором проходить всі стандартні тести точності та поводиться ідентично чистій моделі на кожному вході, крім тих, що містять тригер, вбудований зловмисником під час навчання.

Состязальні приклади у фізичному світі

Состязальні атаки у фізичному світі — це категорія, яка найбільш недооцінюється при розгортанні оборонного ШІ та є найбільш практично небезпечною в оперативних умовах. Вони не потребують доступу до моделі — лише здатності модифікувати об'єкти, поверхні або сигнали, які спостерігають датчики моделі.

Состязальні патчі є найбільш дослідженою атакою у фізичному світі. Патч — це надрукований малюнок, як правило 20–30 см у найбільшому вимірі для цілей транспортного масштабу, розроблений за допомогою техніки Expectation over Transformation (EOT) для збереження состязальних властивостей при різних кутах огляду, освітленні, відстані та якості друку. При розміщенні на даху або корпусі транспортного засобу патч змушує моделі виявлення об'єктів не виявляти або неправильно класифікувати транспортний засіб.

Состязальні маскувальні візерунки є більш складним продовженням. Замість дискретного патчу зловмисник розробляє текстуру або маскувальний візерунок для всього транспортного засобу або спорядження особового складу, який систематично обходить моделі виявлення цільового класу. Візерунок виглядає візуально схожим на стандартне військове маскування, але забезпечує стабільне ухилення від класифікації на основі ШІ.

Ін'єкція РЧ-сигналу в акустичні класифікатори є менш відомою, але оперативно важливою атакою у фізичному світі. Системи акустичного виявлення пострілів і класифікації транспортних засобів дедалі більше використовують моделі нейронних мереж. Зловмисник із спрямованим РЧ-випромінювачем може вводити ретельно сконструйовані перешкоди, які змушують акустичний класифікатор пригнічувати виявлення справжніх подій або галюцинувати хибні.

Состязальне навчання та сертифікована стійкість

Состязальне навчання є найбільш емпірично ефективним захистом від атак ухилення і є першим заходом, який слід застосовувати до класифікаторів оборони з високим ризиком. Метод Projected Gradient Descent (PGD) генерує найсильніші збурення в межах заданої норм-кулі — як правило, L-infinity з epsilon = 8/255 для натуральних зображень — і додає їх до кожного навчального батчу.

Функція втрат TRADES розширює PGD-навчання, явно штрафуючи розрив між прогнозом моделі на чистому прикладі та її прогнозом на состязально збуреній версії. Це дає кращі скомпромісовані значення стійкості-точності, ніж звичайне PGD-навчання.

Методи сертифікованої стійкості — насамперед рандомізоване згладжування — надають математично доведену гарантію того, що вихід моделі не може змінитися в межах заданого L2-радіуса навколо заданого входу. Кожен підхід до состязального навчання несе в собі вартість у вигляді зниження чистої точності — зазвичай 2–8% на натуральних зображеннях.

Захист через попередню обробку вхідних даних

Feature squeezing зменшує роздільну здатність або точність входу, щоб видалити високочастотні збурення, на які покладається більшість состязальних атак. JPEG-стиснення як крок попередньої обробки руйнує багато градієнтних збурень. Детектори на основі Local Intrinsic Dimensionality (LID) і відстані Махаланобіса витягують проміжні активації шарів і порівнюють їх із розподілом активацій на чистих навчальних даних. Виявлення незгоди ансамблю запускає вхід через кілька незалежно навчених моделей і помічає значну незгоду між їхніми виходами як сигнал зловмисної маніпуляції.

Управління моделями для стійкості до состязальних атак

Підписування моделей — це практика прикріплення криптографічного підпису до артефакту навченої моделі, щоб будь-яка несанкціонована модифікація між навчанням і розгортанням була виявлена. RBAC на точках інференсу обмежує, які системи та користувачі можуть запитувати розгорнуту модель — це безпосередньо обмежує атаки вилучення моделі. Версіонування моделей і відкат гарантує, що кожна розгорнута версія моделі зафіксована і організація може швидко повернутися до попередньо валідованої версії. Безперервний цикл red team оцінки закриває петлю зворотного зв'язку між дослідженням загроз і розгортанням.

Методологія оцінки red team

Для цифрового бенчмаркінгу стійкості фреймворк AutoAttack є поточним стандартом. AutoAttack збирає фіксований ансамбль різноманітних атак — APGD-CE, APGD-T, FAB і Square Attack — і автоматично оцінює модель проти всіх них. Foolbox надає доповнювальну бібліотеку окремих атак для цільового дослідження.

Оцінка у фізичному світі вимагає спеціального протоколу. Команда оцінки генерує состязальні патчі методом EOT, орієнтуючись на конкретний тип датчика, роздільну здатність і діапазон висот оперативного розгортання. Патчі друкуються у відповідних оперативних розмірах, встановлюються на цільові об'єкти та оцінюються в умовах збору, аналогічних до оперативних.

Ключовий висновок: Найбільш недооцінений вектор атаки в розгорнутому військовому ШІ — це не white-box атака за градієнтом, яка домінує в академічних дослідженнях, а состязальний патч у фізичному світі. Надрукований состязальний патч розміром 20×20 см, розміщений на даху транспортного засобу, обходить більшість виробничих моделей виявлення об'єктів у відеопотоках ISR-дронів із рівнем успіху понад 85% без будь-якого доступу до ваг моделі. Захист від атак у фізичному світі вимагає емпіричної оцінки стійкості за протоколами фізичних патчів, а не лише бенчмарків цифрових збурень.

Оцініть стійкість вашого оборонного конвеєра ШІ до состязальних атак

Інженери Corvus Intelligence оцінюють поверхню состязальних атак у розгорнутих військових системах ШІ — від класифікаторів зображень ISR до тріажу розвідувальних даних на основі LLM — і впроваджують заходи захисту, відповідні оперативній моделі загроз.

Замовити брифінг Дослідити Corvus SENSE →

Цей аналіз підготовлено інженерами Corvus Intelligence, які будують і оцінюють критично важливі системи ШІ для оборонних та урядових організацій. Дізнайтеся про нашу команду →

Часті запитання

Що таке состязальні атаки на системи ШІ і чому вони важливі для оборони?

Состязальні атаки — це спеціально сформовані вхідні дані, які змушують модель ШІ робити неправильні прогнози. В оборонних застосуваннях хибна класифікація може означати, що транспортний засіб залишиться непоміченим системою ISR, ШІ логістики схвалить несанкціонований запит або акустичний датчик не виявить постріл. Состязальні збурення переносяться між моделями, а атаки у фізичному світі не вимагають доступу до ваг або архітектури моделі.

У чому різниця між атаками ухилення і отруєння?

Атаки ухилення відбуваються під час інференсу: зловмисник модифікує вхідні дані (зображення, аудіо, текст), щоб розгорнута модель неправильно класифікувала їх. Модель при цьому не змінюється. Атаки отруєння відбуваються під час навчання: зловмисник псує навчальні дані, щоб навчена модель неправильно поводилась на певних входах (тригери бекдора). В оборонному контексті отруєння найбільш небезпечне при використанні зовнішніх або неперевірених датасетів.

Що таке состязальне навчання і чи погіршує воно точність моделі?

Состязальне навчання доповнює навчальну вибірку состязально збуреними прикладами, змушуючи модель вивчати стійкі представлення. Метод PGD генерує найсильніші збурення в межах заданої норм-кулі і додає їх до кожного батчу. Состязальне навчання надійно підвищує стійкість, але чиста точність зазвичай знижується на 2–8% порівняно зі стандартним навчанням. Для виробничих оборонних розгортань компроміс між стійкістю та точністю потрібно оцінювати відповідно до конкретної оперативної моделі загроз.

Що таке атака через бекдор і як її виявити?

Атака через бекдор вбудовує прихований тригер у модель під час навчання: коли в вхідних даних з'являється певний шаблон, модель видає цільовий клас, обраний зловмисником. На всіх входах без тригера модель поводиться нормально. Методи виявлення: neural cleanse, кластеризація активацій, fine-pruning. Фреймворк AESAW від NIST забезпечує структуровану процедуру оцінки стійкості до бекдорів.

Як оборонним організаціям організувати оцінку стійкості до состязальних атак?

Оцінка повинна охоплювати чотири напрямки: моделювання загроз (можливості зловмисника та бюджет збурення), цифровий бенчмаркінг стійкості (AutoAttack і Foolbox), оцінку у фізичному світі (друковані состязальні патчі відповідних розмірів та діапазонів) та перевірку управління (цілісність даних навчання, RBAC на точках інференсу, версіонування моделей).