Команди кіберрозвідки загроз стикаються з проблемою, що невпинно зростає. Обсяг сирих даних про загрози — стрічки IOC від ISAC, OSINT зі сторінок вставки та каналів Telegram, експорти форумів даркнету, звіти розвідки від постачальників — зростає швидше, ніж чисельність аналітиків у кожній організації, яка серйозно займається CTI. Результат — накопичення невиконаних задач: дані про загрози надходять своєчасно, але не класифікуються, не збагачуються й не корелюються до того, як вікно можливостей для реагування закривається. Ручна класифікація у масштабі — це не проблема робочого процесу. Це структурна проблема, яку неможливо вирішити найманням більшої кількості аналітиків.

Великі мовні моделі пропонують реальне рішення — не як заміну судженню аналітика, а як шар класифікації та збагачення, що перетворює неструктуровані дані про загрози на структуровані записи зі швидкістю машини. У цій статті розглядаються архітектурні рішення, що мають значення під час інтеграції LLM у CTI-конвеєр: який клас моделі для якого завдання використовувати, як структурувати конвеєр від прийому до виходу з STIX 2.1 і MITRE ATT&CK, які навчальні дані дають надійні класифікатори на рівні технік, як оцінювати продуктивність у контексті SOC і як проектувати засоби контролю за участю аналітика, що забезпечують надійність системи за умов протидії.

Чому ручна класифікація CTI не масштабується

Проблема масштабу є кількісною та якісною. З кількісного боку: організація оборонного сектору середнього рівня, що відстежує реалістичний набір стрічок загроз — дві-три стрічки ISAC, AlienVault OTX, кілька серверів спільноти MISP, а також збагачення через пасивний DNS і журнали прозорості сертифікатів, — отримує десятки тисяч сирих індикаторів на день. Ручна класифікація кожного IOC за зловмисником, сімейством шкідливого ПЗ і відповідною технікою ATT&CK вимірюється в годинах роботи аналітиків на день, яких у більшості CTI-команд просто немає.

Якісна проблема — неоднорідність джерел. ISAC постачають структуровані пакети STIX із відносно чистими мітками. OSINT-стрічки надають неструктурований текст: дописи в блогах, гілки форумів, експорти каналів Telegram. Дані даркнету надходять у форматах, що вимагають значного попереднього опрацювання, перш ніж будь-яка спроба класифікації стає змістовною. Кожне джерело потребує окремого підходу до вилучення, а підтримка надійних екстракторів на основі правил для всіх них — при цьому встигаючи за тим, як зловмисники навмисно варіюють свою мову для уникнення виявлення, — це тягар технічного обслуговування, який зростає з часом.

Вигорання аналітиків є наслідком цього процесу. Коли черга класифікації постійно переповнена, аналітики перестають переглядати окремі записи й починають обробляти лише елементи з найвищим ступенем серйозності після попередньої фільтрації. Результат — систематичні сліпі зони в картині загроз: не тому, що дані не були зібрані, а тому, що вони так і не були класифіковані й прокорельовані. Шар класифікації LLM не усуває потреби в судженні аналітика; він усуває ту частину робочого процесу, де аналітики виконують роботу, яку можна надійно автоматизувати.

Архітектура LLM для CTI: кодувальні моделі проти генеративних

Найважливіший архітектурний вибір у CTI LLM-конвеєрі — який клас моделі використовувати на кожному етапі. Кодувальні моделі (клас BERT) і генеративні моделі (клас GPT) мають принципово різні сильні сторони, і використання невідповідного класу для задачі призводить або до низької точності, або до зайвих витрат.

Кодувальні моделі для класифікації

Кодувальні моделі класу BERT — особливо адаптовані до предметної області варіанти, точно налаштовані на тексті безпеки, наприклад SecBERT або CySecBERT, — є правильним вибором для задач класифікації з фіксованою таксономією. За наявності CTI-документа та попередньо визначеного набору міток (ідентифікатори технік ATT&CK, назви сімейств шкідливого ПЗ, угруповання зловмисників) точно налаштована кодувальна модель видає оцінки класифікації по всьому простору міток менш ніж за 500 мілісекунд на скромному апаратному забезпеченні. Точне налаштування на розмічених CTI-корпусах обсягом від 5 000 до 20 000 прикладів, як правило, досягає точності, придатної для виробництва.

Критичне обмеження полягає в тому, що набір міток повинен бути фіксованим і відомим на момент навчання. Кодувальні моделі не можуть узагальнювати на мітки, не бачені під час навчання. Для класифікації технік MITRE ATT&CK це не є практичним обмеженням: таксономія технік ATT&CK перебуває під контролем версій, а оновлення можуть ініціювати цільовий цикл точного налаштування. Для класифікації сімейств шкідливого ПЗ, де нові сімейства з'являються безперервно, кодувальну модель слід поєднувати з механізмом виявлення виходу за межі розподілу, що направляє кандидатів із невідомим сімейством до аналітика, а не примушує до класифікації за найближчим збігом.

Генеративні моделі для збагачення

Генеративні моделі є правильним вибором, коли результат є відкритим або вимагає міркування в контексті документа. Вилучення структурованих полів IOC із неформатованого звіту про зловмисника, синтез описового зведення з набору структурованих записів про події, виведення географії жертви із непрямих ознак, а не явних назв країн, — ці задачі вимагають можливостей, які кодувальна класифікація не може забезпечити.

Ключова дисципліна при використанні генеративних моделей у CTI-конвеєрі — обмеження формату виводу. Генеративна модель, якій дозволено виробляти вихід у вільному тексті, вноситиме синонімію та непослідовність, що ускладнює подальшу агрегацію. Рішення — структурований вихідний промптинг: модель інструктується видавати JSON-відповідь відповідно до суворої схеми, з валідацією схеми при отриманні. Збої аналізу відповіді ініціюють автоматичний повтор із корекційними інструкціями. Ця дисципліна перетворює ймовірнісну генеративну систему на надійне джерело структурованих даних.

Генеративне збагачення також є правильним місцем для оцінки впевненості. Модель отримує інструкцію повертати оцінку впевненості для кожного поля від 0 до 1, що відображає реальну епістемічну невизначеність з урахуванням змісту вихідного документа. Повідомлення, де явно зазначено організацію-жертву та країну, дає поля з високою впевненістю щодо географії й організації; повідомлення, де сектор мається на увазі, але організація не названа, дає нижчу впевненість. Ці оцінки визначають рішення щодо маршрутизації в конвеєрі на подальших етапах.

Проектування конвеєра: від сирого IOC до відображення на MITRE ATT&CK

Виробничий CTI-конвеєр класифікації складається з п'яти окремих етапів, кожен із яких має специфічні вхідні дані, вихідні дані та режими відмов.

Етап 1 — Прийом і нормалізація. Сирі дані про загрози надходять у різнорідних форматах: пакети STIX 2.1 зі стрічок ISAC, експорти подій MISP, JSON із комерційних API розвідки загроз і неструктурований текст із джерел OSINT. Етап прийому нормалізує всі вхідні дані до канонічного внутрішнього формату документа перед будь-яким LLM-опрацюванням. Для вхідних даних STIX і MISP це переважно вилучення полів. Для неструктурованого тексту це включає виявлення мови, нормалізацію кодування і фільтрацію за мінімальною довжиною (документи коротші за приблизно 50 токенів не містять достатнього контексту для надійної класифікації). Метадані джерела — ідентифікатор стрічки, часова мітка прийому, оцінка впевненості від постачальника вище за потоком, якщо є, — зберігаються як конвертні поля протягом усього конвеєра.

Етап 2 — Бінарний шлюз релевантності. Не всі прийняті документи є кандидатами для повної LLM-класифікації. Легкий бінарний класифікатор (точно налаштована кодувальна модель із 350M параметрів або менше) запускається першим для фільтрації документів, що не містять оперативного контенту про загрози: зведення новин, адміністративні бюлетені, хибно-позитивні IOC, вже відомі як безпечні. Цей шлюз зменшує обсяг LLM-інференсу на 60–80% у типових конфігураціях стрічок, безпосередньо скорочуючи вартість на день. Шлюз налаштований на високу повноту — пропустити справжній документ про загрозу обходиться дорожче, ніж направити неоперативний документ на етап LLM.

Етап 3 — LLM-класифікація та збагачення. Документи, що пройшли бінарний шлюз, переходять на етап класифікації. Точно налаштована кодувальна модель призначає ідентифікатори технік ATT&CK і мітки сімейств шкідливого ПЗ. Генеративний прохід збагачення витягує структуровані поля: угруповання зловмисників, організація-жертва, сектор (із фіксованої таксономії з восьми категорій), географія (ISO 3166-1 alpha-2), вектор атаки та оцінки впевненості для кожного поля. Два проходи можуть виконуватися паралельно, оскільки вони оперують одним і тим самим вхідним документом.

Етап 4 — Відображення на MITRE ATT&CK і розв'язання сутностей. Ідентифікатори технік від класифікатора відображаються на об'єкти ATT&CK із повним збагаченням: асоціація тактик, застосовність до платформ і посилання на рекомендації щодо виявлення. Назви зловмисників і організацій-жертв зіставляються з наявним індексом сутностей за допомогою нечіткого збігу імен і усунення неоднозначності за кодом країни. Відомі псевдоніми приводяться до канонічного вигляду. Нові сутності ініціюють створення попереднього запису для огляду аналітиком, а не тихе вставляння.

Етап 5 — Серіалізація STIX 2.1 і вивід. Збагачені записи серіалізуються як пакети Bundle STIX 2.1 — об'єкти Threat Actor, Malware, Attack Pattern, Indicator і Relationship із відповідними зовнішніми посиланнями на ідентифікатори технік ATT&CK. Пакети перевіряються за схемою STIX 2.1 перед зберіганням або експортом. Для інтеграції з MISP ті самі структуровані записи відображаються на події MISP через галактику ATT&CK. Для інтеграції з SIEM підтримуються формати CEF і структурований JSON для прямого прийому сповіщень.

Навчальні дані для класифікації TTP протидії

Якість моделі класифікації CTI визначається передусім якістю та охопленням навчальних даних. Три джерела забезпечують найбільш надійні розмічені дані для класифікації технік ATT&CK.

База знань MITRE ATT&CK є канонічною відправною точкою. Кожен запис техніки містить описи в прозі, приклади процедур із реальних звітів про зловмисників і рекомендації щодо виявлення. Приклади процедур — описи того, як конкретні угруповання використовували техніку в підтверджених операціях, — є найякіснішим навчальним сигналом, оскільки відображають мовні патерни природної мови, що використовуються аналітиками при описі активності TTP. Корпус ATT&CK підтримується під контролем версій; кожний реліз додає нові техніки та уточнює існуючі, тому конвеєри точного налаштування мають бути прив'язані до конкретних версій ATT&CK.

Експорти пульсів AlienVault OTX надають розмічені дані про зловмисників і сімейства шкідливого ПЗ у масштабі. Кожен пульс містить заголовок, опис і пов'язані IOC, позначені зловмисником або сімейством шкідливого ПЗ, яким їх атрибутує автор. Якість міток варіюється залежно від автора; фільтрація до пульсів із верифікованих організацій значно покращує навчальний сигнал. Експорти OTX у форматі STIX забезпечують послідовне прийняття.

Для розмічення TTP протидії звіти розвідки від постачальників (опубліковані на відповідних умовах) містять якісні атрибуції технік із явним формулюванням: «Угруповання використовувало T1055.012 (Process Hollowing) для впровадження в легітимні процеси Windows». Ці твердження надають прямі мітки на рівні технік із контекстним текстом. Їх вилучення вимагає одноразового проходу анотування для узгодження тексту звіту з ідентифікаторами технік ATT&CK, але отримані розмічені приклади є одними з найнадійніших доступних для точного налаштування.

Стратегія розмічення рідкісних технік вимагає особливої уваги. ATT&CK містить понад 600 технік і підтехнік, і багато з них зустрічаються менш ніж у 20 розмічених прикладах у будь-якому доступному корпусі. Для цих рідкісних класів і аугментація даних (перефразування описів прикладів процедур), і небагатоетапний промптинг із генеративною моделлю як резервний класифікатор є прийнятними підходами. Мінімальна практична нижня межа для надійної точно налаштованої класифікації — приблизно 80 розмічених прикладів на клас; класи нижче цього порогу слід направляти до генеративної моделі з небагатоетапним промптом, а не до точно налаштованої кодувальної моделі.

Метрики оцінки в контексті SOC

Стандартні метрики точності вводять в оману при застосуванні до класифікації CTI, оскільки розподіл міток технік загроз є сильно незбалансованим. Техніки, як-от T1566 (Фішинг) і T1059 (Командний та скриптовий інтерпретатор), зустрічаються у великій частці реальних звітів про інциденти. Рідкісні, але важливі техніки — T1195 (Компрометація ланцюга постачання), T1600 (Послаблення шифрування) — зустрічаються значно рідше. Модель, що досягає 92% загальної точності, концентруючи продуктивність на поширених техніках і помиляючись на рідкісних важливих, є операційно непридатною.

Метрики, що мають значення для виробничої класифікації CTI, — точність і повнота на рівні техніки, звітовані окремо для всієї таксономії технік. Макро-усереднений F1 — незважений середній показник F1 по всіх класах технік — є підсумковою метрикою, що найкраще відображає загальну продуктивність на незбалансованому розподілі міток. Для CTI-конвеєра, що обслуговує SOC, повнота на рівні техніки для пріоритетних класів моніторингу (конкретних технік, що стосуються зловмисників, які атакують ваш сектор і географію) є єдиним найважливішим операційним показником. Пропуск 20% подій T1055 в оборонній організації, що відстежує поглиблені стійкі загрози, є неприйнятним компромісом між точністю та повнотою незалежно від значення макро F1.

Вартість хибно-позитивних результатів у контексті SOC є асиметричною. Хибно-позитивний результат — документ, класифікований як такий, що містить конкретну техніку ATT&CK, коли насправді не містить, — коштує аналітику часу на огляд хибного запису. Вартість обмежена й керована. Хибно-негативний результат — справжня техніка ATT&CK, не виявлена класифікатором, — може означати, що TTP зловмисника залишається непоміченим до виникнення інциденту. Калібрування порогових значень впевненості для прийняття вищої частки хибно-позитивних результатів в обмін на нижчу частку хибно-негативних є правильною операційною точкою для сценаріїв моніторингу з високими ставками.

Операційна інтеграція: режими реального часу, пакетний та з участю аналітика

CTI-конвеєри класифікації працюють у двох режимах із різними вимогами до затримки та пропускної здатності. Класифікація в режимі реального часу необхідна, коли джерелом є живий потік — моніторинг каналів Telegram, підписки на живі стрічки загроз, активна мережева телеметрія. Конвеєр повинен класифікувати кожен документ у міру надходження, з наскрізною затримкою, що вимірюється секундами, а не хвилинами. Це обмежує вибір моделі: етап кодувальної класифікації повинен виконуватися менш ніж за 500 мілісекунд; генеративний етап збагачення має в середньому не перевищувати 15 секунд на документ. Асинхронне опрацювання з чергою повідомлень між етапами запобігає тому, щоб зворотний тиск від генеративного етапу блокував прийом.

Пакетна класифікація доречна для аналізу історичних корпусів — перекласифікації наявної бази IOC за новою версією ATT&CK, збагачення застарілого екземпляра MISP структурованими полями або опрацювання масового експорту з комерційної платформи розвідки загроз. Пакетний режим може використовувати більші, точніші моделі, оскільки обмеження щодо затримки знято, і може виконуватися вночі без впливу на виробничу потужність конвеєра реального часу.

Проектування з участю аналітика не є необов'язковим для виробничих систем класифікації CTI. LLM-класифікатори систематично помиляються на граничних випадках, нових мовних патернах зловмисників і навмисно обфускованому вмісті. Без механізму виправлення ці помилки накопичуються в низхідному графі й погіршують якість розвідувальних продуктів з часом. Черга аналітиків — записи, направлені на перевірку людиною на основі порогових значень впевненості, — повинна включати вбудований інтерфейс виправлення, що фіксує редагування на рівні полів як розмічені навчальні дані. Виправлення мають надходити до циклу зворотного зв'язку точного налаштування, що виконується за регулярним розкладом і безперервно покращує калібрування моделі на конкретному ландшафті загроз, що відстежується.

Конфігурація порогових значень впевненості є основним операційним засобом контролю. Для секторів із підвищеним ризиком (критична інфраструктура, оборона) нижчі пороги (0,60–0,70) максимізують повноту ціною вищого обсягу черги аналітиків. Для широкого моніторингу, де основна мета — аналіз тенденцій, а не сповіщення про окремі події, пороги 0,78–0,85 скорочують обсяг черги до керованого рівня. Пороги слід калібрувати окремо для кожного поля — профілі точності впевненості щодо географії та техніки відрізняються на оціночному наборі моделі — і переглядати щокварталу щодо частоти виправлень аналітиків для виявлення зміщення розподілу.

Для детальнішого ознайомлення з тим, як CTI-платформи інтегрують структуровані дані про загрози в багатоджерельних середовищах, ознайомтесь із нашим керівництвом з архітектури CTI-платформи оборонного класу.

Інтеграція LLM-класифікації з конвеєрами моніторингу OSINT

LLM-класифікація не функціонує ізольовано. У зрілій CTI-програмі вона є одним із етапів більшого конвеєра, що починається з моніторингу джерел і закінчується розвідувальними продуктами, готовими для аналітика, і сповіщеннями, інтегрованими в SIEM. Точки інтеграції, що вимагають особливої інженерної уваги, — це передання між етапами.

Моніторинг OSINT-джерел — пасивний DNS, сканування журналів прозорості сертифікатів, індексування форумів даркнету й моніторинг каналів відкритих платформ обміну повідомленнями — генерує сирий потік документів для конвеєра класифікації. Кожен тип джерела привносить різні проблеми якості даних. Дані пасивного DNS структуровані, але мають великий обсяг із багатьма безпечними записами. Вміст форумів даркнету є неструктурованим, багатомовним і вимагає усунення неоднозначності сутностей для відокремлення справжніх зловмисників від самозванців. Канали відкритих платформ обміну повідомленнями змішують оголошення про атаки з високим сигналом із шумом, пропагандою й дезінформацією у пропорції, що суттєво варіюється залежно від каналу.

Бінарний шлюз конвеєра класифікації є основним механізмом для обробки шуму джерел. Модель шлюзу, точно налаштована на розмічених прикладах із кожного типу джерел, значно перевершить загальний класифікатор релевантності. Інвестиції в моделі шлюзу для кожного джерела — це найвигідніша в плані ROI настройка, доступна в CTI-конвеєрі класифікації, оскільки вона безпосередньо скорочує вартість LLM-інференсу, що домінує в операційних витратах на день.

Інтеграція SIEM на вихідному кінці конвеєра вимагає ретельного відображення схем. Більшість корпоративних SIEM приймають CEF (Common Event Format) або структурований JSON через syslog або REST-вебхук. Пакети Bundle STIX 2.1 не приймаються більшістю SIEM нативно без шару трансляції. Практичний підхід — підтримувати два вихідних потоки з конвеєра класифікації: потік пакетів STIX для прийому CTI-платформою та міжорганізаційного обміну, і потік сповіщень нативного формату SIEM, що відображає найбільш операційно значущі поля (ідентифікатор техніки, зловмисник, серйозність, уражена організація) на схему SIEM. Правила кореляції в SIEM мають використовувати ідентифікатори технік ATT&CK як ключ об'єднання між сповіщеннями, отриманими з CTI, і подіями телеметрії кінцевої точки/мережі.

Операційна зрілість моніторингу загроз на основі OSINT в оборонних організаціях суттєво зросла за останні три роки — значною мірою завдяки практичній доступності LLM-обробки тексту. Те, що два роки тому вимагало команди аналітиків і значного тягаря з підтримки правил, нині можна вирішити за допомогою добре спроектованого конвеєра класифікації, що працює на скромній інфраструктурі.

Corvus.Sense застосовує LLM-класифікацію CTI до моніторингу каналів Telegram у режимі реального часу та профілювання зловмисників — перетворюючи неструктуровану розвідку з відкритих джерел на структуровані профілі зловмисників, хронологію технік із відображенням на ATT&CK і розвідувальні продукти, придатні для експорту в STIX. Якщо ваша команда управляє CTI у масштабі й потребує готового до виробництва шару класифікації, Corvus.Sense розроблений саме для цього завдання.

Дізнатися про Corvus.Sense →