Розвідка з відкритих джерел (OSINT) — це розвідка, отримана з публічно або комерційно доступних джерел. Для моніторингу кіберзагроз в оборонних організаціях OSINT представляє критичну можливість раннього попередження: противники планують, координують і хваляться своїми операціями у публічних або напівпублічних каналах задовго до того, як ці операції виявляються традиційним моніторингом безпеки мережі. Побудова конвеєра моніторингу загроз на основі OSINT дає командам ЗСУ та МО видимість у намірах противника до того, як вони матеріалізуються як мережеві вторгнення.

Ця стаття охоплює, що вважається OSINT у контексті кібербезпеки, як побудувати архітектуру збору та обробки, та як обробка природної мови та великі мовні моделі трансформують корисність OSINT-розвідки для оборонних команд.

Що вважається OSINT у кібербезпеці

Визначення "відкритих джерел" у кібербезпечному OSINT ширше, ніж звучить. Воно охоплює будь-яку публічно доступну інформацію — навіть якщо доступ вимагає технічних зусиль, платної підписки або роботи в юридично складних просторах. Для оборонного моніторингу загроз відповідні джерела OSINT включають:

Канали та групи Telegram. З 2022 року Telegram став основною платформою координації та оголошень для державно-орієнтованих кіберзагрозних акторів, хактивістських груп та підрозділів інформаційних операцій. Загрозливі актори використовують публічні та напівпублічні канали Telegram для оголошення цілей атак заздалегідь, вимоги відповідальності за зломи, публікації зразків викрадених даних, вербування операторів та координації DDoS-кампаній. Для оборонних організацій систематичний моніторинг відповідних каналів забезпечує попереджувальну розвідку, яка просто недоступна в жодному комерційному потоці загроз.

Форуми та ринки дарквебу. Викрадені облікові дані, списки мережевого доступу (брокери початкового доступу, що продають доступ до конкретних організацій), код експлойтів та розкриття вразливостей з'являються на форумах дарквебу до того, як потрапляють до широкої обізнаності. Для оборонних підрядників та державних установ моніторинг цих форумів на предмет згадок власних назв організацій, діапазонів IP або імен доменів може забезпечити дні або тижні попереднього попередження до запуску атаки.

GitHub, GitLab та інші репозиторії коду. Загрозливі актори часто розміщують інструменти розвідки, шкідливе ПЗ та коди доказу концепцій експлойтів у публічних репозиторіях. Моніторинг нових репозиторіїв, що містять ключові слова, пов'язані з конкретними оборонними системами, військовим програмним забезпеченням або назвами оборонних підрядників, може виявити активну підготовку атаки. Випадкові витоки облікових даних із розробницьких репозиторіїв оборонних підрядників також є значущим OSINT-сигналом.

Сайти вставки та сайти витоків даних. Викрадені дані часто публікуються на сайтах вставки (Pastebin, Ghostbin, подібні) або спеціалізованих сайтах витоків, що їх ведуть групи-вимагачі та інші загрозливі актори. Ці публікації часто включають облікові дані, мережеві діаграми або внутрішні документи, що встановлюють масштаб компрометації.

Архітектура збору: розподілені скрепери та збір через API

Система збору OSINT для оборонного моніторингу загроз архітектурно є розподіленим конвеєром даних. Шар збору повинен одночасно моніторити десятки-сотні джерел, справлятися з обмеженням швидкості та контролем доступу, підтримувати безперервність збору та подавати нормалізовані дані до нижчих обробників.

Збір Telegram використовує офіційний Telegram MTProto API (через клієнтські бібліотеки Python, такі як Telethon або Pyrogram) для підписки на відстежувані канали та групи та отримання нових повідомлень у близькому до реального часі. Агент збору підтримує список каналів, відстежує ID повідомлень для уникнення повторної обробки та пересилає нові повідомлення з метаданими (ID каналу, часова мітка повідомлення, метадані відправника, медіавкладення) до конвеєра обробки.

Збір з форумів дарквебу вимагає HTTP-скрепінгу на основі Tor. Архітектура, як правило, використовує пул вихідних вузлів Tor, причому скрепери ротують через них для розподілу навантаження запитів та уникнення банів вихідних IP. Зібраний вміст архівується з повними метаданими провенансу та дедублікацією відносно раніше зібраного вмісту.

NLP-збагачення: витягання сутностей та маркування MITRE ATT&CK

Необроблений зібраний текст із джерел OSINT має великий обсяг і низький сигнал. Конвеєр збагачення трансформує його в структуровану розвідку через обробку природної мови.

Розпізнавання іменованих сутностей (NER) ідентифікує та класифікує сутності в необробленому тексті: назви та псевдоніми загрозливих акторів, назви сімей шкідливого ПЗ, ідентифікатори вразливостей (номери CVE), IP-адреси та домени (індикатори компрометації), назви цільових організацій та географічні посилання. Спеціальні моделі NER, навчені на корпусах кібербезпеки, значно перевершують загальномовні NLP-моделі на цьому доменно-специфічному словнику сутностей.

Маркування технік MITRE ATT&CK відображає спостережувані TTP (тактики, техніки та процедури), описані у зібраному контенті, на таксономію фреймворку ATT&CK. Пост, що описує, як загрозливий актор отримав початковий доступ через вкладення spear-phishing, встановив закріплення через заплановане завдання та ексфільтрував дані через зашифроване DNS-тунелювання, може бути позначений T1566.001, T1053.005 та T1048.001 відповідно.

Дедублікація та зниження шуму

Збір OSINT у масштабі виробляє величезні обсяги дублікатів та майже-дублікатів вмісту. Одна і та ж заява про злом може бути опублікована у 15 різних каналах Telegram. Без агресивної дедублікації та зниження шуму конвеєр розвідки ховає аналітиків у надмірних сигналах.

Виявлення майже-дублікатів використовує алгоритми MinHash LSH (Locality-Sensitive Hashing) або SimHash для ідентифікації документів, що є семантично подібними навіть якщо не ідентичними побайтово. Шар дедублікації призначає канонічний ID документа кожній унікальній інформаційній одиниці, і подальші варіанти пов'язуються з канонічним, а не створюють нові записи.

Оцінка релевантності класифікує зібрані документи за шкалою релевантності для організації моніторингу. Модель, навчена на історичних прикладах контенту з високою релевантністю (цільова інформація про загрозу) порівняно з контентом з низькою релевантністю (загальна кіберзлочинна розмова), дозволяє автоматизовану сортування: документи з високою релевантністю передаються аналітикам; документи з низькою релевантністю архівуються.

Роль LLM: резюме, профілювання акторів та ідентифікація тенденцій

Великі мовні моделі трансформували те, що є аналітично можливим із OSINT-даними. Три варіанти використання зараз є операційно зрілими:

Автоматизовані виконавчі резюме. Конвеєр, що збирає, дедублікує та збагачує NER 50 000 OSINT-документів на день, може використовувати LLM для генерації стислого щоденного брифінгу: "Три нові пости у відстежуваних хактивістських каналах заявили DDoS-атаки на веб-сайти оборонних підрядників. Один пост на форумі дарквебу запропонував доступ до мережі Міністерства оборони за $35 000. Новий зразок шкідливого ПЗ з'явився на VirusTotal з C2-інфраструктурою, що перекривається з раніше відстежуваною інфраструктурою." Це резюме, згенероване автоматично, замінює години ручного сортування аналітиком.

Профілювання акторів. LLM можуть синтезувати зібрані докази про конкретного загрозливого актора в структурований профіль: спостережувані TTP, патерни таргетування, характеристики інфраструктури, хронологія активності, зважені за достовірністю індикатори атрибуції.

Ключовий висновок: Найцінніший OSINT для оборонних організацій є організаційно-специфічним: згадки власних доменів, діапазонів IP, імен співробітників, назв систем та деталей контрактів. Загальна розвідка загроз розповідає про ландшафт загроз; цільовий OSINT говорить про те, що ваша організація активно готується до атаки. Архітектура збору повинна бути налаштована для виявлення цих цільових сигналів на фоні шуму загальної кіберзлочинної активності.