Комерційні фіди кіберрозвідки мають добре задокументовану проблему затримки. До того моменту, коли індикатор компрометації (IOC) — шкідлива IP-адреса, домен командного центру C2, хеш файлу, пов'язаний з новим зразком шкідливого програмного забезпечення — з'являється в платному фіді, він нерідко вже активний протягом 24–72 годин. Зловмисники розгортають інфраструктуру, ведуть розвідку та публікують оперативні деталі у відкритих каналах задовго до того, як постачальник фіду вловлює сигнал. Для інженерів оборонного програмного забезпечення та закупівельних команд, що оцінюють інструменти CTI, ця затримка не є крайнім випадком: вона є типовим станом справ.

Практичною відповіддю є побудова або закупівля конвеєра, що вилучає IOC безпосередньо з відкритих джерел, де вони з'являються першими. Ця стаття охоплює ландшафт джерел, архітектуру вилучення та нормалізації, обробку хибних спрацьовувань, механіку потокової передачі у реальному часі та кроки збагачення, що перетворюють необроблений вилучений індикатор на дієву кіберрозвідку.

Перевага швидкості при збиранні IOC з відкритих джерел

Розрив між першою згадкою у відкритих джерелах і публікацією в комерційному фіді добре встановлений у спільноті кіберрозвідки. Домен, зареєстрований як кінцева точка C2, нерідко анонсується — або принаймні виявляється — в Telegram-каналах загрозливих акторів протягом кількох годин після запуску. Той самий домен може з'явитися в преміум-фіді через 24–96 годин після того, як аналітик постачальника його обробить і підтвердить. Для високотемпових операцій, де загрозливі актори часто ротують інфраструктуру, це вікно становить весь оперативний термін деяких індикаторів.

Відкриті джерела також виявляють типи IOC, структурно недостатньо представлені в комерційних фідах. Paste-сайти отримують дампи даних із витоків протягом хвилин після ексфільтрації. Telegram-канали, керовані хактивістськими групами та проактивними державними акторами, оголошують цілі, беруть на себе відповідальність і публікують матеріали про компрометацію, що містять хеші, IP-адреси та домени, ще не пов'язані з жодною відомою кампанією в комерційних базах даних. Спільноти Reddit і спеціалізовані Discord-сервери приймають обговорення щойно виявлених зразків шкідливого програмного забезпечення, нерідко із хеш-значеннями та поведінковими описами, — ще до публікації офіційного аналізу.

Цінність не в тому, що відкриті джерела замінюють комерційні фіди — вони їх не замінюють. Комерційні фіди надають валідовані, структуровані, високодостовірні індикатори у масштабі. Відкриті джерела дають швидкість та охоплення джерел, занадто мінливих або занадто нішевих для систематичного моніторингу комерційними операціями збору. Виробничий конвеєр CTI потребує обох.

Ландшафт джерел: де IOC з'являються першими

Telegram-канали. З 2022 року Telegram став основною публічною платформою координації та оголошень для широкого спектра загрозливих акторів, включаючи проактивні державні групи, хактивістські колективи, оператори програм-вимагачів та брокери початкового доступу. Відповідні канали публікують списки цілей перед атаками, негайно беруть на себе відповідальність після них і розміщують скриншоти або зразки даних, що містять IOC, придатні для вилучення. Обсяг великий, а щільність сигналу нерівномірна: один активний канал може давати десятки цінних IOC на тиждень поряд із великими обсягами пропагандистського контенту без придатної розвідки. Системний збір потребує відбору каналів, фільтрації повідомлень та мовно-орієнтованої обробки для каналів, що діють російською, українською, арабською, китайською та іншими мовами.

Paste-сайти. Pastebin та його функціональні еквіваленти (Ghostbin, публічні екземпляри PrivateBin та спеціалізовані сайти витоків) отримують великі обсяги дампів даних. Контент варіює від списків викрадених облікових даних із доменними іменами, електронними адресами та хешованими паролями до більш оперативно значимих дампів, включаючи мережеві діаграми, конфігураційні файли з вбудованими IP та журнали вихідних даних інструментів розвідки. Публічні API paste-сайтів і RSS-фіди забезпечують збір у майже реальному часі. Виклик — обсяг: десятки тисяч нових вставок на день, переважна більшість яких не стосується жодної конкретної цілі моніторингу.

Акаунти кіберрозвідки в Twitter/X. Група дослідників безпеки та постачальників використовує Twitter/X як основний канал публікації щойно виявлених IOC. Хеш-значення першої публікації, реєстрації доменів C2 та аналізи зразків шкідливого програмного забезпечення часто з'являються у твітах раніше за будь-яку іншу публікацію. Доступ до filtered stream із фільтрами за ключовими словами та відомими акаунтами з високим сигналом забезпечує збір IOC у майже реальному часі з цього джерела. Обмеження формату платформи (короткий текст, URL, використання defanging-конвенцій) потребують специфічної обробки парсингу.

Форуми темної мережі. Форуми брокерів доступу — де продається початковий доступ до зламаних мереж — та сайти витоків груп програм-вимагачів публікують контент із IOC, придатними для вилучення: доменні імена організацій-жертв, деталі інфраструктури та зразки вкрадених файлів. Збір потребує HTTP-скрапінгу через Tor-проксі і операційно складніший, ніж збір із поверхневої мережі, але розвідувальна цінність для оборонних організацій (завчасне попередження про продаж мережевого доступу або виявлення компрометації до публічного розкриття) виправдовує складність.

Reddit і технічні спільноти безпеки. Субреддіти з аналізу шкідливого програмного забезпечення, зворотної розробки та реагування на інциденти приймають обговорення щойно виявлених зразків. Хеш-значення, поведінкові індикатори та деталі інфраструктури C2 з'являються в цих дискусіях — нерідко до публікації офіційних звітів. Формат дискурсу потребує вилучення на основі NER, а не простого зіставлення з регулярними виразами, оскільки значення IOC вбудовані у довільний текст.

Конвеєр NLP-вилучення: регулярні вирази, NER і нормалізація

Конвеєр вилучення IOC працює паралельно двома треками: вилучення на основі шаблонів для типізованих індикаторів та вилучення на основі моделей для неструктурованих згадок сутностей.

Refanging як крок попередньої обробки. Перед будь-яким зіставленням із шаблоном необроблений текст необхідно «refang». Фахівці з безпеки застосовують defanging до IOC у тексті для запобігання випадковій активації: замінюють «http» на «hxxp», вставляють дужки навколо крапок (наприклад, «198.51.100[.]1»), підставляють «[at]» замість «@» в адресах електронної пошти тощо. Препроцесор refanging відновлює канонічну форму перед застосуванням шаблонів. Пропуск цього кроку спричиняє систематичні збої вилучення: defang-оброблені індикатори надзвичайно поширені на Twitter/X і форумах безпеки, і конвеєр, що пропускає refanging, упустить значну частку доступних IOC.

Регулярні вирази для типізованих IOC. Після refanging регулярні вирази вилучають:

  • IPv4-адреси: стандартний шаблон «dotted-quad» із виключеннями для документаційних діапазонів (192.0.2.0/24, 198.51.100.0/24, 203.0.113.0/24) та приватних діапазонів
  • IPv6-адреси: повна та скорочена форми
  • Домени: зіставлення шаблону для імен хостів, дійсних для реєстру, із валідацією TLD за Public Suffix List для зменшення хибних спрацьовувань від фрагментів слів, що відповідають шаблону імені хоста
  • URL-адреси: повний URL, включаючи схему, необов'язкові облікові дані, хост, шлях і рядок запиту
  • Хеші файлів: MD5 (32 шістнадцяткових символи), SHA-1 (40 символів), SHA-256 (64 символи) — розрізняються за довжиною; більш широкий шаблон шістнадцяткового рядка дає забагато хибних спрацьовувань і не повинен використовуватися
  • Ідентифікатори CVE: формат CVE-РРРР-NNNNN із валідацією року
  • Адреси електронної пошти: стандартний шаблон RFC 5322 із обробкою defanging

NER для неструктурованих згадок сутностей. Регулярні вирази не захоплюють назви загрозливих акторів, назви сімейств шкідливого програмного забезпечення, ідентифікатори кампаній або контекстні посилання на цільові організації. Модель розпізнавання іменованих сутностей, навчена на корпусах кібербезпеки, вилучає ці сутності. Попередньо навчені моделі, такі як сімейства CyberSecBERT або SecBERT, значно перевершують загальні NLP-моделі на цьому словнику. Нормалізація сутностей — зіставлення псевдонімів і варіантів написання з канонічними ідентифікаторами — є окремим кроком постобробки, що підтримується таблицею пошуку команди кіберрозвідки.

Дедублювання. Однакове значення IOC, вилучене з кількох джерел у короткому часовому вікні, необхідно дедублювати перед доставкою аналітику. На рівні значень точне дедублювання є простим. На рівні документа хешування з локальною чутливістю MinHash виявляє майже дублікати публікацій — одне оголошення, поширене кількома Telegram-каналами — та об'єднує їх в один канонічний запис із списком походження, а не генерує окремі сповіщення на кожен канал.

Обробка хибних спрацьовувань: контекстне оцінювання та достовірність джерела

Необроблене вилучення регулярними виразами, застосоване до тексту соціальних мереж, дає велику кількість хибних спрацьовувань. IP-адреса, згадана як відомий безпечний DNS-резолвер, домен, наведений як легітимне посилання, або хеш-значення, включене як безневинний приклад — усі вони відповідають шаблонам вилучення, але не несуть жодної розвідувальної цінності. Їх фільтрування потребує шару оцінювання, що застосовується до кожного кандидата IOC.

Оцінювання контекстного вікна. Для кожного вилученого кандидата аналізується вікно 100 символів навколо збігу на предмет контекстних сигналів. Терміни позитивного сигналу — «C2», «beacon», «payload», «infected», «dropped», «malicious», «compromised», «callback» — підвищують оцінку достовірності. Терміни негативного сигналу — «sinkhole», «benign», «example», «test», «legitimate», «documented safe» — знижують її. Контекстне вікно також перевіряє шаблони заперечення: «not malicious» повинно оцінюватися інакше, ніж «malicious».

Зважування достовірності джерела. Дослідник із задокументованою історією точних публікацій IOC вносить вищу базову достовірність, ніж анонімний акаунт на paste-сайті з низькою репутацією. Оцінки достовірності джерел підтримуються для кожного джерела й акаунта, оновлюються на основі зворотних зв'язків: коли раніше вилучений IOC пізніше підтверджується у верифікованому інциденті, оцінка достовірності джерела зростає; коли вилучений IOC підтверджується як безневинний — знижується. З часом це створює систему репутації джерела, що самокалібрується.

Структурні евристики. Деякі класи хибних спрацьовувань вловлюються легкими евристиками незалежно від контекстного тексту. IPv4-адреси в документаційних діапазонах ніколи не є дієвими. Домени, зареєстровані більше п'яти років тому без будь-якої іншої шкідливої асоціації, навряд є нещодавно активною інфраструктурою C2. Хеші файлів коротші за 32 символи, що відповідали шаблону MD5, ймовірно, є усіченими значеннями з ширшого шістнадцяткового рядка. Шар евристичного фільтра, застосований перед контекстним оцінюванням, зменшує набір кандидатів без обчислювальних витрат повного контекстного аналізу.

Потокова обробка в реальному часі: архітектура конвеєра на основі Kafka

При виробничих обсягах — одночасний моніторинг сотень Telegram-каналів, кількох фідів paste-сайтів і високочастотних потоків соціальних мереж — синхронна архітектура обробки не може підтримувати низьку затримку. Архітектура на основі черги повідомлень розв'язує збір від обробки й дає можливість горизонтального масштабування кожного етапу незалежно.

Типова архітектура розміщує Apache Kafka в основі. Адаптери збору публікують необроблені повідомлення до специфічної для джерела теми Kafka. Споживач попередньої обробки зчитує з цих тем, виконує refanging та визначення мови, і публікує нормалізовані документи до теми обробки. Споживач вилучення та оцінювання зчитує нормалізовані документи, запускає вилучення регулярними виразами та NER, застосовує контекстне оцінювання і публікує кандидати IOC до теми результатів вилучення. Споживач збагачення зчитує кандидати з високою достовірністю і запускає асинхронні запити до зовнішніх сервісів (VirusTotal, Shodan, постачальники пасивного DNS). Збагачені записи IOC публікуються до кінцевої теми виводу, яку споживають інтеграція MISP і системи сповіщень аналітиків.

Ця архітектура надає кілька оперативних властивостей, критичних для виробничого конвеєра кіберрозвідки. Збої етапів ізольовані — відмова API VirusTotal зупиняє збагачення, але не блокує вилучення або збір. Зворотний тиск обробляється моделлю зсуву споживача Kafka: якщо вилучення відстає від збору під час стрибка, накопичений резерв обробляється в Kafka, коли відновлюється потужність. Доступне відтворення: будь-який етап може повторно обробляти історичні повідомлення шляхом скидання зсувів споживача, що дає змогу ретроспективного аналізу при додаванні нових шаблонів вилучення.

Наскрізна затримка від публікації повідомлення в Telegram до надходження IOC із високою достовірністю до черги сповіщень аналітика зазвичай становить менше 90 секунд у добре налаштованому розгортанні, причому більшість цього часу витрачається на виклики API збагачення. Для paste-сайтів із збором на основі опитування нижня межа затримки — це інтервал опитування: зазвичай від однієї до п'яти хвилин для пріоритетних paste-джерел.

Збагачення фіду: додавання оперативного контексту

Необроблений вилучений IOC — IP-адреса, доменне ім'я, хеш файлу — ще не є дієвою розвідкою. Збагачення перетворює його на контекстний запис, яким аналітик може скористатися для прийняття рішення про блокування або розслідування без додаткових ручних пошуків.

Запит репутації VirusTotal надає колективний вердикт десятків постачальників антивірусів і кіберрозвідки щодо певного індикатора. Домен або хеш із нульовою кількістю виявлень на момент вилучення може бути позначений протягом кількох годин, коли інші постачальники обробляють той самий індикатор. Конвеєр кешує результати VirusTotal із коротким TTL (зазвичай 24 години для IP та доменів, довше для хешів файлів) і повторно запитує після закінчення терміну кешу для отримання оновлених вердиктів.

Пасивний DNS надає історію розв'язання доменів або IP: які домени розв'язувались до цієї IP, до яких IP розв'язувався цей домен, і коли відбувалися ці розв'язання. Пасивний DNS необхідний для виявлення повторного використання інфраструктури між кампаніями — новий домен C2, що розв'язується до IP, раніше пов'язаного з відомим загрозливим актором, є сильним сигналом атрибуції, невидимим лише з запису домену.

Запити Shodan для IOC типу IP надають профіль відкритих портів, запущені сервіси та дані сертифікатів, видимі на цій адресі на момент збору. IP, що запускає небрендований HTTPS-сервіс на нестандартному порту, має нещодавно видану самопідписаний сертифікат і не має іншої історії хостингу, є суттєво більш підозрілим кандидатом C2, ніж IP, що запускає стандартний сервісний стек великої CDN.

WHOIS та давність реєстрації. Домени, зареєстровані протягом останніх 30 днів, значно частіше є шкідливою інфраструктурою, ніж домени з багаторічною історією реєстрації. Дата реєстрації WHOIS — це недорогий, але сигнально потужний елемент збагачення, що повинен бути стандартним для кожного IOC типу «домен».

Для детального розгляду того, як Telegram конкретно слугує як джерело збору, так і сигнальним середовищем для загрозливих акторів, дивіться нашу попередню статтю про побудову можливостей моніторингу кіберрозвідки через Telegram. Щодо ширшого платформного контексту, в якому розміщується вилучення IOC, стаття про архітектуру платформи кіберрозвідки для оборони охоплює нижчорівневі процеси, що споживають вилучені фіди IOC.

Оперативна примітка: Найцінніші IOC від вилучення з відкритих джерел нерідко є не самими індикаторами, а сигналом щодо часу — фактом того, що конкретний загрозливий актор згадує домен вашої організації, діапазон IP або назви систем ще до виявлення будь-якої мережевої активності. Побудова сповіщень за ключовими словами навколо специфічних для організації ідентифікаторів (внутрішні назви проєктів, домени постачальників, назви компонентів технологічного стека) перетворює конвеєр вилучення на систему раннього попередження, яку жоден комерційний фід не може відтворити.

Інтеграція з MISP і доставка аналітикам

Вихідні дані конвеєра вилучення та збагачення повинні нативно інтегруватися з наявним робочим процесом кіберрозвідки аналітика, а не створювати окреме ізольоване сховище даних. MISP (Malware Information Sharing Platform) є стандартною відкритою платформою для структурованого управління IOC в середовищах CTI сектору оборони та держструктур.

Кожен кластер пов'язаних IOC, вилучених з одного вихідного документа — публікації в Telegram, запису на paste-сайті — подається як подія MISP. Подія містить вихідний текст як атрибут у вільному тексті, вилучені IOC як типізовані атрибути (ip-dst, domain, md5, sha256, url, vulnerability) і контекстні теги: класифікацію TLP (зазвичай TLP:WHITE або TLP:GREEN для некласифікованих OSINT), тег достовірності джерела, тег рівня достовірності та будь-які теги технік MITRE ATT&CK, похідні з контекстного тексту. Метадані збагачення — оцінки VirusTotal, записи пасивного DNS, дані Shodan — прикріплюються як додаткові атрибути або зв'язки об'єктів.

Для IOC із високою достовірністю з надійних джерел інтеграція MISP запускає негайне SOAR-сповіщення, передаючи індикатор до черги аналітика з позначкою пріоритету. Масові IOC з нижчою достовірністю накопичуються в черзі тріажу для періодичного аналітичного огляду. Ця двотрекова модель доставки запобігає втомі від сповіщень, одночасно забезпечуючи негайну увагу до дійсно критичних за часом індикаторів.

Corvus.Sense забезпечує автоматизоване вилучення IOC у реальному часі з Telegram, paste-сайтів і фідів OSINT — зі збагаченням, інтеграцією MISP та доставкою сповіщень аналітикам із коробки. Якщо ви оцінюєте виробничий конвеєр IOC на основі OSINT для програми CTI в секторі оборони чи держструктурах, Corvus.Sense розроблено саме для цього випадку.

Дізнатися про Corvus.Sense →