Wywiad ze źródeł otwartych (OSINT) to wywiad pozyskiwany z publicznie lub komercyjnie dostępnych źródeł. Dla monitorowania cyberzagrożeń w organizacjach obronnych OSINT stanowi krytyczną zdolność wczesnego ostrzegania: przeciwnicy planują, koordynują i chwalą się swoimi operacjami w publicznych lub półpublicznych kanałach na długo przed wykryciem tych operacji przez tradycyjny monitoring bezpieczeństwa sieci. Budowanie potoku monitorowania zagrożeń opartego na OSINT daje zespołom MON widoczność intencji przeciwnika, zanim zmaterializują się jako włamania do sieci.
Artykuł omawia, co jest OSINT w kontekście cyberbezpieczeństwa, jak zbudować architekturę pozyskiwania i przetwarzania, oraz jak przetwarzanie języka naturalnego i duże modele językowe transformują użyteczność wywiadu OSINT dla zespołów obronnych.
Co jest OSINT w cyberbezpieczeństwie
Definicja "otwartych źródeł" w cyberbezpiecznym OSINT jest szersza niż brzmi. Obejmuje wszelkie publicznie dostępne informacje — nawet jeśli dostęp wymaga wysiłku technicznego, płatnej subskrypcji lub działania w prawnie złożonych przestrzeniach. Dla obronnego monitorowania zagrożeń odpowiednie źródła OSINT obejmują:
Kanały i grupy Telegram. Od 2022 roku Telegram stał się główną platformą koordynacji i ogłoszeń dla propaństwowych cyberaktorów zagrożeń, grup hacktivistów i jednostek operacji informacyjnych. Aktorzy zagrożeń używają publicznych i półpublicznych kanałów Telegram do ogłaszania celów ataków z wyprzedzeniem, przypisywania sobie odpowiedzialności za włamania, publikowania próbek skradzionych danych, rekrutowania operatorów i koordynowania kampanii DDoS. Dla organizacji obronnych systematyczne monitorowanie odpowiednich kanałów zapewnia wywiad ostrzegawczy niedostępny w żadnym komercyjnym strumieniu zagrożeń.
Fora i rynki dark web. Skradzione dane uwierzytelniające, wykazy dostępu sieciowego (brokerzy dostępu początkowego sprzedający dostęp do konkretnych organizacji), kod exploitów i ujawnienia podatności pojawiają się na forach dark web przed dotarciem do powszechnej wiedzy. Dla wykonawców obronnych i agencji rządowych monitorowanie tych forów pod kątem wzmianek własnych nazw organizacji może zapewnić dni lub tygodnie wcześniejszego ostrzeżenia przed atakiem.
GitHub, GitLab i inne repozytoria kodu. Aktorzy zagrożeń często publikują narzędzia rozpoznawcze, złośliwe oprogramowanie i kody proof-of-concept exploitów w publicznych repozytoriach. Monitorowanie nowych repozytoriów zawierających słowa kluczowe powiązane z konkretnymi systemami obronnymi lub nazwami wykonawców może ujawnić aktywne przygotowanie ataku.
Architektura pozyskiwania: rozproszone scrapery i pozyskiwanie przez API
System pozyskiwania OSINT do obronnego monitorowania zagrożeń to architektonicznie rozproszony potok danych. Warstwa pozyskiwania musi jednocześnie monitorować dziesiątki do setek źródeł, radzić sobie z ograniczaniem szybkości i kontrolami dostępu, utrzymywać ciągłość pozyskiwania i dostarczać znormalizowane dane do dalszego przetwarzania.
Pozyskiwanie Telegram używa oficjalnego API Telegram MTProto (przez biblioteki klienckie Python, takie jak Telethon lub Pyrogram) do subskrybowania monitorowanych kanałów i grup oraz odbierania nowych wiadomości w czasie quasi-rzeczywistym. Agent pozyskiwania utrzymuje listę kanałów, śledzi identyfikatory wiadomości, aby uniknąć ponownego przetwarzania, i przekazuje nowe wiadomości z metadanymi do potoku przetwarzania.
Pozyskiwanie z forów dark web wymaga scrapingu HTTP opartego na Tor. Architektura zazwyczaj używa puli węzłów wyjścia Tor, z scraperami rotującymi przez nie w celu rozłożenia obciążenia żądaniami i unikania banów IP źródłowych. Zebrany treść jest archiwizowana z pełnymi metadanymi proweniencji i deduplikacją względem wcześniej zebranej treści.
Wzbogacanie NLP: ekstrakcja encji i tagowanie MITRE ATT&CK
Surowy zebrany tekst ze źródeł OSINT ma duży wolumen i niski sygnał. Potok wzbogacania przekształca go w ustrukturyzowany wywiad przez przetwarzanie języka naturalnego.
Rozpoznawanie nazwanych encji (NER) identyfikuje i klasyfikuje encje w surowym tekście: nazwy i aliasy aktorów zagrożeń, nazwy rodzin złośliwego oprogramowania, identyfikatory podatności (numery CVE), adresy IP i domeny (wskaźniki kompromitacji), nazwy docelowych organizacji i odniesienia geograficzne. Niestandardowe modele NER wytrenowane na korpusach cyberbezpieczeństwa znacznie przewyższają ogólne modele NLP dla tego słownika encji specyficznego dla domeny.
Tagowanie technik MITRE ATT&CK mapuje obserwowane TTP (Taktyki, Techniki i Procedury) opisane w zebranej treści na taksonomię frameworku ATT&CK. Post opisujący, jak aktor zagrożeń uzyskał dostęp przez załączniki spear-phishingowe, utrwalił się przez zaplanowane zadanie i eksfiltrował dane przez szyfrowane tunelowanie DNS, może być otagowany odpowiednio T1566.001, T1053.005 i T1048.001.
Deduplikacja i redukcja szumu
Pozyskiwanie OSINT na dużą skalę generuje ogromne wolumeny zduplikowanej i prawie zduplikowanej treści. To samo twierdzenie o naruszeniu może zostać opublikowane w 15 różnych kanałach Telegram. Bez agresywnej deduplikacji i redukcji szumu potok wywiadowczy grzebie analityków w redundantnych sygnałach.
Wykrywanie prawie-duplikatów używa algorytmów MinHash LSH (Locality-Sensitive Hashing) lub SimHash do identyfikacji dokumentów, które są semantycznie podobne, nawet jeśli nie są identyczne bajtowo. Warstwa deduplikacji przypisuje kanoniczny identyfikator dokumentu każdej unikalnej jednostce informacji, a kolejne warianty są powiązane z kanonicznym, a nie tworzą nowe rekordy.
Ocenianie trafności klasyfikuje zebrane dokumenty na skali trafności dla organizacji monitorującej. Model wytrenowany na historycznych przykładach treści o wysokiej trafności (docelowe informacje o zagrożeniu) w porównaniu z treścią o niskiej trafności (ogólna gadanina cyberprzestępcza) umożliwia automatyczną selekcję: dokumenty o wysokiej trafności są eskalowane do analityków.
Rola LLM: podsumowania, profilowanie aktorów i identyfikacja trendów
Duże modele językowe zrewolucjonizowały to, co jest analitycznie możliwe z danymi OSINT. Trzy przypadki użycia są teraz dojrzałe operacyjnie: zautomatyzowane podsumowania dla kadry zarządzającej — potok przetwarzający 50 000 dokumentów OSINT dziennie może generować zwięzły dzienny briefing; profilowanie aktorów — LLM mogą syntetyzować zebrane dowody o konkretnym aktorze zagrożeń w ustrukturyzowany profil; identyfikacja trendów — LLM mogą identyfikować pojawiające się wzorce w obszernym korpusie zebranych dokumentów, takie jak nowa klasa podatności zyskująca uwagę na forach exploitów przed formalnym przypisaniem CVE.
Kluczowy wniosek: Najbardziej wartościowy OSINT dla organizacji obronnych jest specyficzny dla organizacji: wzmianki własnych domen, zakresów IP, nazwisk pracowników, nazw systemów i szczegółów kontraktów. Ogólny wywiad zagrożeń mówi o krajobrazie zagrożeń; ukierunkowany OSINT mówi, że pańska organizacja jest aktywnie przygotowywana do ataku. Architektura pozyskiwania musi być dostrojona do wydobywania tych ukierunkowanych sygnałów na tle szumu ogólnej aktywności cyberprzestępczej.