Zespoły ds. cybernetycznej analizy zagrożeń zmagają się z narastającym problemem danych. Wolumen surowych danych o zagrożeniach — kanały IOC z ISAC, OSINT pozyskiwany z serwisów paste i kanałów Telegram, eksporty forów dark web, raporty wywiadowcze dostawców — rósł szybciej niż liczba analityków w każdej organizacji poważnie traktującej CTI. Efektem jest zaległość: dane o zagrożeniach, które napływają w czasie pozwalającym na działanie, ale nie zostają sklasyfikowane, wzbogacone ani skorelowane przed zamknięciem okna czasowego. Ręczna klasyfikacja na skalę to nie problem procesowy. To problem strukturalny, którego nie da się rozwiązać przez zatrudnienie kolejnych analityków.

Duże modele językowe oferują rzeczywiste rozwiązanie — nie jako zastępstwo osądu analityka, lecz jako warstwa klasyfikacji i wzbogacania, która konwertuje nieustrukturyzowane dane o zagrożeniach na ustrukturyzowane rekordy z prędkością maszyny. Niniejszy artykuł omawia decyzje architektoniczne mające znaczenie przy integracji LLM z potokiem CTI: którą klasę modelu stosować do jakiego zadania, jak strukturyzować potok od pozyskiwania do wyjścia ze STIX 2.1 i MITRE ATT&CK, jakie dane treningowe produkują wiarygodne klasyfikatory na poziomie techniki, jak oceniać wydajność w kontekście SOC oraz jak projektować kontrole z analitykiem w pętli, które utrzymują zaufanie systemu w warunkach przeciwników.

Dlaczego ręczna klasyfikacja CTI nie skaluje się

Problem skali ma wymiar ilościowy i jakościowy. Po stronie ilościowej: organizacja obronna monitorująca realistyczny zestaw kanałów zagrożeń — dwa lub trzy kanały ISAC, AlienVault OTX, kilka serwerów społeczności MISP oraz wzbogacanie przez pasywny DNS i logi transparentności certyfikatów — otrzymuje dziesiątki tysięcy surowych wskaźników dziennie. Ręczna klasyfikacja każdego IOC według podmiotu zagrożenia, rodziny złośliwego oprogramowania i odpowiedniej techniki ATT&CK mierzy się w godzinach analitycznych dziennie, których większość zespołów CTI nie ma.

Jakościowym problemem jest heterogeniczność źródeł. ISAC dostarcza ustrukturyzowane pakiety STIX z relatywnie czystymi etykietami. Kanały OSINT dostarczają nieustrukturyzowaną prozę: wpisy blogowe, wątki forów, eksporty kanałów Telegram. Dane z dark web przychodzą w formatach wymagających znacznego preprocessingu zanim jakiekolwiek próby klasyfikacji staną się sensowne. Każde źródło wymaga innego podejścia do ekstrakcji, a utrzymanie wiarygodnych ekstraktórów opartych na regułach dla wszystkich z nich — przy jednoczesnym nadążaniu za sposobem, w jaki podmioty zagrożeń celowo urozmaicają język, aby unikać wykrycia — to obciążenie konserwacyjne narastające z czasem.

Wypalenie analityków to konsekwencja downstream. Gdy kolejka klasyfikacji jest permanentnie głęboka, analitycy przestają przeglądać poszczególne rekordy i zaczynają przetwarzać wyłącznie pozycje o najwyższym priorytecie po wstępnym filtrowaniu. Rezultatem są systemowe luki w obrazie zagrożeń — nie dlatego, że dane nie zostały zebrane, lecz że nigdy nie zostały sklasyfikowane i skorelowane. Warstwa klasyfikacji LLM nie eliminuje potrzeby osądu analityka; eliminuje tę część przepływu pracy, w której analitycy wykonują pracę, którą można niezawodnie zautomatyzować.

Architektura LLM dla CTI: modele enkodujące a generatywne

Najważniejszym wyborem architektonicznym w potoku LLM CTI jest to, której klasy modelu używać na każdym etapie. Modele enkodujące (klasa BERT) i modele generatywne (klasa GPT) mają fundamentalnie różne mocne strony, a użycie niewłaściwej klasy do zadania daje albo słabą dokładność, albo niepotrzebny koszt.

Modele enkodujące do klasyfikacji

Modele enkodujące klasy BERT — zwłaszcza warianty adaptowane do domeny, dostosowane do tekstu bezpieczeństwa, takie jak SecBERT lub CySecBERT — są właściwym wyborem dla zadań klasyfikacji ze stałą taksonomią. Dla dokumentu CTI i predefiniowanego zestawu etykiet (identyfikatory technik ATT&CK, nazwy rodzin złośliwego oprogramowania, grupy podmiotów zagrożeń) dostosowany enkoder produkuje wyniki klasyfikacji w całej przestrzeni etykiet w czasie poniżej 500 milisekund na skromnym sprzęcie. Dostrajanie na oznakowanych korpusach CTI liczących od 5 000 do 20 000 przykładów typowo osiąga dokładność gotową do produkcji.

Kluczowym ograniczeniem jest to, że zestaw etykiet musi być stały i znany w czasie trenowania. Modele enkodujące nie uogólniają się na etykiety niewidoczne podczas trenowania. W przypadku klasyfikacji technik MITRE ATT&CK nie jest to praktycznym ograniczeniem: taksonomia technik ATT&CK jest wersjonowana, a aktualizacje mogą wyzwolić ukierunkowane uruchomienie dostrajania. Przy klasyfikacji rodzin złośliwego oprogramowania, gdzie nowe rodziny pojawiają się stale, enkoder powinien być sparowany z mechanizmem wykrywania przypadków spoza rozkładu, który kieruje kandydatów z nieznaną rodziną do analityka zamiast wymuszać klasyfikację do najbliższego dopasowania.

Modele generatywne do wzbogacania

Modele generatywne są właściwym wyborem, gdy wynik jest otwarty lub wymaga wnioskowania w kontekście dokumentu. Ekstrakcja ustrukturyzowanych pól IOC z nieformatowanego raportu o podmiocie zagrożenia, syntezowanie narracyjnego briefu z zestawu ustrukturyzowanych rekordów zdarzeń, wnioskowanie geografii ofiary z implikowanych wskazówek zamiast jawnych nazw krajów — te zadania wymagają możliwości, których klasyfikacja enkodująca nie zapewnia.

Kluczową dyscypliną przy używaniu modeli generatywnych w potoku CTI jest ograniczanie formatu wyjściowego. Model generatywny pozostawiony do swobodnego generowania tekstu będzie wprowadzał synonimy i niespójności, które czynią agregację downstream niewiarygodną. Rozwiązaniem jest monit ze strukturyzowanym wyjściem: model jest instruowany, aby produkować odpowiedź JSON zgodną ze ścisłym schematem, z walidacją schematu stosowaną przy odbiorze. Niepowodzenia parsowania odpowiedzi wyzwalają automatyczne ponowienie z instrukcjami korygującymi. Ta dyscyplina konwertuje probabilistyczny system generatywny w wiarygodne źródło ustrukturyzowanych danych.

Generatywne wzbogacanie to również właściwe miejsce dla scoringu ufności. Model jest instruowany, aby zwracać wynik ufności na poziomie pola między 0 a 1, reprezentujący rzeczywistą niepewność epistemiczną daną zawartością dokumentu źródłowego. Wiadomość, która jawnie podaje organizację ofiary i kraj, produkuje pola geografii i organizacji z wysoką ufnością; wiadomość, która implikuje sektor bez podawania organizacji, produkuje niższą ufność. Wyniki te sterują decyzjami o routingu downstream w potoku.

Projekt potoku: od surowego IOC do mapowania MITRE ATT&CK

Produkcyjny potok klasyfikacji CTI ma pięć odrębnych etapów, każdy z określonymi wejściami, wyjściami i trybami awarii.

Etap 1 — Pozyskiwanie i normalizacja. Surowe dane o zagrożeniach przychodzą w heterogenicznych formatach: pakiety STIX 2.1 z kanałów ISAC, eksporty zdarzeń MISP, JSON z komercyjnych API analizy zagrożeń i nieustrukturyzowany tekst ze źródeł OSINT. Etap pozyskiwania normalizuje wszystkie wejścia do kanonicznego wewnętrznego formatu dokumentu przed jakimkolwiek przetwarzaniem LLM. Dla wejść STIX i MISP jest to głównie ekstrakcja pól. Dla nieustrukturyzowanego tekstu obejmuje to wykrywanie języka, normalizację kodowania i filtrowanie minimalnej długości (dokumenty poniżej około 50 tokenów niosą niewystarczający kontekst dla wiarygodnej klasyfikacji). Metadane źródła — identyfikator kanału, znacznik czasu pozyskiwania, wynik ufności od dostawcy upstream jeśli obecny — są zachowywane jako pola koperty przez cały potok.

Etap 2 — Brama binarnej relewantności. Nie wszystkie pozyskane dokumenty są kandydatami do pełnej klasyfikacji LLM. Lekki klasyfikator binarny (dostosowany model enkodujący o 350M parametrów lub mniejszy) działa jako pierwszy, odfiltrowując dokumenty niezawierające operacyjnej treści o zagrożeniach: podsumowania wiadomości, biuletyny administracyjne, fałszywie pozytywne IOC już znane jako czyste. Ta brama redukuje wolumen wnioskowania LLM o 60–80% w typowych konfiguracjach kanałów, bezpośrednio redukując koszt dzienny. Brama jest kalibrowana dla wysokiej czułości — pominięcie prawdziwego dokumentu o zagrożeniu jest bardziej kosztowne niż przesłanie dokumentu nieoperacyjnego do etapu LLM.

Etap 3 — Klasyfikacja i wzbogacanie LLM. Dokumenty przechodzące przez bramę binarną wchodzą do etapu klasyfikacji. Dostosowany enkoder przypisuje identyfikatory technik ATT&CK i etykiety rodzin złośliwego oprogramowania. Generatywny przebieg wzbogacania ekstrahuje ustrukturyzowane pola: grupa podmiotów zagrożeń, organizacja ofiary, sektor (z stałej taksonomii ośmiu kategorii), geografia (ISO 3166-1 alfa-2), wektor ataku oraz wyniki ufności na poziomie pola. Oba przebiegi mogą działać równolegle, ponieważ operują na tym samym dokumencie wejściowym.

Etap 4 — Mapowanie MITRE ATT&CK i rozwiązywanie encji. Identyfikatory technik z klasyfikatora są mapowane na obiekty ATT&CK z pełnym wzbogacaniem: skojarzenie taktyki, możliwość zastosowania platformy i odniesienia do wskazówek detekcyjnych. Nazwy podmiotów zagrożeń i organizacji ofiar są rozwiązywane względem istniejącego indeksu encji przy użyciu rozmytego dopasowania nazw i ujednoznacznienia kodu kraju. Znane aliasy są kanonizowane. Nowe encje wyzwalają tymczasowe tworzenie rekordów do przeglądu analitycznego zamiast cichego wstawiania.

Etap 5 — Serializacja STIX 2.1 i wyjście. Wzbogacone rekordy są serializowane jako pakiety STIX 2.1 — obiekty Threat Actor, Malware, Attack Pattern, Indicator i Relationship z właściwymi zewnętrznymi odniesieniami do identyfikatorów technik ATT&CK. Pakiety są walidowane względem schematu STIX 2.1 przed przechowywaniem lub eksportem. Dla integracji MISP te same ustrukturyzowane rekordy mapują się na zdarzenia MISP przez galaktykę ATT&CK. Dla integracji SIEM obsługiwane są formaty CEF i ustrukturyzowany JSON do bezpośredniego pozyskiwania alertów.

Dane treningowe do klasyfikacji TTP podmiotów zagrożeń

Jakość modelu klasyfikacji CTI jest determinowana przede wszystkim przez jakość i zasięg danych treningowych. Trzy źródła zapewniają najbardziej wiarygodne oznakowane dane do klasyfikacji technik ATT&CK.

Baza wiedzy MITRE ATT&CK jest kanonicznym punktem wyjścia. Każdy wpis techniki zawiera opisy prozą, przykłady procedur zaczerpnięte z rzeczywistych raportów o podmiotach zagrożeń oraz wskazówki detekcyjne. Przykłady procedur — opisy sposobów użycia techniki przez konkretne grupy podmiotów zagrożeń w potwierdzonych operacjach — są sygnałem treningowym najwyższej jakości, ponieważ uchwytują wzorce języka naturalnego, których analitycy używają przy opisywaniu aktywności TTP. Korpus ATT&CK jest utrzymywany pod kontrolą wersji; każde wydanie dodaje nowe techniki i doprecyzowuje istniejące, więc potoki dostrajania powinny być wyrównane do konkretnych wersji ATT&CK.

Eksporty pulsów AlienVault OTX zapewniają skalowalne oznakowane dane dotyczące podmiotów zagrożeń i rodzin złośliwego oprogramowania. Każdy puls zawiera tytuł, opis i powiązane IOC oznakowane podmiotem zagrożenia lub rodziną złośliwego oprogramowania, do których przypisuje je zgłaszający. Jakość etykiet różni się w zależności od zgłaszającego; filtrowanie do pulsów ze zweryfikowanych organizacji znacząco poprawia sygnał treningowy. Eksporty OTX w formacie STIX umożliwiają spójne pozyskiwanie.

Do oznakowania TTP podmiotów zagrożeń raporty wywiadowcze dostawców (opublikowane na warunkach permisywnych) zawierają wysokiej jakości atrybucje technik podane wprost: "Grupa użyła T1055.012 (Process Hollowing) do wstrzyknięcia w legalne procesy Windows." Stwierdzenia te zapewniają bezpośrednie etykiety na poziomie techniki wraz z prozą kontekstową. Ich ekstrakcja wymaga jednorazowego przebiegu adnotacyjnego w celu wyrównania tekstu raportu do identyfikatorów technik ATT&CK, ale wynikające z tego oznakowane przykłady należą do najbardziej wiarygodnych dostępnych do dostrajania.

Strategia oznakowania rzadkich technik wymaga szczególnej uwagi. ATT&CK zawiera ponad 600 technik i pod-technik, a wiele z nich pojawia się w mniej niż 20 oznakowanych przykładach w jakimkolwiek dostępnym korpusie. Dla tych rzadkich klas augmentacja danych (parafrazowanie opisów przykładów procedur) i kilkuujęciowe monity z modelem generatywnym jako rezerwowym klasyfikatorem to oba wykonalne podejścia. Minimalna praktyczna podstawa dla wiarygodnej klasyfikacji dostrojonej wynosi około 80 oznakowanych przykładów na klasę; klasy poniżej tego progu powinny być kierowane do modelu generatywnego z kilkuujęciowym monitem, a nie do dostrojonego enkodera.

Metryki ewaluacji w kontekście SOC

Standardowe metryki dokładności wprowadzają w błąd przy zastosowaniu do klasyfikacji CTI, ponieważ rozkład etykiet technik zagrożeń jest silnie niezbalansowany. Techniki takie jak T1566 (Phishing) i T1059 (Command and Scripting Interpreter) pojawiają się w dużej części rzeczywistych raportów o incydentach. Rzadkie, lecz wysokowartościowe techniki — T1195 (Supply Chain Compromise), T1600 (Weaken Encryption) — pojawiają się znacznie rzadziej. Model osiągający 92% ogólnej dokładności przez koncentrację wydajności na powszechnych technikach przy jednoczesnych niepowodzeniach na rzadkich wysokowartościowych jest operacyjnie bezużyteczny.

Metryki mające znaczenie dla produkcyjnej klasyfikacji CTI to precyzja i czułość na poziomie techniki, raportowane osobno dla całej taksonomii technik. Makro-uśredniony F1 — nieważona średnia F1 dla wszystkich klas technik — jest podsumowującą metryką, która najlepiej reprezentuje ogólną wydajność na niezbalansowanym rozkładzie etykiet. Dla potoku CTI obsługującego SOC czułość na poziomie techniki dla priorytetowych klas monitorowania (konkretnych technik istotnych dla podmiotów zagrożeń atakujących dany sektor i geografię) jest pojedynczą najważniejszą operacyjnie liczbą. Pominięcie 20% zdarzeń T1055 w organizacji obronnej monitorującej zaawansowane trwałe zagrożenia nie jest akceptowalnym kompromisem precyzja-czułość niezależnie od wyglądu wyniku makro F1.

Koszt fałszywych pozytywów w kontekście SOC jest asymetryczny. Fałszywy pozytyw — dokument sklasyfikowany jako zawierający konkretną technikę ATT&CK, gdy jej nie zawiera — kosztuje czas analityka na przegląd fałszywego rekordu. Koszt jest ograniczony i zarządzalny. Fałszywy negatyw — prawdziwa technika ATT&CK nieopublikowana przez klasyfikator — może oznaczać, że TTP podmiotu zagrożenia pozostaje niewykryty do momentu wystąpienia incydentu. Kalibrowanie progów ufności w kierunku akceptacji wyższych wskaźników fałszywych pozytywów w zamian za niższe wskaźniki fałszywych negatywów jest właściwym punktem operacyjnym dla scenariuszy monitorowania wysokiego ryzyka.

Integracja operacyjna: projektowanie czasu rzeczywistego, wsadowe i z analitykiem w pętli

Potoki klasyfikacji CTI działają w dwóch trybach z różnymi wymaganiami dotyczącymi opóźnienia i przepustowości. Klasyfikacja w czasie rzeczywistym jest wymagana, gdy źródłem jest strumień na żywo — monitorowanie kanałów Telegram, aktywne subskrypcje kanałów zagrożeń, aktywna telemetria sieciowa. Potok musi klasyfikować każdy dokument przy jego nadejściu, z opóźnieniem od końca do końca mierzonym w sekundach, a nie minutach. To ogranicza wybór modelu: etap klasyfikacji enkodera musi działać poniżej 500 milisekund; etap generatywnego wzbogacania powinien uśredniać poniżej 15 sekund na dokument. Przetwarzanie asynchroniczne z kolejką komunikatów między etapami zapobiega wywieraniu przez etap generatywny wstecznego ciśnienia blokującego pozyskiwanie.

Klasyfikacja wsadowa jest odpowiednia do analizy korpusu historycznego — reklasyfikacji istniejącej bazy danych IOC względem nowej wersji ATT&CK, wzbogacania instancji MISP z dziedzictwem o ustrukturyzowane pola lub przetwarzania masowego eksportu z komercyjnej platformy analizy zagrożeń. Tryb wsadowy może używać większych, dokładniejszych modeli, ponieważ ograniczenia opóźnienia są luźniejsze, i może działać w nocy bez wpływu na przepustowość potoku czasu rzeczywistego.

Projektowanie z analitykiem w pętli nie jest opcjonalne dla produkcyjnych systemów klasyfikacji CTI. Klasyfikatory LLM popełniają systematyczne błędy na przypadkach granicznych, nowych wzorcach języka podmiotów zagrożeń i celowo zaciemnionych treściach. Bez mechanizmu korygującego błędy te akumulują się w grafie downstream i degradują jakość produktów wywiadowczych z czasem. Kolejka analityczna — rekordy kierowane do przeglądu ludzkiego na podstawie progów ufności — musi zawierać wbudowany interfejs korygujący, który przechwytuje edycje na poziomie pola jako oznakowane dane treningowe. Korekty powinny zasilać pętlę zwrotną dostrajania działającą w regularnym harmonogramie, stale poprawiając kalibrację modelu na konkretnym monitorowanym krajobrazie zagrożeń.

Konfiguracja progu ufności jest podstawową kontrolą operacyjną. Dla sektorów wysokiego ryzyka (infrastruktura krytyczna, obrona) niższe progi (0,60–0,70) maksymalizują czułość kosztem wyższego wolumenu kolejki analitycznej. Przy szerokim monitorowaniu, gdzie głównym celem jest analiza trendów, a nie alarmowanie o poszczególnych zdarzeniach, progi 0,78–0,85 redukują wolumen kolejki do zarządzalnego poziomu. Progi powinny być kalibrowane oddzielnie dla każdego pola — profile dokładności ufności geograficznej i technicznej różnią się w zestawie ewaluacyjnym modelu — i przeglądane kwartalnie względem wskaźników korekt analityków w celu wykrycia dryfu rozkładu.

Głębsze spojrzenie na sposób, w jaki platformy CTI integrują ustrukturyzowane dane o zagrożeniach w środowiskach wieloźródłowych, znajdziesz w naszym przewodniku po architekturze platformy CTI klasy obronnej.

Integrowanie klasyfikacji LLM z potokami monitorowania OSINT

Klasyfikacja LLM nie działa w izolacji. W dojrzałym programie CTI jest jednym etapem w szerszym potoku, który zaczyna się od monitorowania źródeł i kończy na gotowych dla analityków produktach wywiadowczych i alertach zintegrowanych z SIEM. Punkty integracji wymagające szczególnej uwagi inżynierskiej to handoffy między etapami.

Monitorowanie źródeł OSINT — pasywny DNS, skanowanie logów transparentności certyfikatów, indeksowanie forów dark web i monitorowanie kanałów otwartych platform komunikacyjnych — generuje surowy strumień dokumentów zasilający potok klasyfikacji. Każdy typ źródła wprowadza różne problemy z jakością danych. Dane pasywnego DNS są ustrukturyzowane, lecz wysokowolumenowe z wieloma benignymi rekordami. Zawartość forów dark web jest nieustrukturyzowana, wielojęzyczna i wymaga ujednoznacznienia encji w celu oddzielenia prawdziwych podmiotów zagrożeń od imitatorów. Kanały otwartych platform komunikacyjnych mieszają wysokosygnałowe ogłoszenia ataków z szumem, propagandą i dezinformacją w proporcji znacząco różniącej się zależnie od kanału.

Etap bramy binarnej potoku klasyfikacji jest podstawowym mechanizmem radzenia sobie z szumem źródeł. Model bramy dostosowany do oznakowanych przykładów z każdego typu źródła będzie znacząco przewyższać ogólny klasyfikator relewantności. Inwestowanie w modele bramek per-źródło to inwestycja dostrajająca o najwyższym ROI dostępna w potoku klasyfikacji CTI, ponieważ bezpośrednio redukuje koszt wnioskowania LLM dominujący w dziennych kosztach operacyjnych.

Integracja SIEM na wyjściowym końcu potoku wymaga starannego mapowania schematów. Większość korporacyjnych SIEM pozyskuje CEF (Common Event Format) lub ustrukturyzowany JSON przez syslog lub webhook REST. Pakiety STIX 2.1 nie są natywnie pozyskiwane przez większość SIEM bez warstwy translacyjnej. Praktycznym podejściem jest utrzymanie dwóch strumieni wyjściowych z potoku klasyfikacji: strumienia pakietów STIX do pozyskiwania przez platformę CTI i udostępniania między organizacjami oraz natywnego dla SIEM strumienia alertów mapującego najbardziej operacyjnie istotne pola (identyfikator techniki, podmiot, poziom ryzyka, dotknięta organizacja) na schemat SIEM. Reguły korelacji w SIEM powinny odwoływać się do identyfikatorów technik ATT&CK jako klucza łączenia między alertami pochodnymi CTI a zdarzeniami telemetrii punktów końcowych i sieci.

Dojrzałość operacyjna monitorowania zagrożeń opartego na OSINT w organizacjach obronnych znacząco wzrosła w ciągu ostatnich trzech lat, napędzana w dużej mierze praktyczną dostępnością przetwarzania tekstu opartego na LLM. To, co dwa lata temu wymagało zespołu analityków i znaczącego obciążenia konserwacją reguł, można teraz rozwiązać z dobrze zaprojektowanym potokiem klasyfikacji działającym na skromnej infrastrukturze.

Corvus.Sense stosuje klasyfikację CTI opartą na LLM do monitorowania kanałów Telegram w czasie rzeczywistym i profilowania podmiotów zagrożeń — konwertując nieustrukturyzowaną inteligencję open-source na ustrukturyzowane rekordy podmiotów zagrożeń, osie czasu technik zmapowanych do ATT&CK i produkty wywiadowcze eksportowalne do STIX. Jeśli Twój zespół zarządza CTI na skalę i potrzebuje gotowej do produkcji warstwy klasyfikacji, Corvus.Sense jest stworzony do tego problemu.

Poznaj Corvus.Sense →