Nowoczesne zbieranie danych SIGINT produkuje znacznie więcej sygnałów, niż analitycy mogą przejrzeć. Szerokopasmowy odbiornik obejmujący 100 MHz widma w gęstym środowisku elektromagnetycznym może wykrywać tysiące zdarzeń sygnałowych na godzinę. Zanim z tych sygnałów można będzie wydobyć jakikolwiek wywiad, muszą zostać sklasyfikowane — posortowane na kategorie określające sposób przetwarzania i priorytetyzacji każdego z nich. Ręczna klasyfikacja w takiej skali jest niemożliwa. Automatyczna klasyfikacja sygnałów, coraz częściej oparta na uczeniu maszynowym (ML), sprawia, że zbieranie danych SIGINT na dużą skalę staje się operacyjnie wykonalne.
Zadanie klasyfikacji: typ modulacji, kształt fali i protokół
Automatyczna klasyfikacja modulacji (AMC) jest najszerzej badanym problemem klasyfikacji sygnałów w literaturze inżynierii komunikacyjnej. Dla danego segmentu odebranych próbek IQ AMC określa schemat modulacji: czy sygnał jest modulowany amplitudowo (AM, DSB, USB), częstotliwościowo (FM, FSK) lub fazowo/amplitudowo (BPSK, QPSK, QAM-16, QAM-64 itp.). Ta klasyfikacja jest fundamentalna — sygnał BPSK i sygnał QAM-64 wymagają zupełnie różnych łańcuchów demodulacji.
Poza typem modulacji identyfikacja kształtu fali stara się rozpoznać konkretne standardy komunikacyjne lub typy radiów na podstawie charakterystyki sygnału. Klasyfikacja trafności wywiadowczej jest zadaniem najwyższego poziomu: dla sklasyfikowanego sygnału przypisywany jest wskaźnik priorytetowy określający, jak szybko będzie przeglądany i z jakimi zasobami.
Inżynieria cech: spektrogramy, próbki IQ i diagramy oka
Surowe próbki IQ. Najbardziej bezpośrednia reprezentacja to segment surowych próbek IQ — dane szeregów czasowych o wartościach zespolonych bezpośrednio z odbiornika. Konwolucyjne sieci neuronowe (CNN) mogą uczyć się cech istotnych dla klasyfikacji bezpośrednio z surowych danych IQ bez ręcznej inżynierii cech.
Spektrogramy. Spektrogram przedstawia sygnał jako obraz 2D z czasem na jednej osi i częstotliwością na drugiej, gdzie intensywność pikseli koduje moc sygnału. Różne typy modulacji wytwarzają wizualnie charakterystyczne wzorce spektrogramów: sygnał FSK pokazuje dyskretne skoki częstotliwości, sygnał z przeskokami częstotliwości ma charakterystyczny rozproszony wygląd.
Diagramy oka i konstelacji. Te reprezentacje wymagają demodulacji jako kroku wstępnego przetwarzania. Są najbardziej użyteczne jako cechy drugiego etapu do klasyfikacji wewnątrz klasy — rozróżnienia QAM-16 od QAM-64 po zidentyfikowaniu klasy QAM.
Podejścia nadzorowane: CNN do klasyfikacji modulacji
Nadzorowane uczenie maszynowe do klasyfikacji sygnałów wymaga oznaczonego zbioru treningowego — kolekcji przykładów sygnałów, gdzie znana jest prawidłowa etykieta klasy. Konwolucyjne sieci neuronowe stały się dominującą architekturą dla AMC. CNN zastosowane do obrazu spektrogramu uczy się wykrywać cechy wizualne (wzorce spektralne, struktury czasowe) diagnostyczne dla konkretnych typów modulacji.
Dane treningowe dla obronnych modeli AMC stanowią znaczące wyzwanie. Standardowe podejście wykorzystuje symulację sygnałów: symulacja komunikacyjna generuje czyste sygnały z docelowymi parametrami modulacji, a symulacja kanału dodaje realistyczne efekty kanałowe przy różnych wartościach SNR. Modele trenowane na symulowanych danych są następnie oceniane na rzeczywistych przechwyconych sygnałach.
Podejścia nienadzorowane: grupowanie nieznanych sygnałów
Klasyfikacja nadzorowana dobrze radzi sobie ze znanymi typami sygnałów. Jednak podstawowym wyzwaniem SIGINT są sygnały spoza zbioru treningowego — nowe kształty fal przeciwnika, zmodyfikowane protokoły komunikacyjne, systemy improwizowane. Nienadzorowane podejścia grupowania (klasteryzacji) rozwiązują ten problem poprzez grupowanie sygnałów na podstawie podobieństwa cech bez odwoływania się do predefiniowanych etykiet klas.
Spostrzeżenie operacyjne: Najbardziej wartościowym wynikiem nienadzorowanej klasteryzacji w operacyjnym kontekście SIGINT są często nie same przypisania klastrów, lecz centroidy klastrów — reprezentatywne wektory cech charakteryzujące każdą zidentyfikowaną grupę. Centroidy te służą jako ziarno dla nowej oznaczonej klasy, gdy analitycy potwierdzą naturę nieznanego sygnału, umożliwiając szybką aktualizację modeli nadzorowanych do obsługi nowego typu.
Podejścia półnadzorowane łączą obie paradygmaty: model jest trenowany ze stratą nadzorowaną na oznaczonych przykładach i stratą nienadzorowaną (klasteryzacja lub rekonstrukcja) na nieoznaczonych przykładach. Jest to dobrze dopasowane do domeny SIGINT, gdzie oznaczone dane są rzadkie i drogie w pozyskaniu, ale nieoznaczone operacyjne przechwycenia są w obfitości.
Praktyczne wdrożenie klasyfikacji sygnałów ML w operacyjnych systemach SIGINT wymaga uwagi na cykle aktualizacji modeli, ograniczenia sprzętowe w węźle przetwarzającym oraz interfejs człowiek-maszyna dla interakcji analityka z wynikami klasyfikatora. Integracja ocen pewności klasyfikacji z potokiem priorytetyzacji alertów jest kluczowym wyzwaniem projektowym integracji.