Colectarea SIGINT modernă produce mult mai multe semnale decât pot analiza analiștii umani. Un receptor cu bandă largă care acoperă 100 MHz de spectru într-un mediu electromagnetic dens poate detecta mii de evenimente de semnal individuale pe oră. Înainte ca orice informație să poată fi extrasă din aceste semnale, ele trebuie clasificate — sortate în categorii care determină cum va fi fiecare procesat și prioritizat. Clasificarea manuală la această scară este imposibilă. Clasificarea automatizată a semnalelor, din ce în ce mai alimentată de învățare automată, este cea care face colectarea SIGINT la scară largă operațional tractabilă.

Clasificarea semnalelor în contextul SIGINT cuprinde mai multe sarcini distincte, dar înrudite: determinarea tipului de modulație a unui semnal (AM, FM, PSK, QAM, etc.), identificarea formei de undă sau a protocolului de comunicare (radio tactic militar, LTE, Bluetooth, un tip specific de radio al adversarului) și atribuirea relevanței informațiilor (militar de interes, comercial, necunoscut). Abordările ML s-au dovedit eficiente la toate trei niveluri, deși cerințele tehnice și algoritmii adecvați diferă semnificativ între ele.

Sarcina de Clasificare: Tipul de Modulație, Forma de Undă și Protocolul

Clasificarea Automată a Modulației (AMC) este problema de clasificare a semnalelor cel mai studiată în literatura ingineriei comunicațiilor și are cea mai lungă istorie de implementare practică. Dat un segment de eșantioane IQ recepționate, AMC determină schema de modulație utilizată: dacă semnalul este modulat în amplitudine (AM, DSB, USB), modulat în frecvență (FM, FSK) sau modulat în fază/amplitudine (BPSK, QPSK, QAM-16, QAM-64, și așa mai departe). Această clasificare este fundamentală — un semnal BPSK și un semnal QAM-64 necesită lanțuri de demodulaţie complet diferite, iar clasificarea greșită înseamnă că semnalul nu poate fi decodat.

Dincolo de tipul de modulație, identificarea formei de undă încearcă să recunoască standarde de comunicare specifice sau tipuri de radio din caracteristicile lor de semnal. Un semnal TETRA are caracteristici spectrale și temporale diferite față de o formă de undă militară Link 16, chiar dacă ambele sunt digitale. Un radio tactic specific al adversarului poate avea o modelare distinctivă a pulsului, intervale de gardă sau secvențe de sincronizare care îl disting de alte semnale din aceeași clasă de modulație. Identificarea protocolului — determinarea protocolului de comunicare în uz — necesită fie demodulaţia și inspecția fluxului de biți, fie recunoașterea modelelor specifice protocolului în structura semnalului stratului fizic.

Clasificarea relevanței informațiilor este sarcina de cel mai înalt nivel: dat un semnal clasificat, atribuindu-i un scor de prioritate care determină cât de repede va fi revizuit și cu ce resurse. Aceasta necesită combinarea rezultatului clasificării tehnice cu informații contextuale — banda de frecvență, zona operațională, ora din zi și istoricul semnalelor observate de la același emițător — pentru a produce un scor care reflectă probabilitatea că acest semnal conține informații acționabile.

Ingineria Caracteristicilor: Spectrograme, Eșantioane IQ și Diagrame Ochi

Modelele de învățare automată necesită reprezentări numerice ale caracteristicilor semnalelor pe care le clasifică. Alegerea reprezentării caracteristicilor are un impact substanțial asupra performanței modelului și tipul de arhitectură ML care este adecvată.

Eșantioane IQ brute. Cea mai directă reprezentare este un segment de eșantioane IQ brute — date de serii de timp cu valori complexe direct de la receptor. Rețelele neuronale convoluționale pot învăța direct din datele IQ brute caracteristici relevante pentru clasificare, fără ingineria manuală a caracteristicilor. Setul de date DeepSig RadioML, care a devenit un punct de referință în comunitatea de cercetare, demonstrează că CNN-urile antrenate pe date IQ brute depășesc mulți algoritmi AMC clasici bazați pe caracteristici create manual. Cu toate acestea, eșantioanele IQ brute sunt sensibile la efectele canalului — offset al frecvenței purtătoare, zgomot de canal și cale multiplă — care trebuie gestionate în model sau pipeline-ul de preprocesare.

Spectrograme. O spectrgramă reprezintă un semnal ca o imagine 2D cu timpul pe o axă și frecvența pe cealaltă, cu intensitatea pixelului codificând puterea semnalului. Transformata Fourier de scurtă durată (STFT) este metoda standard pentru calcularea spectrogramelor. Spectrogramele sunt intuitive — un analist experimentat poate adesea identifica un tip de semnal prin inspecție vizuală a afișajului waterfall — și sunt bine adaptate clasificatorilor de rețele neuronale convoluționale optimizate pentru clasificarea imaginilor 2D. Diferitele tipuri de modulație produc modele de spectrgramă vizual distincte: un semnal FSK arată pași de frecvență discreti, un semnal cu salt de frecvență arată aspectul caracteristic dispersat al ocupanței de salt, un semnal QAM apare ca o bandă completă densă.

Diagrame ochi și diagrame de constelație. O diagramă ochi este construită prin suprapunerea perioadelor de simbol succesive ale unui semnal demodulaţionat. Pentru un semnal curat, urmele suprapuse formează un model de „ochi" a cărui lățime și înălțime reflectă calitatea semnalului. Diagramele de constelație afișează valorile complexe ale simbolurilor unui semnal demodulaţionat ca puncte în planul I/Q — un semnal QPSK produce patru clustere distincte, un semnal QAM-16 produce o grilă 4×4 de 16 clustere. Aceste reprezentări necesită demodulaţia ca etapă de preprocesare, care introduce o dependență de a avea o estimare inițială corectă a modulației. Sunt cele mai utile ca caracteristici de a doua etapă pentru clasificarea intra-clasă — distingerea QAM-16 de QAM-64 după ce clasa QAM a fost identificată.

Abordări Supervizate: CNN pentru Clasificarea Modulației

Învățarea automată supervizată pentru clasificarea semnalelor necesită un set de date de antrenare etichetat — o colecție de exemple de semnale unde eticheta de clasă corectă este cunoscută. Modelul învață să mapeze de la reprezentarea semnalului la etichetele de clasă prin minimizarea unei funcții de pierdere pe datele de antrenare.

Rețelele neuronale convoluționale (CNN) au devenit arhitectura dominantă pentru AMC. Intuiția este directă: un CNN aplicat unei imagini spectrgramă învață să detecteze caracteristici vizuale (modele spectrale, structuri temporale) care sunt diagnostice pentru tipuri specifice de modulație, în același mod în care un CNN pentru clasificarea imaginilor învață să detecteze muchii, texturi și forme. Aplicat datelor IQ brute, un CNN 1D învață modele temporale în seria de timp cu valori complexe.

O arhitectură CNN tipică AMC constă din mai multe straturi convoluționale 1D sau 2D (în funcție de reprezentarea intrării), straturi de max-pooling pentru sub-eșantionarea spațială/temporală, straturi de normalizare în loturi pentru a îmbunătăți stabilitatea antrenării și straturi complet conectate care mapează la vectorul de probabilitate al clasei. Arhitecturile inspirate din ResNet cu conexiuni reziduale au arătat performanțe îmbunătățite față de stivele CNN simple pentru sarcinile AMC.

Datele de antrenare pentru modelele AMC de apărare reprezintă o provocare semnificativă. Abordarea standard utilizează simularea semnalelor: o simulare de comunicații generează semnale curate cu parametrii de modulație țintă, iar o simulare de canal adaugă efecte realiste de canal (AWGN, estompare Rayleigh, offset de frecvență, eroare de ceas) la niveluri variabile SNR. Modelele antrenate pe date simulate sunt apoi evaluate pe semnale capturate din lumea reală, realismul simulării fiind determinantul principal al decalajului de performanță sim-to-real. Simularea hardware-in-the-loop de înaltă fidelitate — unde semnalele generate software sunt transmise prin hardware RF real și recepționate în condiții controlate — îmbunătățește semnificativ calitatea datelor de antrenare.

Criteriile de referință a performanței pe setul de date RadioML 2018, cel mai utilizat criteriu de referință public, arată că modelele CNN bine ajustate ating o precizie de clasificare de peste 90% pe 24 de clase de modulație la valori SNR peste 10 dB. Performanța se degradează semnificativ la SNR scăzut (sub 0 dB), care este regimul operațional pentru multe scenarii SIGINT care implică emițători la distanță sau cu putere scăzută. Acest decalaj de performanță la SNR scăzut între criteriile de referință de laborator și realitatea operațională este un domeniu de cercetare activ.

Abordări Nesupervizate: Clustering Semnale Necunoscute

Clasificarea supervizată gestionează bine tipurile de semnale cunoscute. Dar o provocare SIGINT de bază implică semnale care nu se află în setul de antrenare — noi forme de undă ale adversarului, protocoale de comunicare modificate, sisteme improvizate. Modelele supervizate care întâlnesc un tip de semnal necunoscut îl vor clasifica greșit ca clasa cea mai apropiată, potențial cu încredere ridicată. Modelul nu poate ști ce nu știe.

Abordările de clustering nesupervizat abordează această problemă grupând semnalele pe baza similarității caracteristicilor fără a face referire la etichete de clasă predefinite. Un algoritm de clustering aplicat unei colecții de semnale interceptate va identifica grupuri de semnale cu caracteristici similare, chiar dacă acele caracteristici nu se potrivesc niciunui tip de semnal cunoscut. Noile clustere care nu pot fi potrivite cu tipuri de semnale cunoscute sunt marcate ca necunoscute pentru revizuire de analist.

Perspectivă operațională: Ieșirea cea mai valoroasă din clustering nesupervizat într-un context SIGINT operațional nu sunt adesea atribuirile de cluster în sine, ci centroizii clusterelor — vectorii caracteristici reprezentativi care caracterizează fiecare grup identificat. Acești centroizi servesc ca sămânță pentru o nouă clasă etichetată când analiștii confirmă natura unui semnal necunoscut, permițând modelelor supervizate să fie rapid actualizate pentru a gestiona noul tip.

Algoritmii comuni de clustering aplicați SIGINT includ k-means (eficient computațional, necesită specificarea k în avans), DBSCAN (bazat pe densitate, gestionează forme de cluster neregulate și identifică automat punctele de zgomot) și Modele de Amestec Gaussian (probabilistic, furnizează scoruri de încredere per atribuire). Pentru spațiile de caracteristici de înaltă dimensionalitate, reducerea dimensionalității — utilizând t-SNE sau UMAP pentru a proiecta caracteristicile în 2D pentru vizualizare, sau autoencoder pentru a învăța reprezentări compacte — este de obicei aplicată înainte de clustering.

Abordările semi-supervizate combină ambele paradigme: un model este antrenat cu o pierdere supervizată pe exemple etichetate și o pierdere nesupervizată (clustering sau reconstrucție) pe exemple neetichetate. Aceasta este bine adaptată domeniului SIGINT, unde datele etichetate sunt rare și scumpe de produs, dar interceptările operaționale neetichetate sunt abundente. Datele neetichetate ajută modelul să învețe o reprezentare mai bună a caracteristicilor chiar și atunci când etichetele nu sunt disponibile.

Implementarea practică a clasificării semnalelor ML în sistemele SIGINT operaționale necesită atenție la ciclurile de actualizare a modelelor, constrângerile hardware pe nodul de procesare (care poate necesita să ruleze inferența pe o platformă încorporată rugozificată cu resurse GPU limitate) și interfața om-mașină pentru interacțiunea analistului cu ieșirile clasificatorului. Un clasificator care produce ieșiri corecte, dar le prezintă într-un mod care perturbă fluxul de lucru al analistului, nu va fi utilizat. Integrarea scorurilor de încredere ale clasificării în pipeline-ul de prioritizare a alertelor — scoțând la suprafață clasificările cu încredere ridicată pentru procesare automatizată în timp ce semnalează semnalele cu încredere scăzută sau de clasă necunoscută pentru revizuire de analist — este principala provocare de proiectare a integrării.