Moderne SIGINT-verzameling produceert veel meer signalen dan menselijke analisten kunnen beoordelen. Een breedbandontvanger die 100 MHz spectrum dekt in een dicht elektromagnetisch milieu kan duizenden afzonderlijke signaalgebeurtenissen per uur detecteren. Voordat er inlichtingen uit deze signalen kunnen worden geëxtraheerd, moeten ze worden geclassificeerd — gesorteerd in categorieën die bepalen hoe elk zal worden verwerkt en geprioriteerd. Handmatige classificatie op deze schaal is onmogelijk. Geautomatiseerde signaalclassificatie, toenemend aangedreven door machine learning, maakt grootschalige SIGINT-verzameling operationeel hanteerbaar.
Signaalclassificatie in SIGINT-context omvat meerdere afzonderlijke maar gerelateerde taken: het bepalen van het modulatietype van een signaal (AM, FM, PSK, QAM, enz.), het identificeren van de golfvorm of het communicatieprotocol (militaire tactische radio, LTE, Bluetooth, een specifiek vijandelijk radiotype) en het toewijzen van inlichtingrelevantie (militair van belang, commercieel, onbekend). ML-benaderingen zijn effectief gebleken op alle drie niveaus, hoewel de technische vereisten en geschikte algoritmen aanzienlijk verschillen.
De Classificatietaak: Modulatietype, Golfvorm en Protocol
Automatische Modulatieclassificatie (AMC) is het meest bestudeerde signaalclassificatieprobleem in de communicatie-engineering-literatuur en heeft de langste geschiedenis van praktische inzet. Gegeven een segment ontvangen IQ-samples bepaalt AMC het gebruikte modulatieschema: of het signaal amplitude-gemoduleerd (AM, DSB, USB), frequentie-gemoduleerd (FM, FSK) of fase/amplitudegemodeleerd (BPSK, QPSK, QAM-16, QAM-64, enz.) is. Deze classificatie is fundamenteel — een BPSK-signaal en een QAM-64-signaal vereisen volledig verschillende demodulatieketens, en verkeerde classificatie betekent dat het signaal niet kan worden gedecodeerd.
Naast modulatietype probeert golfvormidentificatie specifieke communicatiestandaarden of radiotypes te herkennen aan hun signaalkenmerken. Een TETRA-signaal heeft andere spectrale en temporele kenmerken dan een militaire Link 16-golfvorm, zelfs als beide digitaal zijn. Een specifieke vijandelijke tactische radio kan kenmerkende pulsvorming, bewakingsintervallen of synchronisatiesequenties hebben die het onderscheiden van andere signalen in dezelfde modulatieklasse. Protocolidentificatie — bepalen welk communicatieprotocol in gebruik is — vereist demodulatie en inspectie van de bitstroom, of het herkennen van protocolspecifieke patronen in de fysieke-laag-signaalstructuur.
Inlichtingrelevantie-classificatie is de hoogste-niveau-taak: gegeven een geclassificeerd signaal, een prioriteitsscore toewijzen die bepaalt hoe snel het wordt beoordeeld en met welke middelen. Dit vereist het combineren van het technische classificatieresultaat met contextuele informatie — het frequentieband, het operationele gebied, tijdstip en de geschiedenis van signalen waargenomen van dezelfde emitter — om een score te produceren die de kans weerspiegelt dat dit signaal uitvoerbare inlichtingen bevat.
Feature Engineering: Spectrogrammen, IQ-samples en Oogdiagrammen
Machine learning-modellen vereisen numerieke feature-representaties van de signalen die ze classificeren. De keuze van feature-representatie heeft substantiële impact op modelprestaties en het type ML-architectuur dat passend is.
Ruwe IQ-samples. De meest directe representatie is een segment ruwe IQ-samples — complexwaardige tijdreeksdata direct van de ontvanger. Convolutionele neurale netwerken kunnen classificatierelevante features direct uit ruwe IQ-data leren zonder handgemaakte feature engineering. De DeepSig RadioML-dataset, die een benchmark in de onderzoeksgemeenschap is geworden, toont aan dat CNN's getraind op ruwe IQ-data veel klassieke AMC-algoritmen op basis van handgemaakte features overtreffen. Ruwe IQ-samples zijn echter gevoelig voor kanaaleffecten — dragerfrequentie-offset, kanaalruis en multipath — die in het model of de verwerkingspijplijn moeten worden behandeld.
Spectrogrammen. Een spectrogram vertegenwoordigt een signaal als een 2D-afbeelding met tijd op één as en frequentie op de andere, waarbij pixelintensiteit signaalvermogen codeert. De kortetermijn-Fouriertransformatie (STFT) is de standaardmethode voor het berekenen van spectrogrammen. Spectrogrammen zijn intuïtief — een ervaren analist kan vaak een signaaltype identificeren door visuele inspectie van het watervaldisplay — en zijn goed geschikt voor convolutionele neurale netwerken die geoptimaliseerd zijn voor 2D-beeldclassificatie.
Oogdiagrammen en constellatiediagrammen. Een oogdiagram wordt geconstrueerd door opeenvolgende symboolperioden van een gedemoduleerd signaal te overlappen. Voor een schoon signaal vormen de overlappende sporen een "oog"-patroon waarvan de breedte en hoogte signaalkwaliteit weerspiegelen. Constellatiediagrammen tonen de complexe symboolwaarden van een gedemoduleerd signaal als punten in het I/Q-vlak — een QPSK-signaal produceert vier afzonderlijke clusters, een QAM-16-signaal produceert een 4×4-raster van 16 clusters. Deze representaties vereisen demodulatie als voorverwerkingsstap.
Gesuperviseerde Benaderingen: CNN voor Modulatieclassificatie
Gesuperviseerd machine learning voor signaalclassificatie vereist een gelabelde trainingsset — een verzameling signaalvoorbeelden waarbij het juiste klassenlabel bekend is. Het model leert te mappen van de signaalrepresentatie naar klassenlabels door een verliesfunctie te minimaliseren over de trainingsdata.
Convolutionele neurale netwerken (CNN's) zijn de dominante architectuur voor AMC geworden. Een typische AMC-CNN-architectuur bestaat uit meerdere 1D- of 2D-convolutionele lagen (afhankelijk van de invoerrepresentatie), max-pooling-lagen voor ruimtelijke/temporele downsampling, batchnormalisatielagen voor verbeterde trainingsstabiliteit en volledig verbonden lagen die mappen naar de klansekansenvector. ResNet-geïnspireerde architecturen met residuele verbindingen hebben verbeterde prestaties aangetoond ten opzichte van eenvoudige CNN-stapels voor AMC-taken.
Trainingsdata voor defensie-AMC-modellen is een significante uitdaging. De standaardbenadering gebruikt signaalsimuatie: een communicatiesimulatie genereert schone signalen met de doel-modulatieparameters, en een kanaalsimulatie voegt realistische kanaaleffecten (AWGN, Rayleigh fading, frequentie-offset, klokfout) toe bij variërende SNR-niveaus. Modellen getraind op gesimuleerde data worden vervolgens geëvalueerd op reëelwereld-gevangen signalen.
Prestatiesbenchmarks op de RadioML 2018-dataset tonen aan dat goed-afgestelde CNN-modellen meer dan 90% classificatienauwkeurigheid bereiken over 24 modulatieklassen bij SNR-waarden boven 10 dB. Prestaties verslechteren aanzienlijk bij laag SNR (onder 0 dB), wat het operationele regime is voor veel SIGINT-scenario's met verre of zwakke emitters.
Ongesuperviseerde Benaderingen: Clusteren van Onbekende Signalen
Gesuperviseerde classificatie verwerkt bekende signaaltypes goed. Maar een kernuitdaging van SIGINT betreft signalen die niet in de trainingsset staan — nieuwe vijandelijke golfvormen, gewijzigde communicatieprotocollen, geïmproviseerde systemen. Gesuperviseerde modellen die een onbekend signaaltype tegenkomen, classificeren het onjuist als de dichtstbijzijnde bekende klasse, mogelijk met hoge zekerheid. Het model kan niet weten wat het niet weet.
Ongesuperviseerde clusteringbenaderingen pakken dit probleem aan door signalen te groeperen op basis van feature-gelijkenis zonder verwijzing naar vooraf gedefinieerde klassenlabels. Een clusteringalgoritme toegepast op een verzameling onderschepte signalen identificeert groepen signalen met vergelijkbare kenmerken, zelfs als die kenmerken niet overeenkomen met een bekend signaaltype. Nieuwe clusters die niet overeenkomen met bekende signaaltypes worden gemarkeerd als onbekenden voor analistbeoordeling.
Operationeel inzicht: De meest waardevolle uitvoer van ongesuperviseerde clustering in een operationele SIGINT-context is vaak niet de clusterbestemmingen zelf, maar de clustercentroïden — de representatieve featurevectoren die elke geïdentificeerde groep kenmerken. Deze centroïden dienen als zaad voor een nieuwe gelabelde klasse wanneer analisten de aard van een onbekend signaal bevestigen, waardoor gesuperviseerde modellen snel kunnen worden bijgewerkt.
Veelgebruikte clusteringalgoritmen voor SIGINT zijn k-means (rekentechnisch efficiënt, vereist k vooraf te specificeren), DBSCAN (dichtheidsgebaseerd, verwerkt onregelmatige clustervormen en identificeert automatisch ruispunten) en Gaussische mengmodellen (probabilistisch, geeft per-toewijzing vertrouwensscores). Voor hoogdimensionale feature-ruimten wordt dimensionaliteitsreductie — t-SNE of UMAP om features naar 2D te projecteren voor visualisatie, of autoencoders voor compacte representaties — doorgaans toegepast vóór clustering.
Semi-gesuperviseerde benaderingen combineren beide paradigma's: een model wordt getraind met een gesuperviseerd verlies op gelabelde voorbeelden en een ongesuperviseerd verlies (clustering of reconstructie) op niet-gelabelde voorbeelden. Dit is goed geschikt voor het SIGINT-domein, waar gelabelde data schaars en duur is om te produceren maar niet-gelabelde operationele onderscheppingen overvloedig aanwezig zijn.