La collecte SIGINT moderne produit bien plus de signaux que des analystes humains ne peuvent examiner. Un récepteur large bande couvrant 100 MHz de spectre dans un environnement électromagnétique dense peut détecter des milliers d'événements de signaux individuels par heure. Avant qu'un renseignement quelconque puisse être extrait de ces signaux, ils doivent être classifiés — triés en catégories qui déterminent comment chacun sera traité et priorisé. La classification manuelle à cette échelle est impossible. La classification automatique des signaux, de plus en plus alimentée par l'apprentissage automatique (AA), est ce qui rend la collecte SIGINT à grande échelle opérationnellement gérable.

La tâche de classification : type de modulation, forme d'onde et protocole

La classification automatique de modulation (CAM) est le problème de classification de signaux le plus étudié dans la littérature d'ingénierie des communications. Pour un segment donné d'échantillons IQ reçus, la CAM détermine le schéma de modulation utilisé : si le signal est modulé en amplitude (AM, DSB, USB), en fréquence (FM, FSK) ou en phase/amplitude (BPSK, QPSK, QAM-16, QAM-64, etc.). Cette classification est fondamentale — un signal BPSK et un signal QAM-64 nécessitent des chaînes de démodulation complètement différentes, et une erreur de classification signifie que le signal ne peut pas être décodé.

Au-delà du type de modulation, l'identification de la forme d'onde tente de reconnaître des standards de communication ou des types de radios spécifiques à partir des caractéristiques du signal. La classification de pertinence renseignement est la tâche de plus haut niveau : pour un signal classifié, un score de priorité est attribué qui détermine à quelle vitesse il sera examiné et avec quelles ressources.

Ingénierie des caractéristiques : spectrogrammes, échantillons IQ et diagrammes de l'œil

Échantillons IQ bruts. La représentation la plus directe est un segment d'échantillons IQ bruts — données de séries temporelles à valeurs complexes directement du récepteur. Les réseaux de neurones convolutifs (CNN) peuvent apprendre des caractéristiques pertinentes pour la classification directement à partir des données IQ brutes sans ingénierie de caractéristiques manuelle.

Spectrogrammes. Un spectrogramme représente un signal comme une image 2D avec le temps sur un axe et la fréquence sur l'autre, l'intensité des pixels codant la puissance du signal. Différents types de modulation produisent des modèles de spectrogrammes visuellement distincts : un signal FSK montre des sauts de fréquence discrets, un signal à sauts de fréquence montre l'apparence caractéristique dispersée de l'occupation de l'ensemble de sauts.

Diagrammes de l'œil et de constellation. Ces représentations nécessitent la démodulation comme étape de prétraitement. Elles sont les plus utiles comme caractéristiques de second niveau pour la classification intra-classe — distinguer QAM-16 de QAM-64 après que la classe QAM a été identifiée.

Approches supervisées : CNN pour la classification de modulation

L'apprentissage automatique supervisé pour la classification des signaux nécessite un ensemble d'entraînement étiqueté — une collection d'exemples de signaux où l'étiquette de classe correcte est connue. Les CNN sont devenus l'architecture dominante pour la CAM. Un CNN appliqué à une image de spectrogramme apprend à détecter des caractéristiques visuelles (modèles spectraux, structures temporelles) diagnostiques de types de modulation spécifiques.

Les données d'entraînement pour les modèles CAM de défense constituent un défi significatif. L'approche standard utilise la simulation de signaux : une simulation de communication génère des signaux propres avec des paramètres de modulation cibles, et une simulation de canal ajoute des effets de canal réalistes (AWGN, évanouissement de Rayleigh, décalage de fréquence de porteuse, erreur d'horloge) à des valeurs de RSB variables. Les modèles entraînés sur des données simulées sont ensuite évalués sur des signaux capturés réels.

Approches non supervisées : regroupement de signaux inconnus

La classification supervisée gère bien les types de signaux connus. Mais un défi fondamental du SIGINT concerne les signaux qui ne sont pas dans l'ensemble d'entraînement — nouvelles formes d'ondes de l'adversaire, protocoles de communication modifiés, systèmes improvisés. Les approches de regroupement non supervisé résolvent ce problème en regroupant les signaux sur la base de la similarité des caractéristiques sans référence à des étiquettes de classe prédéfinies.

Observation opérationnelle : La sortie la plus précieuse du regroupement non supervisé dans un contexte SIGINT opérationnel est souvent non pas les attributions de groupes elles-mêmes, mais les centroïdes des groupes — les vecteurs de caractéristiques représentatifs caractérisant chaque groupe identifié. Ces centroïdes servent de point de départ pour une nouvelle classe étiquetée lorsque les analystes confirment la nature d'un signal inconnu, permettant la mise à jour rapide des modèles supervisés.

Les approches semi-supervisées combinent les deux paradigmes : un modèle est entraîné avec une perte supervisée sur des exemples étiquetés et une perte non supervisée (regroupement ou reconstruction) sur des exemples non étiquetés. Cela convient bien au domaine SIGINT, où les données étiquetées sont rares et coûteuses à produire, mais les interceptes opérationnels non étiquetés sont abondants.

Le déploiement pratique de la classification de signaux AA dans les systèmes SIGINT opérationnels nécessite une attention aux cycles de mise à jour des modèles, aux contraintes matérielles sur le nœud de traitement et à l'interface homme-machine pour l'interaction des analystes avec les sorties du classificateur. L'intégration des scores de confiance de classification dans le pipeline de priorisation des alertes est le défi clé de conception de l'intégration.