Teams voor cyberdreigingsinformatie staan voor een steeds groter wordend dataprobleem. Het volume aan ruwe dreigingsgegevens — IOC-feeds van ISAC's, OSINT verzameld van paste-sites en Telegram-kanalen, exports van dark web-forums, leveranciersinlichtingenrapporten — is sneller gegroeid dan het aantal analisten bij elke organisatie die CTI serieus neemt. Het resultaat is een achterstand: dreigingsgegevens die op tijd aankomen om bruikbaar te zijn, maar niet worden geclassificeerd, verrijkt of gecorreleerd voordat het tijdvenster sluit. Handmatige classificatie op schaal is geen workflowprobleem. Het is een structureel probleem dat niet kan worden opgelost door meer analisten aan te nemen.

Grote taalmodellen bieden een echte oplossing — niet als vervanging van het oordeel van analisten, maar als een classificatie- en verrijkingslaag die ongestructureerde dreigingsgegevens op machinesnelheid omzet in gestructureerde records. Dit artikel behandelt de architecturale beslissingen die er toe doen bij het integreren van LLM's in een CTI-pijplijn: welke modelklasse te gebruiken voor welke taak, hoe de ingest-tot-output pijplijn te structureren met STIX 2.1 en MITRE ATT&CK, welke trainingsgegevens betrouwbare classifiers op technikeniveau produceren, hoe prestaties te evalueren in een SOC-context, en hoe de analist-in-de-lus besturingselementen te ontwerpen die het systeem betrouwbaar houden onder adversariële omstandigheden.

Waarom handmatige CTI-classificatie niet schaalt

Het schaalprobleem is zowel kwantitatief als kwalitatief. Aan de kwantitatieve kant: een middelgrote defensieorganisatie die een realistische set dreigingsfeeds bewaakt — twee of drie ISAC-feeds, AlienVault OTX, meerdere MISP-communityservers, en passieve DNS- en certificate transparency log-verrijking — ontvangt tienduizenden ruwe indicatoren per dag. Elke IOC handmatig classificeren naar dreigingsacteur, malwarefamilie en relevante ATT&CK-techniek wordt gemeten in analistenuren per dag die de meeste CTI-teams niet hebben.

Het kwalitatieve probleem is bronheterogeniteit. ISAC's leveren gestructureerde STIX-bundels met relatief schone labels. OSINT-feeds leveren ongestructureerde proza: blogberichten, forumthreads, Telegram-kanaalexports. Dark web-gegevens arriveren in formaten die significante voorverwerking vereisen voordat een classificatiepoging zinvol is. Elke bron vereist een andere extractiebenadering, en het onderhouden van betrouwbare regelgebaseerde extractors over al deze bronnen — terwijl gelijke tred wordt gehouden met de manier waarop dreigingsacteurs hun taal opzettelijk variëren om detectie te ontwijken — is een onderhoudsbelasting die in de loop der tijd toeneemt.

Analisten burnout is de stroomafwaartse consequentie. Wanneer de classificatierij permanent diep is, stoppen analisten met het beoordelen van individuele records en beginnen ze alleen de hoogst-prioriteit voorgefilterde items te verwerken. Het resultaat zijn systematische blinde vlekken in het dreigingsbeeld — niet omdat de gegevens niet waren verzameld, maar omdat ze nooit zijn geclassificeerd en gecorreleerd. Een LLM-classificatielaag elimineert niet de behoefte aan het oordeel van analisten; het elimineert het deel van de workflow waar analisten werk doen dat betrouwbaar kan worden geautomatiseerd.

LLM-architectuur voor CTI: encoder- versus generatieve modellen

De meest beslissende architecturale keuze in een CTI-LLM-pijplijn is welke modelklasse in elke fase te gebruiken. Encodermodellen (BERT-klasse) en generatieve modellen (GPT-klasse) hebben fundamenteel verschillende sterke punten, en het gebruik van de verkeerde klasse voor een taak levert ofwel slechte nauwkeurigheid of onnodige kosten op.

Encodermodellen voor classificatie

BERT-klasse encodermodellen — met name domeingeadapteerde varianten die zijn gefinetuned op beveiligingstekst, zoals SecBERT of CySecBERT — zijn de juiste keuze voor classificatietaken met een vaste taxonomie. Gegeven een CTI-document en een vooraf gedefinieerde labelset (ATT&CK-techniek-ID's, malwarefamilienamen, dreigingsacteurgroepen), produceert een gefinetunede encoder classificatiescores over de labelruimte in minder dan 500 milliseconden op bescheiden hardware. Finetuning op gelabelde CTI-corpora van 5.000 tot 20.000 voorbeelden bereikt doorgaans productieklare nauwkeurigheid.

De kritieke beperking is dat de labelset vast en bekend moet zijn bij het trainen. Encodermodellen kunnen niet generaliseren naar labels die niet tijdens de training zijn gezien. Voor MITRE ATT&CK-technieklassificatie is dit in de praktijk geen beperking: de ATT&CK-techniektaxonomie is versiegebeheerd en updates kunnen een gerichte finetuning-run activeren. Voor malwarefamilieclassificatie, waarbij nieuwe families voortdurend opduiken, moet de encoder worden gekoppeld aan een out-of-distribution-detectiemechanisme dat kandidaten van onbekende families naar een analist stuurt in plaats van een dichtstbijzijnde overeenkomst te forceren.

Generatieve modellen voor verrijking

Generatieve modellen zijn de juiste keuze wanneer de uitvoer open-ended is of redeneren over documentcontext vereist. Het extraheren van gestructureerde IOC-velden uit een ongeformatteerd dreigingsacteurrapport, het synthetiseren van een narratief overzicht uit een reeks gestructureerde gebeurtenisrecords, het afleiden van slachtoffergeografie uit impliciete aanwijzingen in plaats van expliciete landnamen — deze taken vereisen mogelijkheden die encoderclassificatie niet kan bieden.

De sleuteldiscipline bij het gebruik van generatieve modellen in een CTI-pijplijn is het beperken van het uitvoerformaat. Een generatief model dat vrije tekst mag produceren, zal synoniemen en inconsistenties introduceren die stroomafwaartse aggregatie onbetrouwbaar maken. De oplossing is gestructureerde uitvoerprompting: het model krijgt de instructie om een JSON-respons te produceren die voldoet aan een strikt schema, met schemavalidatie die wordt toegepast bij ontvangst. Parseerfouten in de respons activeren een automatisch opnieuw proberen met corrigerende instructies. Deze discipline converteert een probabilistisch generatief systeem naar een betrouwbare gestructureerde gegevensbron.

Generatieve verrijking is ook de juiste plaats voor betrouwbaarheidsscoring. Het model krijgt de instructie om een per-veld betrouwbaarheidsscore tussen 0 en 1 te retourneren, die echte epistemische onzekerheid vertegenwoordigt gegeven de inhoud van het brondocument. Een bericht dat expliciet een slachtofferorganisatie en land noemt, produceert geografievelden en organisatievelden met hoge betrouwbaarheid; een bericht dat een sector impliceert zonder een organisatie te noemen, produceert lagere betrouwbaarheid. Deze scores sturen stroomafwaartse routeringsbeslissingen in de pijplijn.

Pijplijnontwerp: van ruwe IOC tot MITRE ATT&CK-toewijzing

Een productie-CTI-classificatiepijplijn heeft vijf afzonderlijke fasen, elk met specifieke invoer, uitvoer en faalwijzen.

Fase 1 — Ingestie en normalisatie. Ruwe dreigingsgegevens arriveren in heterogene formaten: STIX 2.1-bundels van ISAC-feeds, MISP-gebeurtenisexports, JSON van commerciële dreigingsinformatie-API's, en ongestructureerde tekst uit OSINT-bronnen. De ingestiefase normaliseert alle invoer naar een canoniek intern documentformaat voordat LLM-verwerking plaatsvindt. Voor STIX- en MISP-invoer is dit voornamelijk veldextractie. Voor ongestructureerde tekst omvat dit taaldetectie, coderingsn normalisatie en minimumlengte-filtering (documenten onder ongeveer 50 tokens bevatten onvoldoende context voor betrouwbare classificatie). Bronmetagegevens — feed-identifier, ingestietijdstempel, betrouwbaarheidsscore van de upstream-provider indien aanwezig — worden bewaard als envelopvelden door de gehele pijplijn.

Fase 2 — Binaire relevantiegate. Niet alle ingested documenten zijn kandidaten voor volledige LLM-classificatie. Een lichtgewicht binaire classifier (een gefinetunede encodermodel met 350M parameters of kleiner) draait eerst om documenten te filteren die geen operationele dreigingsinhoud bevatten: nieuwssamenvattingen, administratieve bulletins, valse positieve IOC's die al als schoon bekend zijn. Deze gate reduceert het LLM-inferentievolume met 60–80% in typische feedconfiguraties, waardoor de kosten per dag direct worden verlaagd. De gate is gekalibreerd voor hoge herinnering — een echt dreigingsdocument missen is kostbaarder dan een niet-operationeel document naar de LLM-fase sturen.

Fase 3 — LLM-classificatie en verrijking. Documenten die de binaire gate passeren, gaan naar de classificatiefase. Een gefinetunede encoder wijst ATT&CK-techniek-ID's en malwarefamilielabels toe. Een generatieve verrijkingspass extraheert gestructureerde velden: dreigingsacteurgroep, slachtofferorganisatie, sector (uit een vaste taxonomie van acht categorieën), geografie (ISO 3166-1 alpha-2), aanvalsvector en per-veld betrouwbaarheidsscores. De twee passes kunnen gelijktijdig worden uitgevoerd omdat ze op hetzelfde invoerdocument werken.

Fase 4 — MITRE ATT&CK-toewijzing en entiteitsresolutie. Techniek-ID's van de classifier worden toegewezen aan ATT&CK-objecten met volledige verrijking: tactiekassociatie, platformtoepasbaarheid en detectiebegeleidingsreferenties. Namen van dreigingsacteurs en slachtofferorganisaties worden opgelost aan de hand van de bestaande entiteitsindex met fuzzy naammatching en landcode-disambiguatie. Bekende aliassen worden gecanoniseerd. Nieuwe entiteiten activeren het aanmaken van een voorlopig record voor beoordeling door een analist in plaats van stille invoeging.

Fase 5 — STIX 2.1-serialisatie en uitvoer. Verrijkte records worden geserialiseerd als STIX 2.1-bundels — Threat Actor-, Malware-, Attack Pattern-, Indicator- en Relationship-objecten met juiste externe verwijzingen naar ATT&CK-techniek-ID's. Bundels worden gevalideerd aan de hand van het STIX 2.1-schema voor opslag of export. Voor MISP-integratie worden dezelfde gestructureerde records toegewezen aan MISP-gebeurtenissen via de ATT&CK-galaxy. Voor SIEM-integratie worden CEF- en gestructureerde JSON-formaten ondersteund voor directe waarschuwingsingestie.

Trainingsgegevens voor adversariële TTP-classificatie

De kwaliteit van een CTI-classificatiemodel wordt primair bepaald door de kwaliteit en dekking van de trainingsgegevens. Drie bronnen bieden de meest betrouwbare gelabelde gegevens voor ATT&CK-technieklassificatie.

De MITRE ATT&CK-kennisbank is het canonieke startpunt. Elke techniekeninvoer bevat prozabeschrijvingen, procedurevoorbeelden ontleend aan rapporten over dreigingsacteurs in de echte wereld, en detectiebegeleiding. Procedurevoorbeelden — beschrijvingen van hoe specifieke dreigingsacteurgroepen een techniek hebben gebruikt in bevestigde operaties — zijn het hoogste kwaliteitsignaal voor training omdat ze de natuurlijke taalpatronen vastleggen die analisten gebruiken bij het beschrijven van TTP-activiteit. Het ATT&CK-corpus wordt onderhouden onder versiebeheer; elke release voegt nieuwe technieken toe en verfijnt bestaande, zodat finetuning-pijplijnen moeten worden uitgelijnd op specifieke ATT&CK-versies.

AlienVault OTX-pulsexports bieden gelabelde dreigingsacteur- en malwarefamiliegegevens op schaal. Elke pulse bevat een titel, beschrijving en bijbehorende IOC's getagd met de dreigingsacteur of malwarefamilie die de indiener eraan toeschrijft. Labelkwaliteit varieert per indiener; filteren op pulsen van geverifieerde organisaties verbetert het trainingssignaal significant. OTX-exports in STIX-formaat maken consistente ingestie mogelijk.

Voor adversariële TTP-labeling bevatten leveranciersinlichtingenrapporten (gepubliceerd onder permissieve voorwaarden) hoogwaardige techniekattributies die expliciet worden vermeld: "De groep gebruikte T1055.012 (Process Hollowing) om in legitieme Windows-processen te injecteren." Deze verklaringen bieden directe technieklabels met contextuele proza. Het extraheren ervan vereist een eenmalige annotatiestap om rapporttekst te aligneren met ATT&CK-techniek-ID's, maar de resulterende gelabelde voorbeelden behoren tot de meest betrouwbare die beschikbaar zijn voor finetuning.

De labelstrategie voor zeldzame technieken vereist speciale aandacht. ATT&CK bevat meer dan 600 technieken en subtechnieken, en veel komen voor in minder dan 20 gelabelde voorbeelden in enig beschikbaar corpus. Voor deze zeldzame klassen zijn gegevensaugmentatie (het parafraseren van procedurevoorbeeldbeschrijvingen) en few-shot prompting met een generatief model als terugvalclassifier beide haalbare benaderingen. De minimale praktische bodem voor betrouwbare gefinetunede classificatie is ongeveer 80 gelabelde voorbeelden per klasse; klassen onder deze drempel moeten worden gerouteerd naar een generatief model met een few-shot prompt in plaats van een gefinetunede encoder.

Evaluatiemetrieken in een SOC-context

Standaard nauwkeurigheidsmetrieken misleiden wanneer ze worden toegepast op CTI-classificatie omdat de dreigingstechniek-labeldistributie sterk onevenwichtig is. Technieken zoals T1566 (Phishing) en T1059 (Command and Scripting Interpreter) komen voor in een groot deel van echte incidentrapporten. Zeldzame maar hoogwaardige technieken — T1195 (Supply Chain Compromise), T1600 (Weaken Encryption) — komen veel minder frequent voor. Een model dat 92% algehele nauwkeurigheid bereikt door prestaties te concentreren op veelvoorkomende technieken terwijl het mislukt op zeldzame hoogwaardige technieken, is operationeel nutteloos.

De metrieken die er toe doen voor productie-CTI-classificatie zijn precisie en herinnering per techniek, afzonderlijk gerapporteerd over de volledige techniektaxonomie. Macro-gemiddelde F1 — het ongewogen gemiddelde van per-klasse F1 over alle technieklabels — is de samenvattende metriek die de algehele prestaties op een onevenwichtige labeldistributie het best weergeeft. Voor een CTI-pijplijn die een SOC bedient, is de herinnering op technikeniveau voor prioritaire bewakingsklassen (de specifieke technieken die relevant zijn voor de dreigingsacteurs die uw sector en geografie als doelwit hebben) het enkelvoudig meest operationeel belangrijke getal. 20% van T1055-gebeurtenissen missen bij een defensieorganisatie die bewaakt op aanhoudende geavanceerde dreigingen is geen aanvaardbare precisie-herinneringsafweging, ongeacht hoe de macro-F1-score eruitziet.

De kosten van fout positieven in een SOC-context zijn asymmetrisch. Een vals positief — een document geclassificeerd als een specifieke ATT&CK-techniek bevattend terwijl het dat niet doet — kost analysttijd voor het beoordelen van een spurieus record. De kosten zijn begrensd en beheersbaar. Een vals negatief — een echte ATT&CK-techniek die niet door de classifier wordt gesignaleerd — kan betekenen dat een TTP van een dreigingsacteur onopgemerkt blijft tot een incident plaatsvindt. Betrouwbaarheidsdrempels kalibreren om hogere vals-positiefpercentages te accepteren in ruil voor lagere vals-negatiefraten is het juiste bedrijfspunt voor bewakingsscenario's met hoge inzet.

Operationele integratie: realtime, batch en analist-in-de-lus ontwerp

CTI-classificatiepijplijnen werken in twee modi met verschillende latentie- en doorvoervereisten. Realtime-classificatie is vereist wanneer de bron een live stream is — Telegram-kanaalmonitoring, live dreigingsfeedabonnementen, actieve netwerktelemetrie. De pijplijn moet elk document classificeren zodra het aankomt, met end-to-end latentie gemeten in seconden in plaats van minuten. Dit beperkt de modelselectie: de encoderclassificatiefase moet draaien in minder dan 500 milliseconden; de generatieve verrijkingsfase moet gemiddeld minder dan 15 seconden per document duren. Asynchrone verwerking met een berichtenwachtrij tussen fasen voorkomt dat tegendruk van de generatieve fase de ingestie blokkeert.

Batchclassificatie is geschikt voor historische corpusanalyse — het herclassificeren van een bestaande IOC-database aan de hand van een nieuwe ATT&CK-versie, het verrijken van een legacy MISP-instantie met gestructureerde velden, of het verwerken van een bulkexport van een commercieel dreigingsinformatieplatform. Batchmodus kan grotere, nauwkeurigere modellen gebruiken omdat latentiebeperkingen zijn versoepeld, en kan 's nachts draaien zonder de realtime-pijplijncapaciteit te beïnvloeden.

Analist-in-de-lus ontwerp is niet optioneel voor productie-CTI-classificatiesystemen. LLM-classifiers maken systematische fouten bij randgevallen, nieuwe dreigingsacteur-taalpatronen en opzettelijk verhulde inhoud. Zonder een correctiemechanisme accumuleren deze fouten in de stroomafwaartse graaf en degraderen ze de kwaliteit van inlichtingenproducten in de loop van de tijd. De analistenwachtrij — records die voor menselijke beoordeling worden gerouteerd op basis van betrouwbaarheidsdrempels — moet een inline correctie-interface bevatten die bewerkingen op veldniveau vastlegt als gelabelde trainingsgegevens. Correcties moeten een finetuning-feedbacklus voeden die op een regelmatig schema draait en de modelkalibratie continu verbetert op het specifieke dreigingslandschap dat wordt bewaakt.

Configuratie van betrouwbaarheidsdrempels is de primaire operationele controle. Voor sectoren met hoge ernst (kritieke infrastructuur, defensie) maximaliseren lagere drempels (0,60–0,70) de herinnering ten koste van een hoger analistenwachtrij-volume. Voor breed toezicht waarbij het primaire doel trendanalyse is in plaats van individuele gebeurteniswaarschuwingen, verminderen drempels van 0,78–0,85 het wachtrij-volume tot een beheersbaar niveau. Drempels moeten afzonderlijk per veld worden gekalibreerd — betrouwbaarheid van geografie en betrouwbaarheid van technieken hebben verschillende nauwkeurigheidsprofielen over de evaluatieset van het model — en driemaandelijks worden herzien aan de hand van analisten-correctieraten om distributieverschuiving te detecteren.

Voor een diepere blik op hoe CTI-platforms gestructureerde dreigingsgegevens integreren over multi-source omgevingen, zie onze handleiding voor defensie-grade CTI-platformarchitectuur.

LLM-classificatie integreren met OSINT-monitoringpijplijnen

LLM-classificatie werkt niet in isolatie. In een volwassen CTI-programma is het één fase in een grotere pijplijn die begint met bronmonitoring en eindigt met analistenklare inlichtingenproducten en SIEM-geïntegreerde waarschuwingen. De integratiepunten die specifieke technische aandacht vereisen zijn de overdrachten tussen fasen.

OSINT-bronmonitoring — passieve DNS, certificate transparency log-scanning, indexering van dark web-forums en monitoring van open berichtenplatformkanalen — genereert de ruwe documentstroom die de classificatiepijplijn voedt. Elk brontype introduceert verschillende gegevenskwaliteitsproblemen. Passieve DNS-gegevens zijn gestructureerd maar hoog-volume met veel goedaardige records. Dark web-foruminhoud is ongestructureerd, meertalig en vereist entiteitsambiguïteitreparatie om echte dreigingsacteurs te scheiden van nabootsers. Open berichtenplatformkanalen mixen hoog-signaal aanvalsaankondigingen met ruis, propaganda en desinformatie in een verhouding die per kanaal aanzienlijk varieert.

De binaire gate-fase van de classificatiepijplijn is het primaire mechanisme voor het omgaan met bronruis. Een gate-model gefinetunede op gelabelde voorbeelden van elk brontype zal aanzienlijk beter presteren dan een generieke relevantieclassifier. Investeren in per-bron gate-modellen is de hoogste-ROI-afstemmingsinvestering die beschikbaar is in een CTI-classificatiepijplijn omdat het direct de LLM-inferentiekosten verlaagt die de dagelijkse bedrijfslasten domineren.

SIEM-integratie aan het uitvoereinde van de pijplijn vereist zorgvuldige schematoewijzing. De meeste enterprise-SIEM's nemen CEF (Common Event Format) of gestructureerde JSON op via syslog of een REST-webhook. STIX 2.1-bundels worden niet native door de meeste SIEM's opgenomen zonder een vertaallaag. De praktische aanpak is het handhaven van twee uitvoerstromen vanuit de classificatiepijplijn: een STIX-bundelstroom voor CTI-platformingestie en inter-organisatiedeling, en een SIEM-native waarschuwingsstroom die de meest operationeel relevante velden (techniek-ID, acteur, ernst, betrokken organisatie) toewijst aan het SIEM-schema. Correlatieregels in de SIEM moeten ATT&CK-techniek-ID's als join-sleutel refereren tussen CTI-afgeleide waarschuwingen en eindpunt/netwerk telemetriegebeurtenissen.

De operationele volwassenheid van OSINT-gebaseerde dreigingsmonitoring bij defensieorganisaties is de afgelopen drie jaar aanzienlijk toegenomen, grotendeels aangedreven door de praktische toegankelijkheid van LLM-gebaseerde tekstverwerking. Wat twee jaar geleden een team van analisten en een aanzienlijke onderhoudslast voor regels vereiste, kan nu worden aangepakt met een goed ontworpen classificatiepijplijn die op bescheiden infrastructuur draait.

Corvus.Sense past LLM-gebaseerde CTI-classificatie toe op realtime Telegram-kanaalmonitoring en dreigingsacteurprofilering — het omzetten van ongestructureerde open-source inlichtingen in gestructureerde dreigingsacteurrecords, ATT&CK-toegewezen techniektijdlijnen en STIX-exporteerbare inlichtingenproducten. Als uw team CTI op schaal beheert en een productieklare classificatielaag nodig heeft, is Corvus.Sense gebouwd voor dat probleem.

Ontdek Corvus.Sense →