Echipele de informații despre amenințările cibernetice se confruntă cu o problemă de date în creștere. Volumul datelor brute despre amenințări — fluxuri IOC de la ISAC-uri, OSINT colectat de pe site-uri de paste și canale Telegram, exporturi de forumuri dark web, rapoarte de informații ale furnizorilor — a crescut mai rapid decât numărul de analiști la fiecare organizație care ia CTI în serios. Rezultatul este un backlog: date despre amenințări care sosesc la timp pentru a fi acționabile, dar care nu sunt clasificate, îmbogățite sau corelate înainte ca fereastra să se închidă. Clasificarea manuală la scară nu este o problemă de flux de lucru. Este o problemă structurală care nu poate fi rezolvată prin angajarea mai multor analiști.
Modelele lingvistice mari oferă o soluție reală — nu ca înlocuitor al judecății analistului, ci ca strat de clasificare și îmbogățire care convertește datele nestructurate despre amenințări în înregistrări structurate la viteza mașinii. Acest articol acoperă deciziile arhitecturale care contează atunci când se integrează LLM-uri într-un pipeline CTI: ce clasă de model să folosești pentru ce sarcină, cum să structurezi pipeline-ul de la ingestie la ieșire cu STIX 2.1 și MITRE ATT&CK, ce date de antrenare produc clasificatoare fiabile la nivel de tehnică, cum să evaluezi performanța într-un context SOC și cum să proiectezi controalele cu analist în buclă care mențin sistemul de încredere în condiții adversariale.
De ce clasificarea manuală CTI nu se scalează
Problema de scalare este cantitativă și calitativă. Pe partea cantitativă: o organizație de apărare de nivel mediu care monitorizează un set realist de fluxuri de amenințări — două sau trei fluxuri ISAC, AlienVault OTX, mai multe servere ale comunității MISP și îmbogățire DNS pasiv și jurnale de transparență a certificatelor — primește zeci de mii de indicatori bruti pe zi. Clasificarea manuală a fiecărui IOC după actor de amenințare, familie de malware și tehnică ATT&CK relevantă se măsoară în ore-analist pe zi pe care majoritatea echipelor CTI nu le au.
Problema calitativă este eterogenitatea surselor. ISAC-urile livrează bundle-uri STIX structurate cu etichete relativ curate. Fluxurile OSINT livrează proză nestructurată: postări de blog, fire de forum, exporturi de canale Telegram. Datele dark web sosesc în formate care necesită preprocesare semnificativă înainte ca orice tentativă de clasificare să fie semnificativă. Fiecare sursă necesită o abordare diferită de extracție, iar menținerea unor extractoare bazate pe reguli fiabile pe toate acestea — menținând în același timp ritmul cu modul în care actorii de amenințare variază deliberat limbajul lor pentru a evita detectarea — este o povară de întreținere care se acumulează în timp.
Epuizarea analiștilor este consecința din aval. Când coada de clasificare este permanent adâncă, analiștii nu mai revizuiesc înregistrările individuale și încep să proceseze doar elementele pre-filtrate cu cea mai mare severitate. Rezultatul sunt puncte oarbe sistematice în imaginea amenințărilor — nu pentru că datele nu au fost colectate, ci pentru că nu au fost niciodată clasificate și corelate. Un strat de clasificare LLM nu elimină nevoia de judecată a analistului; elimină acea parte a fluxului de lucru în care analiștii fac muncă care poate fi automatizată în mod fiabil.
Arhitectura LLM pentru CTI: modele encoder vs generative
Cea mai importantă alegere arhitecturală într-un pipeline CTI LLM este ce clasă de model să folosești în fiecare etapă. Modelele encoder (clasă BERT) și modelele generative (clasă GPT) au puncte forte fundamental diferite, iar utilizarea clasei greșite pentru o sarcină produce fie acuratețe slabă, fie costuri inutile.
Modele encoder pentru clasificare
Modelele encoder de clasă BERT — în special variantele adaptate domeniului, fine-tunate pe text de securitate, cum ar fi SecBERT sau CySecBERT — sunt alegerea corectă pentru sarcinile de clasificare cu taxonomie fixă. Dat un document CTI și un set predefinit de etichete (ID-uri de tehnici ATT&CK, nume de familii de malware, grupuri de actori de amenințare), un encoder fine-tunat produce scoruri de clasificare pe spațiul de etichete în mai puțin de 500 de milisecunde pe hardware modest. Fine-tunarea pe corpusuri CTI etichetate cu 5.000 până la 20.000 de exemple atinge în mod obișnuit acuratețea gata de producție.
Constrângerea critică este că setul de etichete trebuie să fie fix și cunoscut în momentul antrenării. Modelele encoder nu pot generaliza la etichete nevăzute în timpul antrenării. Pentru clasificarea tehnicilor MITRE ATT&CK, aceasta nu este o limitare în practică: taxonomia tehnicilor ATT&CK este versionată, iar actualizările pot declanșa o rulare de fine-tuning țintită. Pentru clasificarea familiilor de malware, unde apar continuu familii noi, encoderul ar trebui combinat cu un mecanism de detectare out-of-distribution care direcționează candidații cu familie necunoscută către un analist în loc să forțeze o clasificare nearest-match.
Modele generative pentru îmbogățire
Modelele generative sunt alegerea corectă când ieșirea este deschisă sau necesită raționament pe contextul documentului. Extragerea câmpurilor IOC structurate dintr-un raport neformatat al unui actor de amenințare, sintetizarea unui rezumat narativ dintr-un set de înregistrări de evenimente structurate, inferarea geografiei victimei din indicii implicite în loc de nume explicite de țări — acestea sunt sarcini care necesită capabilități pe care clasificarea encoder nu le poate furniza.
Disciplina cheie la utilizarea modelelor generative într-un pipeline CTI este constrângerea formatului de ieșire. Un model generativ lăsat să producă ieșire text liber va introduce sinonimie și inconsistență care fac agregarea din aval nesigură. Soluția este prompting-ul cu ieșire structurată: modelul este instruit să producă un răspuns JSON conform unei scheme stricte, cu validarea schemei aplicată la recepție. Eșecurile de parsare a răspunsului declanșează o reîncercare automată cu instrucțiuni corective. Această disciplină convertește un sistem generativ probabilistic într-o sursă de date structurate fiabilă.
Îmbogățirea generativă este, de asemenea, locul potrivit pentru scorarea încrederii. Modelul este instruit să returneze un scor de încredere per-câmp între 0 și 1, reprezentând incertitudinea epistemică genuină dată de conținutul documentului sursă. Un mesaj care numește explicit o organizație victimă și o țară produce câmpuri de geografie și organizație cu încredere ridicată; un mesaj care implică un sector fără a numi o organizație produce o încredere mai scăzută. Aceste scoruri conduc deciziile de rutare din aval în pipeline.
Proiectarea pipeline-ului: de la IOC brut la maparea MITRE ATT&CK
Un pipeline CTI de clasificare în producție are cinci etape distincte, fiecare cu intrări, ieșiri și moduri de eșec specifice.
Etapa 1 — Ingestie și normalizare. Datele brute despre amenințări sosesc în formate eterogene: bundle-uri STIX 2.1 din fluxuri ISAC, exporturi de evenimente MISP, JSON din API-uri comerciale de informații despre amenințări și text nestructurat din surse OSINT. Etapa de ingestie normalizează toate intrările la un format intern canonic de document înainte de orice procesare LLM. Pentru intrările STIX și MISP, aceasta este în principal extracție de câmpuri. Pentru textul nestructurat, aceasta include detectarea limbii, normalizarea codificării și filtrarea lungimii minime (documentele sub aproximativ 50 de tokenuri conțin context insuficient pentru o clasificare fiabilă). Metadatele sursă — identificatorul fluxului, marca temporală de ingestie, scorul de încredere de la furnizorul upstream dacă există — sunt păstrate ca câmpuri de plic pe tot parcursul pipeline-ului.
Etapa 2 — Poarta de relevanță binară. Nu toate documentele ingerate sunt candidate pentru clasificarea LLM completă. Un clasificator binar ușor (un model encoder fine-tunat la 350M de parametri sau mai mic) rulează mai întâi pentru a filtra documentele care nu conțin conținut de amenințare operațional: rezumate de știri, buletine administrative, IOC-uri fals pozitive deja cunoscute ca curate. Această poartă reduce volumul de inferență LLM cu 60–80% în configurațiile tipice de flux, reducând direct costul per-zi. Poarta este calibrată pentru recall ridicat — ratarea unui document de amenințare genuine este mai costisitoare decât trimiterea unui document neoperațional la etapa LLM.
Etapa 3 — Clasificare și îmbogățire LLM. Documentele care trec poarta binară intră în etapa de clasificare. Un encoder fine-tunat atribuie ID-uri de tehnici ATT&CK și etichete de familii de malware. O trecere de îmbogățire generativă extrage câmpuri structurate: grup de actori de amenințare, organizație victimă, sector (dintr-o taxonomie fixă de opt categorii), geografie (ISO 3166-1 alpha-2), vector de atac și scoruri de încredere per-câmp. Cele două treceri pot rula concurent deoarece operează pe același document de intrare.
Etapa 4 — Maparea MITRE ATT&CK și rezoluția entităților. ID-urile de tehnici de la clasificator sunt mapate la obiecte ATT&CK cu îmbogățire completă: asocierea tacticii, aplicabilitatea platformei și referințe la îndrumări de detectare. Numele actorilor de amenințare și ale organizațiilor victimă sunt rezolvate față de indexul de entități existent utilizând potrivirea fuzzy a numelor și dezambiguizarea codurilor de țară. Aliasurile cunoscute sunt canonicalizate. Entitățile noi declanșează crearea de înregistrări provizorii pentru revizuire de analist în loc de inserție silențioasă.
Etapa 5 — Serializarea STIX 2.1 și ieșirea. Înregistrările îmbogățite sunt serializate ca bundle-uri STIX 2.1 — obiecte Threat Actor, Malware, Attack Pattern, Indicator și Relationship cu referințe externe corespunzătoare la ID-urile de tehnici ATT&CK. Bundle-urile sunt validate față de schema STIX 2.1 înainte de stocare sau export. Pentru integrarea MISP, aceleași înregistrări structurate se mapează la Evenimente MISP prin galaxia ATT&CK. Pentru integrarea SIEM, formatele CEF și JSON structurat sunt suportate pentru ingestia directă de alerte.
Date de antrenare pentru clasificarea TTP adversariale
Calitatea unui model de clasificare CTI este determinată în principal de calitatea și acoperirea datelor sale de antrenare. Trei surse oferă cele mai fiabile date etichetate pentru clasificarea tehnicilor ATT&CK.
Baza de cunoștințe MITRE ATT&CK este punctul de plecare canonic. Fiecare intrare de tehnică conține descrieri în proză, exemple de proceduri extrase din rapoarte ale actorilor de amenințare din lumea reală și îndrumări de detectare. Exemplele de proceduri — descrieri ale modului în care grupuri specifice de actori de amenințare au folosit o tehnică în operațiuni confirmate — sunt cel mai înalt semnal de antrenare deoarece captează tiparele de limbaj natural pe care analiștii le folosesc când descriu activitatea TTP. Corpusul ATT&CK este menținut sub control al versiunilor; fiecare lansare adaugă tehnici noi și le rafinează pe cele existente, deci pipeline-urile de fine-tuning ar trebui aliniate la versiuni specifice ATT&CK.
Exporturile de pulsuri AlienVault OTX furnizează date etichetate despre actorii de amenințare și familiile de malware la scară. Fiecare puls conține un titlu, o descriere și IOC-uri asociate etichetate cu actorul de amenințare sau familia de malware căreia submiterul le atribuie. Calitatea etichetelor variază în funcție de submiter; filtrarea la pulsuri de la organizații verificate îmbunătățește semnificativ semnalul de antrenare. Exporturile OTX în format STIX permit ingestia consistentă.
Pentru etichetarea TTP adversariale, rapoartele de informații ale furnizorilor (publicate sub termeni permisivi) conțin atribuiri de tehnici de înaltă calitate declarate explicit: „Grupul a folosit T1055.012 (Process Hollowing) pentru a se injecta în procese Windows legitime." Aceste declarații furnizează etichete directe la nivel de tehnică cu proză contextuală. Extragerea lor necesită o trecere de adnotare unică pentru a alinia textul raportului la ID-urile de tehnici ATT&CK, dar exemplele etichetate rezultate sunt printre cele mai fiabile disponibile pentru fine-tuning.
Strategia de etichetare pentru tehnicile rare necesită o atenție specială. ATT&CK conține peste 600 de tehnici și sub-tehnici, iar multe apar în mai puțin de 20 de exemple etichetate în orice corpus disponibil. Pentru aceste clase rare, augmentarea datelor (parafrazarea descrierilor exemplelor de proceduri) și prompting-ul few-shot cu un model generativ ca clasificator de rezervă sunt ambele abordări viabile. Pragul practic minim pentru o clasificare fiabilă fine-tunată este de aproximativ 80 de exemple etichetate per clasă; clasele sub acest prag ar trebui direcționate la un model generativ cu un prompt few-shot în loc de un encoder fine-tunat.
Metrici de evaluare într-un context SOC
Metricile standard de acuratețe induc în eroare atunci când sunt aplicate clasificării CTI deoarece distribuția etichetelor tehnicilor de amenințare este puternic dezechilibrată. Tehnicile precum T1566 (Phishing) și T1059 (Command and Scripting Interpreter) apar într-o mare parte a rapoartelor de incidente din lumea reală. Tehnicile rare, dar de mare valoare — T1195 (Supply Chain Compromise), T1600 (Weaken Encryption) — apar mult mai puțin frecvent. Un model care atinge 92% acuratețe globală concentrând performanța pe tehnicile comune, în timp ce eșuează la tehnicile rare de mare valoare, este inutil din punct de vedere operațional.
Metricile care contează pentru clasificarea CTI de producție sunt precizia și recall-ul per-tehnică, raportate separat pe toată taxonomia de tehnici. F1 mediat macro — media neponderată a F1 per-clasă pentru toate etichetele de tehnici — este metrica sumară care reprezintă cel mai bine performanța globală pe o distribuție dezechilibrată de etichete. Pentru un pipeline CTI care deservește un SOC, recall-ul la nivel de tehnică pentru clasele de monitorizare prioritară (tehnicile specifice relevante pentru actorii de amenințare care vizează sectorul și geografia ta) este cel mai important număr operațional. Ratarea a 20% din evenimentele T1055 la o organizație de apărare care monitorizează amenințări persistente avansate nu este un compromis acceptabil de precizie-recall, indiferent de scorul macro F1.
Costul fals pozitiv într-un context SOC este asimetric. Un fals pozitiv — un document clasificat ca conținând o tehnică ATT&CK specifică când nu conține — costă timp de analist pentru revizuirea unei înregistrări eronate. Costul este limitat și gestionabil. Un fals negativ — o tehnică ATT&CK genuină nesurfațată de clasificator — poate însemna că un TTP al unui actor de amenințare rămâne nedetectat până la producerea unui incident. Calibrarea pragurilor de încredere pentru a accepta rate mai ridicate de fals pozitiv în schimbul unor rate mai scăzute de fals negativ este punctul de operare corect pentru scenariile de monitorizare cu miză ridicată.
Integrare operațională: design în timp real, în lot și cu analist în buclă
Pipeline-urile de clasificare CTI operează în două moduri cu cerințe diferite de latență și debit. Clasificarea în timp real este necesară când sursa este un flux live — monitorizarea canalelor Telegram, abonamente la fluxuri de amenințări live, telemetrie de rețea activă. Pipeline-ul trebuie să clasifice fiecare document pe măsură ce sosește, cu latența end-to-end măsurată în secunde și nu minute. Aceasta constrânge selecția modelului: etapa de clasificare encoder trebuie să ruleze în mai puțin de 500 de milisecunde; etapa de îmbogățire generativă ar trebui să aibă în medie sub 15 secunde per document. Procesarea asincronă cu o coadă de mesaje între etape previne presiunea inversă de la etapa generativă să blocheze ingestia.
Clasificarea în lot este adecvată pentru analiza corpusurilor istorice — reclasificarea unei baze de date IOC existente față de o nouă versiune ATT&CK, îmbogățirea unei instanțe MISP moștenite cu câmpuri structurate sau procesarea unui export în vrac dintr-o platformă comercială de informații despre amenințări. Modul lot poate folosi modele mai mari și mai precise deoarece constrângerile de latență sunt relaxate și poate rula peste noapte fără a afecta capacitatea pipeline-ului în timp real.
Designul cu analist în buclă nu este opțional pentru sistemele de clasificare CTI de producție. Clasificatoarele LLM fac erori sistematice pe cazuri limită, tipare de limbaj ale actorilor de amenințare noi și conținut deliberat obfuscat. Fără un mecanism de corecție, aceste erori se acumulează în graful din aval și degradează calitatea produselor de informații în timp. Coada analistului — înregistrări direcționate pentru revizuire umană pe baza pragurilor de încredere — trebuie să includă o interfață de corecție inline care capturează editările la nivel de câmp ca date de antrenare etichetate. Corecțiile ar trebui să alimenteze o buclă de feedback de fine-tuning care rulează pe un program regulat, îmbunătățind continuu calibrarea modelului pe peisajul specific de amenințări monitorizat.
Configurarea pragului de încredere este controlul operațional principal. Pentru sectoarele de înaltă severitate (infrastructură critică, apărare), pragurile mai scăzute (0,60–0,70) maximizează recall-ul cu costul unui volum mai mare al cozii analistului. Pentru monitorizarea largă unde obiectivul principal este analiza tendințelor mai degrabă decât alertarea pentru evenimentele individuale, pragurile de 0,78–0,85 reduc volumul cozii la un nivel gestionabil. Pragurile ar trebui calibrate separat per câmp — încrederea geografică și încrederea tehnicii au profile de acuratețe diferite pe setul de evaluare al modelului — și revizuite trimestrial față de ratele de corecție ale analistului pentru a detecta deplasarea distribuției.
Pentru o privire mai aprofundată asupra modului în care platformele CTI integrează date structurate despre amenințări în medii cu mai multe surse, consultați ghidul nostru pentru arhitectura platformei CTI de nivel apărare.
Integrarea clasificării LLM cu pipeline-urile de monitorizare OSINT
Clasificarea LLM nu operează izolat. Într-un program CTI matur, este o etapă dintr-un pipeline mai mare care începe cu monitorizarea surselor și se termină cu produse de informații gata pentru analiști și alerte integrate SIEM. Punctele de integrare care necesită atenție specifică de inginerie sunt transferurile între etape.
Monitorizarea surselor OSINT — DNS pasiv, scanarea jurnalelor de transparență a certificatelor, indexarea forumurilor dark web și monitorizarea canalelor platformelor de mesagerie deschise — generează fluxul brut de documente care alimentează pipeline-ul de clasificare. Fiecare tip de sursă introduce probleme diferite de calitate a datelor. Datele DNS pasive sunt structurate dar de volum mare, cu multe înregistrări benigne. Conținutul forumurilor dark web este nestructurat, multilingv și necesită dezambiguizarea entităților pentru a separa actorii de amenințare genuini de impostori. Canalele platformelor de mesagerie deschise amestecă anunțuri de atac cu semnal ridicat cu zgomot, propagandă și dezinformare într-un raport care variază semnificativ în funcție de canal.
Etapa porții binare a pipeline-ului de clasificare este mecanismul principal pentru gestionarea zgomotului surselor. Un model de poartă fine-tunat pe exemple etichetate din fiecare tip de sursă va depăși semnificativ un clasificator generic de relevanță. Investiția în modele de poartă per-sursă este investiția de tuning cu cel mai mare ROI disponibilă într-un pipeline de clasificare CTI deoarece reduce direct costul de inferență LLM care domină cheltuielile operaționale per-zi.
Integrarea SIEM la capătul de ieșire al pipeline-ului necesită o mapare atentă a schemei. Majoritatea SIEM-urilor enterprise ingestează CEF (Common Event Format) sau JSON structurat peste syslog sau un webhook REST. Bundle-urile STIX 2.1 nu sunt ingerate nativ de majoritatea SIEM-urilor fără un strat de traducere. Abordarea practică este de a menține două fluxuri de ieșire din pipeline-ul de clasificare: un flux de bundle-uri STIX pentru ingestia platformei CTI și partajarea inter-organizațională și un flux de alerte native SIEM care mapează câmpurile cele mai relevante operațional (ID tehnica, actor, severitate, organizație afectată) la schema SIEM. Regulile de corelare din SIEM ar trebui să facă referire la ID-urile de tehnici ATT&CK ca cheie de join între alertele derivate CTI și evenimentele de telemetrie endpoint/rețea.
Maturitatea operațională a monitorizării amenințărilor bazate pe OSINT la organizațiile de apărare a crescut substanțial în ultimii trei ani, condusă în mare parte de accesibilitatea practică a procesării textului bazate pe LLM. Ceea ce necesita o echipă de analiști și o povară semnificativă de întreținere a regulilor acum doi ani poate fi acum abordat cu un pipeline de clasificare bine proiectat care rulează pe infrastructură modestă.
Corvus.Sense aplică clasificarea CTI bazată pe LLM pentru monitorizarea în timp real a canalelor Telegram și profilarea actorilor de amenințare — convertind informațiile open-source nestructurate în înregistrări structurate ale actorilor de amenințare, cronologii de tehnici mapate ATT&CK și produse de informații exportabile STIX. Dacă echipa ta gestionează CTI la scară și are nevoie de un strat de clasificare gata de producție, Corvus.Sense este construit pentru această problemă.
Explorează Corvus.Sense →