Mitä eroa on BERT-luokan ja GPT-luokan mallien käytöllä CTI-luokittelussa?

BERT-luokan enkooderimallit soveltuvat hyvin luokittelutehtäviin, joissa nimiavaruus on kiinteä ja tunnettu jo opetusaikana — esimerkiksi uhkaraportin liittämiseen MITRE ATT&CK -tekniikkaan tai haittaohjelmaperheen taksonomiaan. Ne ovat nopeita, kustannustehokkaita inferenssivaiheessa ja hienosäätyvät tehokkaasti muutaman tuhannen esimerkin merkityillä CTI-korpuksilla. GPT-luokan generatiiviset mallit loistavat rikastustehtävissä, joissa tuotos on avoin: raakojen IOC-raporttien tiivistämisessä, jäsenneltyjen kenttien poiminnassa muotoilemattomasta uhkatoimijatekstistä tai narratiivisten tiedusteluyhteenvetojen syntetisoinnissa jäsennellyistä graafitiedoista. Tuotanto-CTI-putkistoissa näitä kahta mallityyppiä käytetään eri vaiheissa toistensa kilpailijoina toimimisen sijaan: enkooderimallit luokittelevat, generatiiviset mallit rikastavat.

Miten luottamuskynnykset tulisi asettaa CTI-luokitteluun SOC-ympäristössä?

Luottamuskynnyksen valinta on tarkkuuden ja palautuskyvyn välinen kompromissi, jossa kustannukset ovat epäsymmetriset SOC-ympäristössä. Väärä negatiivinen — aito uhkatapahtuma, jota ei ohjata analyytikon nähtäväksi — voi aiheuttaa vakavia seurauksia, jos se koskee kriittistä infrastruktuuria tai edistynyttä pysyvää uhkaryhmää. Väärä positiivinen — väärin luokiteltu tapahtuma, joka päätyy analyytikon jonoon — kuluttaa analyytikon aikaa mutta ei aiheuta vahinkoa. Korkean vakavuuden sektoreilla (kriittinen infrastruktuuri, puolustus, energia) kynnykset tulisi asettaa matalammiksi (0,60–0,70) palautuskyvyn priorisoimiseksi, ja lisääntynyt analyytikon tarkistuskuorma hyväksytään siitä aiheutuvana kustannuksena. Laajemmassa seurannassa kynnykset 0,75–0,85 vähentävät jonon volyymia. Kynnys tulisi kalibroida omaa uhkaympäristöä vastaavaa pidätettyä merkittyä aineistoa vastaan, eikä siirtää suoraan yleisestä viitearvosta.

Mitkä opetusaineistolähteet ovat tehokkaimpia LLM-mallien hienosäätöön CTI-luokittelussa?

MITRE ATT&CK -tietokanta tarjoaa luotettavimman merkityn aineiston tekniikkatason luokitteluun: kukin tekniikkamerkintä sisältää yksityiskohtaiset kuvaukset, todellisista uhkatoimijaraporteista poimitut menettelytapaesimerkit sekä havaitsemisohjeistuksen, jotka voivat toimia positiivisina esimerkkeinä. AlienVault OTX -pulssivienti tarjoaa merkittyä uhkatoimija- ja haittaohjelmaperhettä skaalautuvasti. VirusTotal Intelligence -raportit tarjoavat tiedosto- ja verkkotason IOC-kontekstia. Vastustajan TTP-merkinnän osalta myöntyvien ehtojen alaisina julkaistut tietoturvamyyjien tiedustelurapportit sisältävät korkealaatuisia tekniikkaattribuutioita, mutta vaativat entiteettinormalisoinnin ennen käyttöä opetusmerkintöinä. Kriittinen laadunvarmistusaskel on varmistaa merkintöjen johdonmukaisuus eri lähteissä — samalla tekniikalla tulee olla sama ATT&CK-tunnus riippumatta lähdedokumentin terminologiasta.

Miten LLM-pohjaiset CTI-putkistot käsittelevät STIX 2.1- ja MISP-tulostusmuotoja?

LLM-luokittelu tuottaa jäsenneltyjä JSON-tietueita poimittuine kenttineen (uhkatoimija, haittaohjelmaryhmä, tekniikkatunnukset, IOC-arvot, luottamuspisteet). Nämä tietueet muunnetaan STIX 2.1 -objekteiksi luokittelun jälkeisessä serialisointivaiheessa: uhkatoimijoista tulee STIX Threat Actor -objekteja, haittaohjelmaryhmistä Malware-objekteja, tekniikat yhdistetään Attack Pattern -objekteihin ATT&CK-ulkoisilla viittauksilla ja niiden väliset suhteet ilmaistaan STIX Relationship -objekteina. Koko kokonaisuus pakataan STIX Bundle -muotoon vientiä tai TAXII-jakamista varten. MISP-integraatiossa samat jäsennellyt tietueet yhdistetään MISP-tapahtumiin attribuutteineen ja objekteineen; MISP ATT&CK -galaksit tarjoavat tekniikan taksonomiayhdistyksen. Molemmat serialisointikerrokset tulisi toteuttaa erillisinä jälkikäsittelymoduuleina LLM-luokitteluvaiheen jälkeen, eikä sisällyttää luokittelupromptiin, jotta muotojen päivitykset eivät edellytä uudelleenkoulutusta.

LLM-uhkaluokittelu CTI-putkistoille

Q: Mitä arviointimittareita CTI-luokittelumalleille tulisi käyttää kokonaistarkkuuden lisäksi?

Kokonaistarkkuus on harhaanjohtava mittari CTI-luokittelussa, koska uhkamerkintäjakaumat ovat voimakkaasti epätasapainossa — yleiset tekniikat kuten T1566 (Phishing) esiintyvät huomattavasti useammin kuin harvinaiset mutta arvokkaat tekniikat. Tekniikkakohtainen tarkkuus ja palautuskyky, erikseen raportoituina, antavat tarkemman kuvan mallin suorituskyvystä koko merkintäavaruudessa. Makrokeskiarvoinen F1 — kaikkien tekniikkaluokkien painottamaton F1-keskiarvo — on yhteenvetomittari, joka parhaiten kuvaa kokonaissuorituskykyä epätasapainoisella merkintäjakaumalla. CTI-putkistossa, joka palvelee SOC:ia, tärkein yksittäinen operatiivinen luku on palautuskyky tekniikkatasolla prioriteettiseurantaluokissa — malli, joka jättää havaitsematta 20 % T1055-tapahtumista, on operatiivisesti kelvoton riippumatta kokonaistarkkuuspisteytyksestä.

Kyberuhkatiedustelutiimit kohtaavat kasvavan tietomäärän ongelman. Raakadatan volyymi — IOC-syötteet ISAC-verkostoista, OSINT liittämissivustoilta ja Telegram-kanavilta, dark web -foorumiviennit, myyjien tiedustelurapportit — on kasvanut nopeammin kuin analyytikkovahvuus jokaisessa organisaatiossa, joka suhtautuu CTI:hin vakavasti. Tuloksena on ruuhka: uhkatietoa, joka saapuu ajoissa toimintakelpoiseksi mutta jota ei luokitella, rikasteta tai korreloida ennen kuin toimintaikkuna sulkeutuu. Manuaalinen luokittelu skaalassa ei ole työnkulkuongelma. Se on rakenteellinen ongelma, jota ei voi ratkaista palkkaamalla lisää analyytikkoja.

Suuret kielimallit tarjoavat aidon ratkaisun — ei analyytikon harkinnan korvaajana, vaan luokittelu- ja rikastuskerroksena, joka muuntaa jäsentämätöntä uhkatietoa jäsennellyiksi tietueiksi konenopeudella. Tässä artikkelissa käsitellään arkkitehtuuripäätöksiä, jotka ovat oleellisia LLM-mallien integroinnissa CTI-putkistoon: mitä malliluokkaa käytetään mihinkin tehtävään, miten ingestointiprosessista tulosteeseen ulottuva putkisto rakennetaan STIX 2.1- ja MITRE ATT&CK -viitekehyksillä, millainen opetusaineisto tuottaa luotettavia tekniikkatason luokittelijoita, miten suorituskykyä arvioidaan SOC-kontekstissa ja miten analyytikon silmukkaohjauksen kontrollit suunnitellaan pitämään järjestelmä luotettavana vastustuksellisissa olosuhteissa.

Miksi manuaalinen CTI-luokittelu ei skaalaudu

Skaalautumisongelma on sekä määrällinen että laadullinen. Määrällisesti: keskikokoinen puolustusorganisaatio, joka seuraa realistista joukkoa uhkasyötteitä — kaksi tai kolme ISAC-syötettä, AlienVault OTX, useita MISP-yhteisöpalvelimia sekä passiivinen DNS- ja varmenteen läpinäkyvyyslokien rikastus — vastaanottaa kymmeniä tuhansia raakaindikaattoreita päivittäin. Jokaisen IOC:n luokittelu uhkatoimijan, haittaohjelmaperheen ja asiaankuuluvan ATT&CK-tekniikan mukaan manuaalisesti mitataan analyytikkotunteina päivässä, mitä useimmilla CTI-tiimeillä ei ole.

Laadullinen ongelma on lähteiden heterogeenisuus. ISAC-verkostot toimittavat jäsenneltyjä STIX-paketteja suhteellisen selkein merkinnöin. OSINT-syötteet toimittavat jäsentämätöntä proosaa: blogikirjoituksia, foorumiketjuja, Telegram-kanavavientejä. Dark web -aineisto saapuu muodoissa, jotka vaativat merkittävää esikäsittelyä ennen kuin luokitteluyritys on mielekäs. Jokainen lähde edellyttää erilaista poimintamenetelmää, ja luotettavien sääntöpohjaisten poimijoiden ylläpitäminen niiden kaikissa — samaan aikaan kun pysytään mukana siinä tavassa, jolla uhkatoimijat tarkoituksellisesti vaihtelevat kieltään havaitsemisen välttämiseksi — on ylläpitotaakka, joka kasvaa ajan myötä.

Analyytikkojen loppuunpalaminen on tämän seuraamus. Kun luokittelujono on pysyvästi syvä, analyytikot lopettavat yksittäisten tietueiden tarkastelun ja alkavat käsitellä vain korkeimman vakavuuden esisuodatettuja kohteita. Tuloksena on järjestelmällisiä katvealueita uhkakuvassa — ei siksi, että tietoa ei olisi kerätty, vaan koska sitä ei ole koskaan luokiteltu ja korreloitu. LLM-luokittelukerros ei poista analyytikon harkinnan tarvetta; se poistaa sen osan työnkulusta, jossa analyytikot tekevät työtä, joka voidaan automatisoida luotettavasti.

LLM-arkkitehtuuri CTI:lle: enkooderi- vs. generatiiviset mallit

Tärkein arkkitehtuurivalinta CTI LLM -putkistossa on se, mitä malliluokkaa käytetään missäkin vaiheessa. Enkooderimalleilla (BERT-luokka) ja generatiivisilla malleilla (GPT-luokka) on perustavanlaatuisesti erilaiset vahvuudet, ja väärän luokan käyttäminen tehtävään tuottaa joko heikkoa tarkkuutta tai tarpeetonta kustannusta.

Enkooderimallit luokittelua varten

BERT-luokan enkooderimallit — erityisesti verkkotunnukseen sovitetut variantit, jotka on hienosäädetty tieturvatekstillä, kuten SecBERT tai CySecBERT — ovat oikea valinta kiinteän taksonomian luokittelutehtäviin. Annetun CTI-dokumentin ja ennalta määritellyn nimiavaruuden (ATT&CK-tekniikkatunnukset, haittaohjelmaperheen nimet, uhkatoimijaryhmät) perusteella hienosäädetty enkooderi tuottaa luokittelupisteet nimiavaruuden yli alle 500 millisekunnissa vaatimattomalla laitteistolla. Hienosäätö 5 000–20 000 esimerkin merkityillä CTI-korpuksilla saavuttaa tyypillisesti tuotantovalmiin tarkkuuden.

Kriittinen rajoite on, että nimiavaruuden on oltava kiinteä ja tunnettu opetusaikana. Enkooderimallit eivät pysty yleistämään opetuksen aikana näkemättömiin merkintöihin. MITRE ATT&CK -tekniikkaluokittelussa tämä ei käytännössä ole rajoite: ATT&CK-tekniikkataksonomiaa hallitaan versionhallinnassa, ja päivitykset voivat käynnistää kohdistetun hienosäätöajon. Haittaohjelmaperheen luokittelussa, jossa uusia perheitä ilmaantuu jatkuvasti, enkooderimallia tulisi täydentää jakauman ulkopuolisella tunnistusmekanismilla, joka ohjaa tuntemattoman perheen ehdokkaat analyytikkolle sen sijaan, että pakottaa lähimmän vastaavuuden luokittelun.

Generatiiviset mallit rikastusta varten

Generatiiviset mallit ovat oikea valinta, kun tuotos on avoin tai vaatii päättelyä dokumentin kontekstin yli. Jäsenneltyjen IOC-kenttien poiminta muotoilemattomasta uhkatoimijaraportista, narratiivisen yhteenvedon syntetisointi jäsenneltyjen tapahtumatietueiden joukosta, uhrikohteen maantieteen päätteleminen implisiittisistä vihjeistä selkeiden maaninimien sijaan — nämä tehtävät vaativat ominaisuuksia, joita enkooderiluokittelu ei voi tarjota.

Keskeinen kurinalaisuus generatiivisia malleja CTI-putkistossa käytettäessä on tulostusmuodon rajoittaminen. Generatiivinen malli, jolle annetaan lupa tuottaa vapaamuotoista tekstiä, tuo mukanaan synonymiaa ja epäjohdonmukaisuutta, joka tekee myöhemmästä aggregoinnista epäluotettavaa. Ratkaisu on jäsennellyn tulosteen promptaus: mallia ohjataan tuottamaan JSON-vastaus tiukan skeeman mukaisesti, ja skeeman validointi suoritetaan vastaanotossa. Vastauksen jäsentelyvirheet käynnistävät automaattisen uudelleenyrityksen korjaavilla ohjeilla. Tämä kurinalaisuus muuntaa probabilistisen generatiivisen järjestelmän luotettavaksi jäsennellyn datan lähteeksi.

Generatiivinen rikastus on myös oikea paikka luottamuspisteytyksen toteuttamiselle. Mallia ohjataan palauttamaan kenttäkohtainen luottamuspistemäärä välillä 0–1, joka kuvaa aitoa episteemistä epävarmuutta lähdedokumentin sisällön perusteella. Viesti, jossa uhrikohteen organisaatio ja maa nimetään selkeästi, tuottaa korkean luottamustason maantiede- ja organisaatiokentille; viesti, joka vihjaa sektoriin nimeämättä organisaatiota, tuottaa matalamman luottamustason. Nämä pisteet ohjaavat myöhempiä reitityspäätöksiä putkistossa.

Putkiston suunnittelu: raaosta IOC:sta MITRE ATT&CK -yhdistämiseen

Tuotanto-CTI-luokitteluputkistossa on viisi erillistä vaihetta, joilla kullakin on omat syötteensä, tulosteensa ja vikatilanteensa.

Vaihe 1 — Ingestointi ja normalisointi. Raaka uhkatieto saapuu heterogeenisissä muodoissa: STIX 2.1 -paketit ISAC-syötteistä, MISP-tapahtumavienti, JSON kaupallisista uhkatiedon API:ista ja jäsentämätön teksti OSINT-lähteistä. Ingestointivaihe normalisoi kaikki syötteet kanoniseen sisäiseen dokumenttimuotoon ennen LLM-käsittelyä. STIX- ja MISP-syötteissä tämä on pääasiassa kenttien poimintaa. Jäsentämättömässä tekstissä tämä sisältää kielen tunnistamisen, koodausnormalisoinnin ja minimipituuden suodatuksen (alle noin 50 tokenin dokumentit kantavat liian vähän kontekstia luotettavalle luokittelulle). Lähdemetatiedot — syötetunniste, ingestointiaika-leima, ylävirran tuottajan luottamuspistemäärä tarvittaessa — säilytetään kirjekuorikentinä koko putkiston ajan.

Vaihe 2 — Binäärinen relevanssiportti. Kaikki ingestoitavat dokumentit eivät ole täyden LLM-luokittelun ehdokkaita. Kevyt binäärinen luokittelija (hienosäädetty enkooderimallia 350M parametrilla tai pienempi) ajaa ensimmäisenä suodattaakseen pois dokumentit, joissa ei ole operatiivista uhkasisältöä: uutistiivistelmät, hallinnolliset tiedotteet, jo tunnetuiksi puhtaiksi merkityt väärät positiiviset IOC:t. Tämä portti vähentää LLM-inferenssivolyymia 60–80 % tyypillisissä syötekokoonpanoissa ja pienentää suoraan päiväkohtaista kustannusta. Portti kalibroidaan korkean palautuskyvyn mukaan — aidon uhkadokumentin ohittaminen on kalliimpaa kuin ei-operatiivisen dokumentin lähettäminen LLM-vaiheeseen.

Vaihe 3 — LLM-luokittelu ja rikastus. Binäärisen portin läpäisseet dokumentit siirtyvät luokitteluvaiheeseen. Hienosäädetty enkooderi liittää ATT&CK-tekniikkatunnukset ja haittaohjelmaperhemerkinnät. Generatiivinen rikastusajos poimii jäsennellyn kentät: uhkatoimijaryhmän, uhrikohteen organisaation, sektorin (kiinteästä kahdeksanluokkaisesta taksonomiasta), maantieteen (ISO 3166-1 alpha-2), hyökkäysvektorin ja kenttäkohtaiset luottamuspisteet. Kaksi ajoa voidaan suorittaa samanaikaisesti, koska ne toimivat samalla syötedokumentilla.

Vaihe 4 — MITRE ATT&CK -yhdistäminen ja entiteetin ratkaisu. Luokittelijan tekniikkatunnukset yhdistetään ATT&CK-objekteihin täysin rikastettuina: taktikkayhdistys, alustan soveltuvuus ja havaitsemisohjeiden viittaukset. Uhkatoimija- ja uhrikohteen organisaationimet ratkaistaan olemassa olevan entiteetti-indeksin perusteella epätarkalla nimimatching-menetelmällä ja maakoodien poistamisella. Tunnetut aliakset kanonisoidaan. Uudet entiteetit käynnistävät väliaikaisen tietueen luonnin analyytikon tarkistusta varten hiljaisena lisäyksenä sen sijaan.

Vaihe 5 — STIX 2.1 -serialisointi ja tulostus. Rikastetut tietueet serialisoidaan STIX 2.1 Bundle -muotoon — Threat Actor-, Malware-, Attack Pattern-, Indicator- ja Relationship-objektit asianmukaisilla ulkoisilla viittauksilla ATT&CK-tekniikkatunnuksiin. Paketit validoidaan STIX 2.1 -skeemaa vasten ennen tallennusta tai vientiä. MISP-integraatiossa samat jäsennellyt tietueet yhdistetään MISP-tapahtumiin ATT&CK-galaksin kautta. SIEM-integraatiossa CEF- ja jäsennelty JSON-muoto tukevat suoraa hälytyksen ingestointia.

Opetusaineisto vastustuksellista TTP-luokittelua varten

CTI-luokittelumallin laatu määräytyy ensisijaisesti sen opetusaineiston laadun ja kattavuuden perusteella. Kolme lähdettä tarjoaa luotettavimman merkityn aineiston ATT&CK-tekniikkaluokitteluun.

MITRE ATT&CK -tietokanta on kanoninen lähtökohta. Kukin tekniikkamerkintä sisältää kuvaukset, todellisista uhkatoimijaraporteista peräisin olevat menettelytapaesimerkit ja havaitsemisohjeistuksen. Menettelytapaesimerkit — kuvaukset siitä, miten tietyt uhkatoimijaryhmät ovat käyttäneet tekniikkaa vahvistetuissa operaatioissa — ovat laadukkaimpia opetussignaaleja, koska ne tallentavat ne luonnollisen kielen kaavat, joita analyytikot käyttävät kuvaillessaan TTP-toimintaa. ATT&CK-korpusta ylläpidetään versionhallinnassa; jokainen julkaisu lisää uusia tekniikoita ja tarkentaa olemassa olevia, joten hienosäätöputkistot tulee kohdistaa tiettyihin ATT&CK-versioihin.

AlienVault OTX -pulssiviennit tarjoavat merkittyä uhkatoimija- ja haittaohjelmaperhettä skaalautuvasti. Jokainen pulssi sisältää otsikon, kuvauksen ja liittyvät IOC:t, jotka on merkitty uhkatoimijalle tai haittaohjelmaryhmälle, johon lähettäjä ne liittää. Merkintöjen laatu vaihtelee lähettäjittäin; suodattaminen vahvistettujen organisaatioiden pulsseihin parantaa merkittävästi opetussignaalia. OTX-viennit STIX-muodossa mahdollistavat yhtenäisen ingestoinnin.

Vastustajan TTP-merkinnän osalta myöntyvien ehtojen alaisina julkaistut myyjien tiedustelurapportit sisältävät korkealaatuisia tekniikkaattribuutioita selkeästi ilmaistuna: "Ryhmä käytti T1055.012:ta (Process Hollowing) ruiskuttaakseen laillisiin Windows-prosesseihin." Nämä lausumat tarjoavat suoria tekniikkatason merkintöjä kontekstuaalisella proosalla. Niiden poiminta vaatii kertaluonteisen annotaatioajon raporttitekstin liittämiseksi ATT&CK-tekniikkatunnuksiin, mutta tuloksena syntyvät merkityt esimerkit ovat luotettavimpia saatavilla olevia hienosäätöä varten.

Harvinaisten tekniikoiden merkintästrategia vaatii erityistä huomiota. ATT&CK sisältää yli 600 tekniikkaa ja alitekniikkaa, ja monet esiintyvät harvemmissa kuin 20 merkityssä esimerkissä missä tahansa saatavilla olevassa korpuksessa. Näille harvinaisille luokille tietojen augmentointi (menettelytapaesimerkkikuvausten parafrasointi) ja generatiivisen mallin few-shot-promptaus varaluokittelijana ovat molemmat toimivia lähestymistapoja. Käytännöllinen alaraja luotettavalle hienosäädetylle luokittelulle on noin 80 merkittyä esimerkkiä luokkaa kohden; tämän kynnyksen alittavat luokat tulisi ohjata generatiiviselle mallille few-shot-promptilla hienosäädetyn enkooderin sijaan.

Arviointimittarit SOC-kontekstissa

Vakiomittarit johtavat harhaan CTI-luokittelussa, koska uhkamerkintäjakauma on voimakkaasti epätasapainossa. Tekniikat kuten T1566 (Phishing) ja T1059 (Command and Scripting Interpreter) esiintyvät suuressa osassa todellisia tapausraportteja. Harvinaiset mutta arvokkaat tekniikat — T1195 (Supply Chain Compromise), T1600 (Weaken Encryption) — esiintyvät huomattavasti harvemmin. Malli, joka saavuttaa 92 % kokonaistarkkuuden keskittämällä suorituskykynsä yleisiin tekniikoihin samalla kun se epäonnistuu harvinaisissa, arvokkaiksi luokitelluissa tekniikoissa, on operatiivisesti hyödytön.

Mittarit, joilla on merkitystä tuotanto-CTI-luokittelussa, ovat tekniikkakohtainen tarkkuus ja palautuskyky, erikseen raportoituina koko tekniikkataksonomian yli. Makrokeskiarvoinen F1 — kaikkien tekniikkaluokkien painottamaton F1-keskiarvo — on yhteenvetomittari, joka parhaiten kuvaa kokonaissuorituskykyä epätasapainoisella merkintäjakaumalla. CTI-putkistossa, joka palvelee SOC:ia, tärkein yksittäinen operatiivinen luku on palautuskyky tekniikkatasolla prioriteettiseurantaluokissa (ne tekniikat, jotka ovat oleellisia sinun sektoriasi ja maantieteesi kohdentaville uhkatoimijoille). 20 %:n T1055-tapahtumien ohittaminen puolustusorganisaatiossa, joka seuraa edistyneitä pysyviä uhkia, ei ole hyväksyttävä tarkkuus-palautuskykykompromi, riippumatta siitä, miltä makro-F1-pistemäärä näyttää.

Väärän positiivisen kustannus SOC-kontekstissa on epäsymmetrinen. Väärä positiivinen — dokumentti, joka luokitellaan sisältävän tietyn ATT&CK-tekniikan, vaikka se ei sisällä — kuluttaa analyytikon aikaa turhaan tietueeseen. Kustannus on rajattu ja hallittavissa. Väärä negatiivinen — aito ATT&CK-tekniikka, jota luokittelija ei nosta esiin — voi tarkoittaa, että uhkatoimijan TTP jää havaitsematta kunnes tapaus sattuu. Luottamuskynnyksen kalibrointi hyväksymään korkeammat väärän positiivisen asteet vastineena matalammille väärän negatiivisen asteille on oikea toimintapiste korkean panoksen seurantaskenaarioissa.

Operatiivinen integraatio: reaaliaikainen, erä- ja analyytikon silmukkasuunnittelu

CTI-luokitteluputkistot toimivat kahdessa tilassa, joilla on erilaiset latenssit ja suorituskykyvaatimukset. Reaaliaikainen luokittelu on tarpeen, kun lähde on live-virta — Telegram-kanavan seuranta, live-uhkasyötteiden tilaukset, aktiivinen verkkotilastointi. Putkiston on luokiteltava jokainen dokumentti sen saapuessa, ja kokonaislatenssin on oltava sekunteissa eikä minuuteissa. Tämä rajoittaa mallin valintaa: enkooderiluokitteluvaiheen on ajettava alle 500 millisekunnissa; generatiivisen rikastusvaiheen tulisi keskimäärin alle 15 sekuntia dokumenttia kohden. Asynkroninen käsittely viestijonolla vaiheiden välillä estää vastapaineesta johtuvan ingestoinnin estymisen generatiivisen vaiheen vuoksi.

Eräluokittelu soveltuu historiallisen korpuksen analysointiin — olemassa olevan IOC-tietokannan uudelleenluokitteluun uutta ATT&CK-versiota vasten, vanhentuneen MISP-instanssin rikastamiseen jäsennellyillä kentillä tai kaupallisen uhkatietoalustan bulkiviennin käsittelyyn. Eräajossa voidaan käyttää suurempia, tarkempia malleja, koska latenssirajoitteet ovat löysemmät, ja se voidaan ajaa yön yli ilman, että se vaikuttaa reaaliaikaisen putkiston kapasiteettiin.

Analyytikon silmukkasuunnittelu ei ole valinnainen tuotanto-CTI-luokittelujärjestelmissä. LLM-luokittelijat tekevät järjestelmällisiä virheitä reunatapauksissa, uusissa uhkatoimijoiden kielikaavoissa ja tarkoituksellisesti hämärretyssä sisällössä. Ilman korjausmekanismia nämä virheet kertyvät myöhempään graafiin ja heikentävät tiedustelutuotteiden laadun ajan myötä. Analyytikon jono — luottamuskynnysarvoihin perustuvat ihmisen tarkistukseen ohjatut tietueet — on sisällyttävä inline-korjausrajapintaan, joka tallentaa kenttätason muokkaukset merkittynä opetusaineistona. Korjaukset tulisi syöttää hienosäätöpalautesilmukkaan, joka ajaa säännöllisellä aikataululla ja parantaa jatkuvasti mallin kalibrointia seurattavaan uhkaympäristöön.

Luottamuskynnyksen konfigurointi on ensisijainen operatiivinen ohjauskeino. Korkean vakavuuden sektoreilla (kriittinen infrastruktuuri, puolustus) matalammat kynnykset (0,60–0,70) maksimoivat palautuskyvyn analyytikon jonon korkeamman volyymin kustannuksella. Laajemmassa seurannassa, jossa ensisijainen tavoite on trendianalyysi yksittäisten tapahtumahelytysistojen sijaan, kynnykset 0,78–0,85 vähentävät jononvolyymin hallittavalle tasolle. Kynnykset tulisi kalibroida erikseen kenttää kohden — maantieteen luottamus ja tekniikan luottamus ovat erilaiset tarkkuusprofiilit mallin evaluointiaineistossa — ja tarkistaa neljännesvuosittain analyytikkojen korjausasteita vasten jakaumasiirtymän havaitsemiseksi.

Syvemmän katsauksen saamiseksi siihen, miten CTI-alustat integroivat jäsenneltyä uhkatietoa monilähdeympäristöissä, katso oppaamme puolustusluokan CTI-alustan arkkitehtuurista.

LLM-luokittelun integrointi OSINT-seurantaputkistoihin

LLM-luokittelu ei toimi eristyksissä. Kypsässä CTI-ohjelmassa se on yksi vaihe laajemmassa putkistossa, joka alkaa lähteen seurannasta ja päättyy analyytikkovalmisteltaviin tiedustelutuotteisiin ja SIEM-integroituihin hälytyksiin. Integraatiopisteet, jotka vaativat erityistä teknistä huomiota, ovat siirtymät vaiheiden välillä.

OSINT-lähteen seuranta — passiivinen DNS, varmenteen läpinäkyvyyslokien skannaus, dark web -foorumien indeksointi ja avointen viestintäalustojen kanavien seuranta — tuottaa raakaasiakirjavirran, joka syöttää luokitteluputkistoa. Jokainen lähdetyyppi tuo mukanaan erilaisia tietolaatuhaasteita. Passiivinen DNS-data on jäsenneltyä mutta suurivolyymistä, sisältäen monia harmittomia tietueita. Dark web -foorumiensisältö on jäsentämätöntä, monikielistä ja vaatii entiteetin poistamista erottaakseen aidot uhkatoimijat esiintyjistä. Avointen viestintäalustojen kanavat sekoittavat korkean signaalin hyökkäysilmoituksia meluun, propagandaan ja disinformaatioon suhteessa, joka vaihtelee merkittävästi kanavan mukaan.

Luokitteluputkiston binäärinen porttivaihe on ensisijainen mekanismi lähteen melun käsittelyyn. Jokaiselle lähdetyypille merkityillä esimerkeillä hienosäädetty porttimalli suoriutuu huomattavasti paremmin kuin yleinen relevanssimalli. Lähdekohtaisiin porttimalleihin investoiminen on korkein ROI:n säätöinvestointi CTI-luokitteluputkistossa, koska se vähentää suoraan LLM-inferenssikustannuksia, jotka hallitsevat päiväkohtaisia käyttökustannuksia.

SIEM-integraatio putkiston tulostuspäässä vaatii huolellista skeemasovitusta. Useimmat yritystason SIEM:t ingestoivat CEF:ää (Common Event Format) tai jäsenneltyä JSON:ia syslogin tai REST-webhookin kautta. STIX 2.1 -paketteja ei natiivisti ingesta useimmissa SIEM:ssä ilman käännöskerrosta. Käytännöllinen lähestymistapa on ylläpitää kahta tulostevirtaa luokitteluputkistosta: STIX Bundle -virta CTI-alustan ingestointia ja organisaatioiden välistä jakamista varten ja SIEM-natiivi hälytysvirtaa, joka yhdistää operatiivisimmat kentät (tekniikkatunnus, toimija, vakavuus, kohdeorganisaatio) SIEM-skeemaan. SIEM:n korrelaatiosäännöt tulisi viitata ATT&CK-tekniikkatunnuksiin liittymisavaimena CTI-johdettujen hälytysten ja päätelaite-/verkkotilastoitujen tapahtumien välillä.

Puolustusorganisaatioiden OSINT-pohjaisen uhkaseurannan operatiivinen kypsyys on kasvanut merkittävästi viimeisten kolmen vuoden aikana, pääasiassa LLM-pohjaisen tekstinkäsittelyn käytännöllisen saavutettavuuden vuoksi. Kaksi vuotta sitten analyytikkotiimin ja merkittävän sääntöjenhoidon taakkaa vaatinut tehtävä voidaan nyt toteuttaa hyvin suunnitellulla luokitteluputkistolla vaatimattomalla infrastruktuurilla.

Corvus.Sense soveltaa LLM-pohjaista CTI-luokittelua Telegram-kanavien reaaliaikaiseen seurantaan ja uhkatoimijaprofilointiin — muuntaen jäsentämätöntä avoimen lähdekoodin tiedustelua jäsennellyiksi uhkatoimijatietueiksi, ATT&CK-kartoitetuiksi tekniikka-aikajanaksi ja STIX-vietäväksi tiedustelutuotteiksi. Jos tiimisi hallinnoi CTI:tä skaalassa ja tarvitsee tuotantovalmista luokittelukerrosta, Corvus.Sense on rakennettu juuri tähän ongelmaan.

Tutustu Corvus.Sense-ratkaisuun →

LLM-pohjainen uhkaluokittelu kyberuhkatiedusteluun