Puolustuksen tiedusteluorganisaatiot ovat keränneet dataa vuosikymmenien ajan — SIGINT-sieppauksia, GEOINT-tuotteita, HUMINT-raportteja, OSINT-aggregaatteja — ja ovat johdonmukaisesti epäonnistuneet muuntamaan tämän kertymän joksikin, jota analyytikot voivat käytännössä hyödyntää. Ongelma on harvoin keräämisessä. Se on integraatiossa. Ja integraatio-ongelman organisatorinen syy on lähes aina sama: kukaan ei omista dataa. Keskitetty datainsinöörointitiimi, joka omistaa putkistot, ei omaa toimialuetietämystä niiden pitämiseksi oikeina. SIGINT-solu, jolla on toimialuetietämys, ei omaa infrastruktuuria tietojensa julkaisemiseksi muiden tiimien kulutettavaksi.

Data mesh on arkkitehtoninen ja organisatorinen malli, joka puuttuu suoraan tähän perussyyhyn. Zhamak Dehghanin kehittämä ja vuonna 2019 ensimmäisen kerran kuvattu malli muotoilee dataongelman uudelleen ei teknologisena vaan omistajuushaasteena. Vastaus ei ole parempi keskitetty data-alusta — se on federoitu malli, jossa dataa tuottavat tiimit ovat myös vastuussa sen julkaisemisesta kulutettavana tuotteena.

Mitä data mesh on — ja mitä se ei ole

Data mesh perustuu neljään periaatteeseen. Ensimmäinen on toimialueen omistajuus: dataa tuottava tiimi on vastuussa sen saatavuudesta kuluttajille. Toinen on data tuotteena: dataa käsitellään samalla insinöörillisellä tarkkuudella kuin ohjelmistoa. Kolmas on omatoiminen infrastruktuuri: keskitetty alustatiimi tarjoaa työkalut, joita toimialueryhmät tarvitsevat datatuotteiden julkaisemiseen ja kuluttamiseen. Neljäs on federoitu hallinto: yhteentoimivuusstandardit asettaa toimialueenvälinen hallintoeliäin, mutta niiden valvonta on automatisoitu alustan kautta.

Kontrasti data lakeen on havainnollinen. Kun SIGINT-keräysjärjestelmä muuttaa lähtöskeemaansa, keskustiimin putki katkeaa, eikä kukaan huomaa sitä ennen kuin analyytikko raportoi vanhentuneesta datasta kolmen viikon kuluttua. Data meshissä SIGINT-toimialuetiimi omistaa putken ja skeamasopimuksen.

Miksi keskitetyt arkkitehtuurit epäonnistuvat puolustuksen tiedustelussa

Data meshin ratkaisemia ongelmia esiintyy akuutisti puolustuksen tiedustelussa, koska näillä organisaatioilla on piirteitä, jotka tekevät keskitetyistä data-arkkitehtuureista erityisen hauraita: salausluokkaesteet, organisatoriset siilot (HUMINT, SIGINT, GEOINT, OSINT — kukin omalla kulttuurillaan), monoliittisten ETL-putkien hauraus ja omistajuusriidat, jotka data mesh ratkaisee eksplisiittisellä ja sopimusperustaisella omistajuuden osoittamisella.

Toimialueen omistajuus tiedustelukontekstissa

Puolustuksen data meshissä toimialueet vastaavat luonnollisesti INT-aloihin: HUMINT, SIGINT, GEOINT, MASINT ja OSINT muodostavat kukin erillisen toimialueen. Jokainen toimialuetiimi omistaa mesh-verkossa julkaisemansa datatuotteet: skeamasopimuksen määrittely, syöttöputkien ylläpito, SLA-sitoumusten täyttäminen (tuoreus, saatavuus, kattavuus), datan laatu-ongelmiin vastaaminen ja skeemanversion hallinta.

Luokitellussa ympäristössä toimialueen omistajuus tarkoittaa myös datatuotteisiin liitettyjen luokittelumetatietojen hallintaa. SIGINT-toimialuetiimi määrittää kunkin tuotteen salausluokan, julkaisemisrajoitukset ja johdannaisten tuotteiden periytymissäännöt.

Datatuotteet tiedustelulle

Datatuotekonsepti on data meshin vaihtoyksikkö. Datatuote on löydettävissä, osoitettavissa, luotettava, itsekuvaava ja yhteentoimiva. Esimerkkejä: SIGINT-toimialuetiimi voi julkaista "nykyisen vihollisreittikuvan" — GeoJSON-piirtokokoelman aktiivisista reiteistä, päivitettynä 15 minuutin välein, MIP4-reittiskeeman mukaisesti, luokiteltuna SALAINEN. ELINT-analyysisolu voi julkaista "lähettimien tietokannan" — versionoidun luettelon tunnetuista lähettimen parametritietueista, päivitettynä neljän tunnin kuluessa uudesta keräyksestä. GEOINT-solu voi julkaista "kuvantulkintakerroksen" — STIX2-relaatio-objekteja, päivitettynä kahdeksan tunnin kuluessa kuva-aineiston toimituksesta.

Federoitu hallinto

Datan hallintoneuvosto — toimialueiden, alustatiimin ja oikeudellisen/vaatimustenmukaisuustoiminnon edustajilla — asettaa hallintostandardit: skeeman yhteentoimivuusvaatimukset, luokittelumetatietokonventiot, katalogin metatietovaatimukset ja datan laadun mittarimääritelmät. Puolustuskontekstissa luokittelumerkinnät toimivat ensimmäisen luokan hallintomääritteenä. Jokainen datakäyttötapahtuma on kirjattava muuttumattomaan tilintarkastuslokiin.

Omatoiminen infrastruktuuri luokitelluille ympäristöille

Omatoiminen alusta erottaa data meshin käsitteellisestä kehyksestä. Luokitellussa ympäristössä alustan on oltava käyttöönotettavissa air-gap-verkkoihin, toimittava ilman julkisia pilvipalvelu-API-riippuvuuksia ja täytettävä tietoturva-akkreditointivaatimukset. Tyypillinen alustapino sisältää: objektitallennuskerroksen (MinIO tai Ceph), skeemaliiketoimintarekisterin, datakatalograpipalvelun (Apache Atlas), identiteetintarjoajaan integroituneen pääsynhallintakerroksen ja SLA-seurantapalvelun — kaikki asennettavissa paikallisista pakettipeilistä.

Toteutushaasteet ja siirtymäpolku

Oikea lähestymistapa on inkrementaalinen: aloita yhdestä toimialueesta, rakenna alustakyvykkyyksiä ensimmäisen toimialuetuotteen rinnalla ja laajenna siitä. GEOINT-toimialue on usein hyvä lähtökohta. Keskitetty data lake ei katoa tämän siirtymän aikana — siitä tulee siirtymäalusta, joka supistuu toimialuetuotteiden kypsyessä. Rinnakkainen kausi, jolloin molemmat ovat olemassa, on odotettu siirtymäpolku.

Huomio salausluokkaesteiden ylittämisestä: Data mesh ei ratkaise puolustuksen tiedustelun dataintegronnin vaikeinta ongelmaa, joka on salausluokkaesteiden ylittäminen — datan siirtäminen SALAINEN-tasolta JULKINEN-tasolle tai eri koalitiojulkaisurajoitusten välillä. Se ongelma vaatii cross-domain-ratkaisun (CDS), ei arkkitehtuurimallia. Minkä data mesh ratkaisee, on organisatorinen ongelma: kuka omistaa datan, kuka vastaa sen laadusta ja kuka päättää sen jakamisesta. Puolustusorganisaatioissa, joissa nämä kysymykset ovat historiallisesti johtaneet monivuotisiin komiteoihin ilman vastauksia, selkeä toimialueen omistajuus sopimusperusteisine datatuote-SLA:ineen on aidosti transformatiivinen.

Yksityiskohtainen käsittely taustalla olevasta tallennusarkkitehtuurista löytyy artikkelista Puolustuksen data lake -arkkitehtuuri: suunnittelu ja toiminta. Fuusiomalleja INT-toimialueiden välillä kuvataan artikkelissa Sotilaallinen datafuusio: arkkitehtuurit ja menetelmät. Syöttöputket esitellään artikkelissa Puolustuksen datafuusioputken rakentaminen, osa 1: lähteet ja skeamat.