Tekoälymallien kouluttaminen vaatii dataa. Puolustusympäristöissä data, joka tekisi parhaita harjoitusnäytteitä — operatiivinen sensorimateriaali, signaali-tiedustelun taltioinnit, akustiset signaatit oikeista kohtaamisista — on täsmälleen se data, jota ei voida keskittää. Se on luokiteltu, osastoitu, tuotettu etulinjassa sijaitsevissa solmuissa ilman suuren kaistanleveyden takayhteyttä tai yksinkertaisesti liian operatiivisesti arkaluonteinen lähetettäväksi keskitettyyn harjoituslaitokseen.
Federoitu oppiminen ratkaisee tämän jännitteen. Sen sijaan, että harjoitusdata siirrettäisiin mallille, federoitu oppiminen siirtää mallin datalle. Jokainen sensorisolmu kouluttaa paikallisen mallin omilla havainnoillaan, ja lähettää sitten vain tuloksena saadut gradienttipäivitykset — ei raakadataa — yhdistämispalvelimelle. Palvelin yhdistää nämä gradientit parannetuksi globaaliksi malliksi ja lähettää sen takaisin kaikille solmuille. Raasoensoridata ei koskaan poistu solmusta.
Miksi federoitu oppiminen on tärkeä puolustukselle
Puolustuksen tekoäly kohtaa dataongelman, jolla ei ole kaupallista vastinetta. ISR-dronen kuvamateriaali kiistanalaisella alueella on luokiteltu lähteessä — sitä ei voida reitittää kaupallisen pilviinfrastruktuurin kautta koulutusta varten. Etulinjassa sijaitsevien sensorien akustisten signaattien tallenteet voivat olla luokiteltu tasolla, joka estää lähetyksen jopa sotilasverkoissa ilman nimenomaista lupaa. Ja aktiivisten järjestelmien tuottama operatiivinen data on usein arvokkain saatavilla oleva harjoitussignaali juuri siksi, että se edustaa todellista vastustajan ympäristöä eikä harjoitusalueen approksimaatiota.
Kaistanleveysrajoite on yhtä perustavanlaatuinen. Etulinjassa sijaitsevien passiivisten SIGINT-sensorien verkko, joista jokainen tallentaa tunteja IQ-dataa päivässä, ei pysty lähettämään sitä dataa keskuspalvelimelle 64 kbps:n taktisella radiolinkillä. Datan määrä yksinkertaisesti ylittää mitä linkki pystyy kuljettamaan. Federoinnin koulutuskierroksen gradienttipäivitykset ovat sitä vastoin tyypillisesti 10–100× pienempiä kuin taustalla oleva harjoitusdata, mikä tekee lähetyksestä toteuttamiskelpoista rajoitetuilla linkeillä.
Kolmas näkökohta on joustavuus. Järjestelmä, joka vaatii keskitettyä datan keräämistä mallin parantamiseksi, on yksittäinen vika: katkaise takayhteys ja mallin parantaminen pysähtyy. Federoitu oppiminen jakaa parannusfunktion kaikkien solmujen kesken, joista jokainen voi jatkaa paikallista koulutusta riippumatta verkkoyhteyden tilastaan.
Arkkitehtuuri: Paikallinen koulutus, gradienttien yhdistäminen, globaali päivitys
Kanoninen federoitu oppimiskierto koostuu neljästä vaiheesta, jotka toistuvat useilla kierroksilla:
1. Mallin jakelu. Yhdistämispalvelin jakaa nykyiset globaalit mallipainot kaikille osallistuville solmuille (tai valitulle osajoukolla). Sotilaallisessa sensorijärjestelmässä tämä voi tapahtua ajoitetuissa synkronointiikkunoissa — kun satelliittilinkki on saatavilla, huoltojaksojen aikana tai ennalta määrätyillä väleillä.
2. Paikallinen koulutus. Jokainen solmu kouluttaa vastaanotetun mallin paikallisella tietoaineistollaan tietyn määrän epokkeja (tyypillisesti 1–5 paikallista epokkeaa per kierros). Solmu käyttää omia paikallisesti kerättyjä sensoridatojaan — lähettämättä kyseistä dataa mihinkään ulkoiseen järjestelmään. Tuloksena on paikallisesti päivitetty joukko mallipainoja.
3. Gradienttien yhdistäminen. Jokainen solmu laskee eron paikallisesti koulutettujen painojensa ja alkuperäisten globaalien painojen välillä (gradienttipäivitys) ja lähettää tämän deltan yhdistämispalvelimelle. Palvelin yhdistää kaikkien solmujen päivitykset — yleisimmin käyttäen Federoitu Keskiarvo (FedAvg) -menetelmää, joka laskee painotetun keskiarvon päivityksistä suhteessa kunkin solmun paikalliseen tietoaineiston kokoon.
4. Globaalin mallin päivitys. Yhdistetty päivitys sovelletaan globaaliin malliin, tuottaen uuden globaalin mallin, joka sisältää oppimista kaikista solmuista. Tämä uusi malli jaetaan seuraavaa kierrosta varten.
Haasteet: Ei-IID-data ja Byzantine-solmut
Federoitu oppiminen sotilaallisessa sensorijärjestelmässä kohtaa useita haasteita, jotka ovat vakavampia kuin kaupallisissa federoinnin käyttöönotoissa.
Ei-IID-datajakauma. Kaupallisessa mobiilnäppäimistön federoinnissa kaikki asiakkaat näkevät laajalti samankaltaisia datajakaumia — käyttäjätekstiä. Hajautetussa sensorijärjestelmässä jokainen solmu havaitsee perustavanlaatuisesti erilaisen datajakauman: SIGINT-solmu kaupunkialueella näkee erilaisia lähetinsignaatteja kuin lentotukikohtaa lähellä sijaitseva; metsämaastossa sijaitseva ajoneuvon ilmaisinsolmu näkee erilaisia kohdeilmestymiä kuin avomaastossa oleva. Tämä ei-itsenäisesti ja identtisesti jakautunut (ei-IID) datajakauma heikentää standardin FedAvg:n suorituskykyä ja vaatii kehittyneempiä yhdistämisstrategioita kuten FedProx (joka lisää proksimaalisen termin paikallisiin tavoitteisiin estämään paikallisten mallien liiallisen hajaantumisen) tai SCAFFOLD (joka korjaa asiakkaan ajautumisen ohjaajien avulla).
Adversaariaaliset ja Byzantine-solmut. Koalitio- tai hajautetussa puolustuskäyttöönotossa jotkin sensorisolmut saattavat olla vaarantuneet, viallisia tai adversariaalisesti manipuloituja. Byzantine-solmu — sellainen, joka käyttäytyy mielivaltaisesti tai vihamielisesti — voi korruptoida yhdistetyn mallin lähettämällä myrkytettyjä gradientteja. Byzantine-hyökkäysten puolustus sisältää robustit yhdistämisalgoritmit (Krum, Bulyan, Trimmed Mean), jotka tunnistavat ja poistavat tilastolliset poikkeavuudet lähetetyissä päivityksissä, sekä kryptografisen solmun identiteetin todentamisen henkilöytymisen estämiseksi.
Mallin myrkyttäminen datan myrkyttämisen kautta. Vastustaja, joka saa fyysisen pääsyn sensorisolmuun, voi manipuloida paikallista harjoitusdataa, aiheuttaen solmun gradienttiosuuden takaportin upottamisen globaaliin malliin — esimerkiksi aiheuttaen havaitsemismallin epäonnistumisen tietyllä kohde-ilmestymisellä, jota vastustaja hallitsee. Lieventämistoimiin kuuluu poikkeavuuksien havaitseminen lähetetyistä gradienteista, paikallisten epokkien rajoittaminen yksittäisen solmun vaikutuksen vähentämiseksi ja solmun osuuksien tarkistaminen pidätettyjä validointidatoja vastaan palvelimella.
Toteutus Jetsonilla: PyTorch FL -kehykset
Jetson-pohjaisille sensorisolmuille kaksi kypsintä avoimen lähdekoodin federoinnin oppimiskehystä ovat Flower (flwr) ja PySyft.
Flower on kehystä-agnostinen ja tarjoaa selkeän asiakas-palvelin-arkkitehtuurin liitettävillä yhdistämisstrategioilla. Flower-asiakas Jetson-solmussa pakkaa standardin PyTorch-koulutussilmukan Flowerin asiakasrajapinnalla, joka käsittelee viestinnän keskuspalvelimen kanssa. Flower tukee erilaisia viestintätaustajärjestelmiä — gRPC oletuksena, vaihtoehtoja mukautetuille kuljetuksille, jotka sopivat pienen kaistanleveyden tai katkonaisiin sotilaslinkkeihin. Palvelinpuolen strategia (FedAvg, FedProx, FedOpt tai mukautettu) on määritelty erikseen asiakaskoodista, mahdollistaen kokeilun yhdistämisstrategioilla muuttamatta solmupuolen koodia.
PySyft tarjoaa korkeamman tason yksityisyyteen painottuvan abstraktion tuella turvalliselle moniosapuoliselle laskennalle ja differentiaalisen yksityisyyden integroinnille. Sen etäsuorituksen malli mahdollistaa keskusasiantuntijan määritellä koulutuksen, joka suoritetaan etäsolmuissa ilman raakadatan poistumista näistä solmuista. PySyftin yleisrasite on suurempi kuin Flowerin, tehden siitä sopivampaa suuren kaistanleveyden skenaarioihin kuin rajoitetuille taktisille linkeille.
Viestintäprotokollalla on merkittävä merkitys sotilaskäyttöönotoissa. Standardi federoitu oppiminen olettaa luotettavan, suhteellisen suuren kaistanleveyden TCP-yhteyden. Taktisille radiolinkkeille protokolla, joka sietää katkonaista yhteyttä ja tukee asynkronisia päivityksiä (jossa solmut lähettävät päivitykset aina kun yhteys on saatavilla, sen sijaan että vaaditaan synkronoituja kierroksia) on sopivampi. Asynkroninen federoitu oppiminen vanhenemispainotetulla yhdistämisellä — alas painottaen päivityksiä solmuista, jotka kouluttivat vanhemmilla versioilla globaalista mallista — on käyttökelpoinen lähestymistapa katkonaisen yhteyden ympäristöissä.
Keskeinen oivallus: Gradienttipakkaus vähentää merkittävästi federoinnin oppimisen viestintärasitusta kaistanleveysrajoitetuilla sotilaslinkeillä. Tekniikat kuten top-k tihennetty esitys (lähettäen vain k suurimman gradienttiarvon) tai gradienttikvantisointi (gradienttien esittäminen 8-bittisessä tai 16-bittisessä muodossa 32-bitin sijaan) voivat vähentää per-kierrosta viestintämäärää 10–100× pienellä vaikutuksella konvergensiin.
Differentiaalinen yksityisyys: Datan rekonstruktion estäminen
Jopa gradienttipäivitykset voivat vuotaa tietoja paikallisista harjoitusdatasta gradientti-inversio-hyökkäysten kautta — matemaattisia tekniikoita, jotka rekonstruoivat harjoitusnäytteitä havaittujen gradienttien pohjalta. Luokitetulle sensoridatalle tämä edustaa hyväksymätöntä vuotoriskiä, vaikka raasoensoridata ei koskaan poistu solmusta.
Differentiaalinen yksityisyys (DP) käsittelee tätä lisäämällä kalibroitua Gaussin tai Laplacen kohinaa gradienttipäivityksiin ennen lähetystä, tarjoamalla muodollisen yksityisyysturvauksen, joka rajoittaa tietomäärää yksittäisestä harjoitusnäytteestä, joka voidaan päätellä päivityksestä. DP-turvauspara metrisoidaan ε:lla (epsilon) — pienempi ε tarkoittaa vahvempaa yksityisyyttä, mutta suurempaa kohinaa ja hitaampaa konvergenssia.
DP-SGD:n (Differentially Private Stochastic Gradient Descent) toteuttaminen Jetson-solmuissa käyttää per-näyte gradientein leikkausta (gradientin herkkyyden rajoittamiseksi) ja kohina lisäystä. PyTorchin Opacus-kirjasto tarjoaa tehokkaan DP-SGD:n toteutuksen, joka integroituu standardiin PyTorch-koulutussilmukkaan ja on yhteensopiva Flowerin asiakasrajapinnan kanssa.
Käytännön kompromissi: DP-kohina, joka on riittävä tarjoamaan merkityksellisiä yksityisyysturvauksia (ε ≤ 10) pienelle paikalliselle tietoaineistolle (100–1 000 näytettä), heikentää merkittävästi mallin tarkkuutta. Sekä vahvan yksityisyyden että korkean tarkkuuden saavuttaminen vaatii suuria paikallisia tietoaineistoja, monia federoituja kierroksia ja leikkauskynnyksen ja kohinakertoimien huolellista virittämistä. Puolustuskäyttöönotoille, joissa datan luokituksen herkkyys on korkein, tämä kompromissi voidaan yksinkertaisesti hyväksyä: hieman alhaisempi tarkkuus kryptografisesti rajatun datavuodon vastineeksi.