Suuret kielimallit, jotka toimivat kokonaan paikallisessa reunasolmussa — ilman internetiä, ilman pilvi-API:a, ilman alustalta lähtevää dataa — eivät enää ole tutkimusuteliaisuus. Ne ovat operatiivinen todellisuus puolustusaloitteille, jotka tarvitsevat tekoälyavusteista johtamista, tiedustelutietojen tiivistämistä tai itsenäistä päätukea ympäristöissä, joissa yhteys on enemmän riski kuin voimavara. Tässä artikkelissa käsitellään koko pino: miksi pilvipohjaset LLM:t epäonnistuvat taktisesti, mitä laitteistoa ja malleja valita, miten kvantisaatio ja tehokas palveleminen toteutetaan sekä miten inferenssipalvelu suojataan luokitellussa reunasolmussa.

1. yhteysongelman ydin

Pilvipohjaset LLM:t olettavat vakaan laajakaistayhteyden — mikä ei ole käytettävissä EMCON:n, MANET-kaistanleveysrajoitusten tai aktiivisesti estettyjen viestintäyhteyksien aikana. Arkaluonteisten tietojen reitittäminen kaupallisten pilvipohjaisten API:en kautta luo myös OPSEC-riskejä, jotka ovat kiellettyjä luokitelluille töille. Offline-LLM-inferenssi poistaa nämä riippuvuudet kokonaan.

2. laitteistotasot reunainferenssiin

NVIDIA Jetson Orin NX 16 Gt: 12–18 tok/s, 15–20 W, teollisuuslämpötila, puolustuksen toimitusketju — ensisijainen suositus. Hailo-10: 40 TOPS alle 5 W:lla virtarajoitetuille solmuille. Intel Arc A770 16 Gt: 20–30 tok/s ajoneuvo-/suojapalvelimille. Pelkkä ARM-prosessori: 3–6 tok/s offline-erätehtäville.

3. mallien valinta: Llama, Qwen, Mistral

Llama 3.1 8B (~73 % MMLU, 128K konteksti) — perussuositus. Qwen2.5 7B (~74,2 % MMLU) — vahvempi monikielisyys. Mistral 7B v0.3 (~63 % MMLU) — pienin KV-välimuisti pelkälle prosessorille. Kaikki saatavissa GGUF-muodossa ilmaverkkosiirtoa varten.

4. kvantisaatioputkilinja

Q4_K_M GGUF: ~4,9 Gt, 1–3 % laadunhäviö — taktinen standardivalinta. Q8_0: lähes häviötön. Vältä Q2/Q3 strukturoidulle tulosteelle. AWQ NVIDIA GPU -inferenssiin paremmalla INT4-laadulla.

5. inferenssiympäristöt

llama.cpp HTTP-palvelin — oletus yksittäiskäyttäjäsolmuille. Ollama — REST API, poista automaattinen lataus käytöstä ilmaverkkoisissa solmuissa. vLLM — monikäyttäjä-NVIDIA-palvelimet. ExLlamaV2 — 30–40 tok/s Orin AGX:llä.

6. TAKpilot-reunatila

TAKpilot vaihtaa automaattisesti Claude Sonnetin (pilvi) ja paikallisen Llama 8B:n välillä EMCON:n tai yhteyden katkeamisen yhteydessä — alle 200 ms, ei uudelleenkäynnistystä, sama REST-rajapinta.

7. kehoteinsinöinti rajoitetuille malleille

Järjestelmäkehotteet alle 200 tokenin. GBNF-kielioppirajoitukset JSON-tulosteelle sekä 2–3 uudelleenyritystä virhepalautteineen. Few-shot-esimerkit käyttäjäkierroksella.

8. tietoturva reunassa käytettäville LLM:ille

SHA-256-mallien eheys jokaisella latauksella; omistettu matalan oikeustason käyttöjärjestelmätili AppArmor/SELinuxilla; peukaloinninkestävä tarkastusloki; verkkoliikenne poistettu käytöstä ilmaverkkoisissa solmuissa. Vastaa NIST SP 800-53 -standardia.

Keskeinen havainto: Kielioppiohjaava generointi ja uudelleenyrityslogiikka sulkevat suurimman osan laadullisesta kuilusta etulinjassa toimivien pilvi-LLM:ien ja 7B-kvantisoitujen reunamallien välillä strukturoiduissa C2-työnkuluissa.