Grote taalmodellen die volledig op een lokaal randknooppunt draaien — geen internet, geen cloud-API, geen data die het platform verlaat — zijn geen onderzoekscuriositeit meer. Ze zijn een operationele realiteit voor defensieprogramma's die AI-ondersteunde bevel en controle, inlichtingensamenvatting of autonome beslissingsondersteuning nodig hebben in omgevingen waar verbinding een risico is in plaats van een voordeel. Dit artikel behandelt de volledige stack: waarom cloud-LLM's tactisch falen, welke hardware en modellen te kiezen, hoe ze efficiënt te kwantiseren en te serveren, en hoe de inferentieservice te beveiligen op een geclassificeerd randknooppunt.

1. het verbindingsprobleem

Cloud-LLM's gaan uit van een stabiele breedband — niet beschikbaar onder EMCON, MANET-bandbreedtebeperkingen of actief geblokkeerde communicatie. Het routeren van gevoelige gegevens via commerciële cloud-API's creëert ook OPSEC-risico's die ontoelaatbaar zijn voor geclassificeerde workloads. Offline LLM-inferentie elimineert al deze afhankelijkheden en houdt gegevens op het platform.

2. hardwareniveaus voor rand-LLM-inferentie

NVIDIA Jetson Orin NX 16 GB: 12–18 tok/s, 15–20 W, industriële temperatuur — primaire aanbeveling. Hailo-10: 40 TOPS bij minder dan 5 W voor energiebeperkte knooppunten. Intel Arc A770 16 GB: 20–30 tok/s voor voertuig-/schuilplaatsservers. CPU-only ARM: 3–6 tok/s voor offline batchtaken.

3. modelselectie: Llama, Qwen, Mistral

Llama 3.1 8B (~73% MMLU, 128K context) — basisaanbeveling. Qwen2.5 7B (~74,2% MMLU) — sterkere meertaligheid. Mistral 7B v0.3 (~63% MMLU) — kleinste KV-cache voor CPU-only. Allemaal beschikbaar als GGUF voor air-gapped overdracht.

4. kwantisatiepijplijn

Q4_K_M GGUF: ~4,9 GB, 1–3% kwaliteitsverlies — standaard tactische keuze. Q8_0: bijna verliesvrij. Vermijd Q2/Q3 voor gestructureerde uitvoer. AWQ voor NVIDIA GPU-inferentie met betere INT4-kwaliteit.

5. inferentie-runtimes

llama.cpp HTTP-server — standaard voor enkelvoudige gebruikersknooppunten. Ollama — REST API, schakel automatisch downloaden uit op air-gapped knooppunten. vLLM — meervoudige gebruikers NVIDIA-servers. ExLlamaV2 — 30–40 tok/s op Orin AGX.

6. TAKpilot randmodus

TAKpilot schakelt automatisch tussen Claude Sonnet (cloud) en lokale Llama 8B bij EMCON of verbindingsverlies — onder 200 ms, geen herstart, dezelfde REST-interface.

7. promptengineering voor beperkte modellen

Systeemprompts onder 200 tokens. GBNF-grammaticabeperkingen voor JSON-uitvoer plus 2–3 nieuwe pogingen met foutfeedback. Few-shot-voorbeelden in de gebruikersbeurt.

8. beveiliging voor randimplementatie van LLM

SHA-256 modelintegriteit bij elke laading; toegewijde OS-gebruiker met lage rechten met AppArmor/SELinux; tamper-evident auditlogboek; netwerk-egress uitgeschakeld op air-gapped knooppunten. Overeenkomstig NIST SP 800-53.

Kernbevinding: Grammaticagestuurde generatie en herhalinglogica sluiten het grootste deel van het kwaliteitsverschil tussen geavanceerde cloud-LLM's en 7B-gekwantiseerde randmodellen voor gestructureerde C2-werkstromen.