Jokainen taktinen ympäristö on erilainen. Jotkut yksiköt toimivat jatkuvalla, suuren kaistanleveyden yhteydellä luokiteltuun pilvienklaaviin; toiset etenevät alueille, joissa ainoa verkko on sotilaan repussa oleva mesh-radio. Tekoäly-kopilotit, jotka toimivat vain täydellisessä tilanteessa — täysi yhteys, kaupallinen pilvipalvelu, ei luokitusrajoituksia — eivät ole hyödyllisiä sotilasoperaatioiden työkaluja. TAKpilot, Corvus Intelligencen tekoälychat-kopilotti CloudTAK:lle, on rakennettu malliriippumattoman arkkitehtuurin ympärille, joka antaa komentajille ja järjestelmäintegraattoreille aidon valinnan: aja Claude Opus 4.7:ää Anthropic API:ta vastaan huippuanalyyttistä suorituskykyä varten tai ota käyttöön Llama 3.3 70B lujatekoisella GPU-palvelimella ilman internet-riippuvuutta. Tässä artikkelissa käsitellään, miten tämä arkkitehtuuri toimii, miten valita oikea malli tiettyyn tehtäväkontekstiin ja miten konfiguroida TAKpilot ilmarakoisiin reunakäyttöönottoihin vaihe vaiheelta.

Miksi malliriippumattomuus on tärkeää puolustuskäyttöönotoissa

Kaupalliset tekoälytuotteet tyypillisesti kovakoodaavat yksittäisen palveluntarjoajan. Tämä lähestymistapa luo kovan riippuvuuden internet-yhteydestä, kaupallisen API:n saatavuudesta ja palveluntarjoajan tietojenkäsittelyehdoista — rajoituksia, jotka ovat usein yhteensopimattomia luokiteltujen tai operatiivisesti arkaluonteisten ympäristöjen kanssa. TAKpilot:n arkkitehtuuri ratkaisee tämän abstrahoimalla malliyhteyksen yhden rajapinnan taakse: OpenAI-yhteensopivan API-spesifikaation. Mikä tahansa malli, joka puhuu tätä protokollaa — olipa se isännöity Anthropicin, AWS:n, Googlen tai CloudTAK-noodin kanssa samassa telineessä toimivan paikallisen päättelypalvelimen toimesta — on kelvollinen TAKpilot-taustajärjestelmä.

Tämä ei ole teoreettinen joustavuus. TAKpilot on operatiivisesti käytössä Ukrainan puolustusvoimilla, joissa verkkoyhteys, liitettävyysrajoitukset ja luokitusvaatimukset vaihtelevat merkittävästi joukkojen välillä. Johtoportaan elementti luotettavalla yhteydellä käyttää Claude Sonnet 4.6:tta Anthropic API:n kautta. Etulinjoille sijoitettu yksikkö, jolla on vain taktinen radioyhteys, ajaa Llama 3.3 8B:tä paikallisessa päättelynoodissa. Molemmat yksiköt ovat vuorovaikutuksessa saman TAKpilot-käyttöliittymän kanssa; vain taustajärjestelmä eroaa.

Keskeinen havainto: TAKpilot ei kovakoodaa mitään tekoälypalveluntarjoajaa. Mallivalinta on käyttöönottajan tekemä ajonaikainen konfigurointipäätös — ei tuoterajoitus. Yksittäinen TAKpilot-asennus voidaan siirtää pilvitaustajärjestelmästä ilmarakoiseen paikalliseen malliin muuttamalla kaksi ympäristömuuttujaa ja käynnistämällä prosessi uudelleen.

Mallivalintaopas: kyvykkyyden sovittaminen tehtäväkontekstiin

TAKpilot tukee kolmea Claude-mallitasoa Anthropic API:n kautta sekä koko valikoimaa avoimia malleja OpenAI-yhteensopivan rajapinnan kautta. Valinta niiden välillä sisältää kompromisseja päättelysyvyyden, viiveen, operatiivisen kustannuksen ja yhteyksien vaatimusten välillä.

Claude Opus 4.7: monivaiheinen kompleksi analyysi

Opus 4.7 on korkein kykyisimmistä Claude-malleista ja oikea valinta tehtäviin, jotka vaativat jatkuvaa monivaiheista päättelyä: ISR-raporttien syntetisointi useista lähteistä, yksityiskohtaisten tehtäväkäskyjen tuottaminen puutteellisista ohjeista tai epäselvän sensoridatan analysointi, jossa väärät positiiviset tulokset kantavat vakavia operatiivisia seurauksia. Kompromissi on viive — Opus 4.7 tuottaa tokeneita hitaammin kuin Sonnet tai Haiku, ja hinta per tokeni on korkeampi. S2- ja S3-analyysitilanteissa johtoportaatasolla, jossa vastausaika mitataan minuuteissa eikä sekunneissa, Opus 4.7 on sopiva valinta. Se vaatii yhteyden Anthropic API:hin tai AWS Bedrockiin / Google Vertex AI:hin Opus-mallin ollessa käytössä.

Claude Sonnet 4.6: tasapainoinen suorituskyky päivittäiseen COP-hallintaan

Sonnet 4.6 on oletuksena suositeltava malli aktiivisiin operaatioihin, joissa operaattorit antavat keskustelevia COP-komentoja — merkkien asettaminen, yksikköjen sijaintien kyseleminen, datapakettien rakentaminen, kanaviin tilaaminen. Se tarjoaa vahvan ohjeidenseurauksen ja työkäytön tarkkuuden alhaisemmalla viiveellä kuin Opus, tehden siitä riittävän responsiivisen interaktiiviseen käyttöön ilman Opuksen kustannusrasitetta jokaista karttamerkin sijoitusta varten. Sonnet 4.6 on malli, jota käytetään TAKpilot:n operatiivisessa käyttöönotossa ukrainalaisissa joukoissa peruslinjakonfiguraationa yhdistetyille elementeille.

Claude Haiku 4.5: nopeuslähtöinen korkeataajuuksisiin tehtäviin

Haiku 4.5 on optimoitu viiveelle ja läpäisykykylle. Se on sopiva valinta korkeataajuuksisiin, hyvin jäsenneltyihin komentoihin — nykyisten raitojen kyseleminen, tehtävien listaaminen, sijaintidatan noutaminen tietyille kutsumerkeille — missä tehtävä on tarpeeksi rutiininomainen, ettei maksimaalista päättelykykyä tarvita. Haiku vastaa nopeammin kuin Sonnet ja merkittävästi alhaisemmilla kustannuksilla per tokeni, mikä on tärkeää ympäristöissä, joissa TAKpilot käsittelee suurta määrää operaattorikyselyjä useissa samanaikaisissa istunnoissa. Se on myös järkevä varamalli API-nopeuspaineen aikoina.

Avoimet mallit ilmarakoisiin ympäristöihin

Kun pilviyhteyttä ei ole saatavilla tai luokitusvaatimukset kieltävät ulkoiset API-kutsut, TAKpilot ohjaa päättelyn paikallisesti isännöityyn malliin OpenAI-yhteensopivan päätepisteen kautta. Kolme mallia on validoitu TAKpilot:n työkäyttökaavoja varten:

  • Llama 3.3 70B — Metan 70 miljardin parametrin ohjein viritetty malli tarjoaa vahvimman työkäyttötarkkuuden TAKpilot:ssa validoitujen avointen mallien joukossa. 4-bittisessä kvantisoinnissa (Q4_K_M) se mahtuu kaksi-GPU-palvelimelle tai yhdelle A100:lle ja tuottaa 25–40 tokenia sekunnissa — riittävästi keskusteleviin COP-vuorovaikutuksiin. Tämä on suositeltava ilmarakoinen oletus hyvin resursoituihin reunakäyttöönottoihin.
  • Qwen 2.5 72B — Alibaban Qwen 2.5 72 miljardin parametrilla suoriutuu vertailukelpoisesti Llama 3.3 70B:n kanssa jäsennellyissä työkutsuissa ja sillä on vahvempi monikielinen suorituskyky, mikä voi olla arvokasta koalitio-operaatioissa tai muilla kuin englanninkielisillä yksiköillä. Laitteistovaatimukset ovat samanlaiset.
  • Mistral Large — Mistralin ohjein viritetty malli on saatavilla paikallisena käyttöönottovaihtoehto ja suoriutuu hyvin luokittelusta ja reitityksen tehtävistä. Se on järkevä valinta, kun tarvitaan pienempää jalanjälkeä ja komentotyömäärä on suhteellisen jäsenneltyä.
  • Llama 3.3 8B — Vakavasti laitteistorajoitetuille ympäristöille (yksittäinen kuluttaja-GPU, 8–12 Gt VRAM), 8B-variantti 4-bittisessä kvantisoinnissa tarjoaa hyväksyttävän suorituskyvyn yksinkertaisiin COP-kyselyihin. Monimutkaiset monivaiheisen työkutsujen sekvenssit heikkenevät suhteessa 70B-malliin, joten operaattorien tulisi odottaa eksplisiittisempää ohjeiden muotoilua.

Keskeinen havainto: Työkäytön luotettavuus vähenee mallin koon pienentyessä. 70B-luokan mallit (Llama 3.3 70B, Qwen 2.5 72B) ylläpitävät hyväksyttävää työkutsun tarkkuutta TAKpilot:n CloudTAK API -kutsuille. Alle 13 miljardin parametrin mallit osoittavat merkittävästi korkeampia väärinmuodostettujen työkutsujen määriä, ja ne tulisi validoida omaa COP-komentotyömäärää vastaan ennen operatiivista käyttöä.

Pilvipalvelintaustajärjestelmät luokiteltuihin ympäristöihin: AWS Bedrock ja Google Vertex

Kaikki pilvipalvelinkäyttöönotot eivät ole samanarvoisia luokituksen ja dataresidenssipolitiikan näkökulmasta. Anthropic API lähettää päättelyliikenteen Anthropicin infrastruktuuriin. Ympäristöille, jotka vaativat datan pysymisen tietyssä pilvienklaaviissa — AWS GovCloud, Azure Government tai Google Workspace for Government -vuokralainen — TAKpilot tukee Claude-mallien reititystä AWS Bedrockin ja Google Vertex AI:n kautta, jotka hoitavat mallin isännöinnin asiakkaan pilvirajan sisällä.

AWS Bedrock paljastaa Claude Opus 4.7:n, Sonnet 4.6:n ja Haiku 4.5:n tavallisen AWS SDK:n kautta. TAKpilot:n näkökulmasta konfigurointimuutos on API:n perus-URL:n ja todennusmenetelmän vaihto: korvaa Anthropic API -avain AWS IAM -tunnuksilla (ympäristömuuttujien tai instanssiroolin kautta) ja aseta TAKPILOT_PROVIDER=bedrock asianmukaisella AWS-alueella. Samat Claude-mallit ovat käytettävissä; päättelyliikenne pysyy AWS:n verkon rajojen sisällä ja on asiakkaan AWS-tietojenkäsittelysopimusten alainen eikä Anthropicin kaupallisten ehtojen alainen.

Google Vertex AI tarjoaa saman Claude-malliyhteyksen Googlen malligallerian kautta. Konfigurointi noudattaa samaa kaavaa: aseta TAKPILOT_PROVIDER=vertex GCP-projektin tunnuksella ja palvelutilin tunnuksilla. Organisaatioille, jotka jo toimivat Googlen puolustusluokan pilvitarjonnan sisällä, tämä pitää kaiken päättelyliikenteen olemassa olevan turvallisuusperimetrin sisällä.

OpenAI-yhteensopiva päätepiste -tuki

TAKpilot:n ilmarakoinen polku käyttää samaa OpenAI Chat Completions API -spesifikaatiota, josta on tullut de facto -standardi paikallisten mallien päättelypalvelimille. Tämä tarkoittaa, että TAKpilot on yhteensopiva minkä tahansa päättelykäyttöympäristön kanssa, joka toteuttaa tämän rajapinnan — Ollama, vLLM, llama.cpp server, LM Studio, Hugging Face TGI ja mikä tahansa mukautettu kontti, joka käärii mallin OpenAI-yhteensopivalla REST-kerroksella.

Konfigurointi on tarkoituksellisesti minimaalista. Kaksi ympäristömuuttujaa riittää ohjaamaan TAKpilot:n Anthropic API:sta mihin tahansa paikalliseen päätepisteeseen:

# Ohjaa TAKpilot paikalliselle Ollama-päättelypalvelimelle
TAKPILOT_API_BASE=http://192.168.1.50:11434/v1
TAKPILOT_MODEL=llama3.3:70b-instruct-q4_K_M
TAKPILOT_API_KEY=ollama

# Tai vLLM-palvelimelle, joka ajaa Qwen 2.5:tta
TAKPILOT_API_BASE=http://10.0.1.20:8000/v1
TAKPILOT_MODEL=Qwen/Qwen2.5-72B-Instruct
TAKPILOT_API_KEY=vllm-token

Kun TAKPILOT_API_BASE on asetettu, TAKpilot ei missään olosuhteissa yritä ottaa yhteyttä Anthropic API:hin. Varautumista pilvimalleihin ei tapahdu, jos paikallinen päätepiste on saavuttamaton — TAKpilot palauttaa virheen operaattorille sen sijaan, että ohjaa hiljaisen liikenteen tahattomaan päätepisteeseen. Tämä on tarkoituksellinen turvallisuuskäyttäytyminen luokitelluille ympäristöille.

Istuntokohtainen datahiekkalaatikko

Riippumatta siitä, mikä mallin taustajärjestelmä on käytössä, TAKpilot pakottaa saman istunnon eristyksellisen mallin. Jokainen operaattorin yhteys luo muistissa olevan istuntokontekstin, joka pitää keskusteluhistorian, odottavat työkutsut ja kaikki CloudTAK:sta istunnon aikana noudetut COP-tiedot. Tätä kontekstia ei koskaan kirjoiteta levylle, ei koskaan jaeta muiden istuntojen kanssa eikä koskaan lähetetä muuhun päätepisteeseen kuin konfiguroituun mallitaustajärjestelmään.

Kun operaattori katkaisee yhteyden — joko sulkemalla CloudTAK-chat-paneelin tai konfiguroitavan istunnon aikakatkaisun jälkeen — istuntokonteksti poistetaan muistista. Istuntojen välillä ei ole pysyvyyttä. Operaattori, joka muodostaa uudelleen yhteyden, aloittaa tuoreen kontekstin ilman tietoa edellisen istunnon komennoista tai noudetuista tiedoista.

Keskeinen havainto: TAKpilot:n istuntohiekkalaatikko tarkoittaa, että jopa pilviyhdistetyissä käyttöönotoissa altistumisikkuna on rajattu istunnon kestoon. Istunto, joka käsittelee yhden taktisen kyselyn ja sulkeutuu, on altistanut vain sen kyselyn tiedot mallitaustajärjestelmälle. Ei ole kerääntyvää tietovarastoa, joka kasvaa käytön myötä.

Ilmarakoisissa käyttöönotoissa hiekkalaatikkotakuu on ehdoton: istuntokonteksti ei koskaan ylitä verkon rajaa, koska mallitaustajärjestelmä on samassa verkkosegmentissä. Luokiteltuja COP-tietoja käsittelevien operaattorien tulisi käyttää ilmarakoista tilaa paikallista mallia vastaan — istuntokohtainen hiekkalaatikko varmistaa, että luokiteltu data käsitellään vain paikallisessa päättelynoodissa ja poistetaan istunnon päättyessä.

TAKpilot:n käyttöönotto Llama 3.3:lla ilmarakoisella taktisella laitteistolla

Seuraava menettely olettaa, että TAKpilot Node.js -instanssi on jo otettu käyttöön ja yhdistetty CloudTAK-palvelimeen. Alkuperäistä CloudTAK-käyttöönottoa varten katso CloudTAK-palvelimen käyttöönotto-opas. Päättelypalvelimen on oltava samassa taktisessa lähiverkossa kuin sekä CloudTAK:n että TAKpilot:n.

Vaihe 1: Provisioi GPU-päättelypalvelin taktiseen lähiverkkoon

Asenna Ollama Linux-palvelimelle (Ubuntu 22.04 LTS suositellaan) vähintään yhdellä NVIDIA GPU:lla. Tarkista GPU:n tunnistus:

curl -fsSL https://ollama.com/install.sh | sh
nvidia-smi   # pitäisi listata GPU(t)
ollama --version

Määritä palvelimelle staattinen IP taktisessa lähiverkossa (esim. 192.168.1.50). Varmista, että portti 11434 on saavutettavissa TAKpilot:n isäntäkoneelta. Oletuksena Ollama sitoutuu vain 127.0.0.1:een — lähiverkkoyhteyksiä varten aseta OLLAMA_HOST=0.0.0.0 Ollama-palvelun ympäristöön.

Vaihe 2: Lataa Llama 3.3 -malli

# 70B-malli — vaatii ~40 Gt VRAM (kaksi GPU:ta tai A100)
ollama pull llama3.3:70b-instruct-q4_K_M

# 8B-malli — mahtuu yhdelle 8 Gt GPU:lle
ollama pull llama3.3:8b-instruct-q4_K_M

Pull-komento lataa mallin painot internetin kautta. Täysin ilmarakoisille ympäristöille, joissa edes tämä alkuperäinen lataus on kielletty, siirrä mallitiedosto manuaalisesti: lataa GGUF-tiedosto yhdistetyllä koneella, kopioi se palvelimelle siirrettävän median kautta ja tuo se ollama create -komennolla. Ollaman dokumentaatio kattaa offline-tuontimenettelyn.

Vaihe 3: Tarkista OpenAI-yhteensopiva päätepiste

# TAKpilot-isäntäkoneelta
curl http://192.168.1.50:11434/v1/models
# Odotettu: {"object":"list","data":[{"id":"llama3.3:70b-instruct-q4_K_M",...}]}

Jos pyyntö aikakatkeaa, tarkista, että Ollama on sidottu 0.0.0.0:aan ja että isäntäpalomuuri ei estä porttia 11434.

Vaihe 4: Konfiguroi TAKpilot-ympäristömuuttujat

# .env tai systemd-palvelun ympäristö
TAKPILOT_API_BASE=http://192.168.1.50:11434/v1
TAKPILOT_MODEL=llama3.3:70b-instruct-q4_K_M
TAKPILOT_API_KEY=ollama

# Aseta tyhjäksi tai jätä pois — TAKpilot ei vaihda Anthropiciin
# ANTHROPIC_API_KEY=

Vaihe 5: Käynnistä TAKpilot ja vahvista mallireititys

Käynnistä TAKpilot Node.js -prosessi ja tarkasta käynnistysloki mallitaustajärjestelmärivin osalta. Lähetä sitten testikäsky CloudTAK-chat-käyttöliittymän kautta ja vahvista, että vastaus palautetaan. Seuraa päättelypalvelimen GPU-käyttöastetta nvidia-smi dmon -komennolla varmistaaksesi, että päättely toimii paikallisesti.

Vaihe 6: Testaa työkäyttö COP-komennolla

Lähetä jäsennelty COP-käsky: "Listaa kaikki aktiiviset yksiköt Alpha Companyssa." TAKpilot:n tulisi kutsua CloudTAK:n list_units -työkalua ja palauttaa muotoiltu vastaus. Jos malli palauttaa pelkkä tekstivastauksen ilman työkutsuja, tämä osoittaa, että mallin ohjeidenseurauskyky on riittämätön TAKpilot:n työkutsuskeemoille — vaihda 70B-varianttiin tai Qwen 2.5 72B:hen.

Vaihe 7: Varmista, ettei liikennettä pääse verkon rajojen ulkopuolelle

# TAKpilot-isäntäkoneella — kaappaa liikenne, joka ei mene lähiverkkoon
tcpdump -i eth0 -n 'not net 192.168.1.0/24 and not net 10.0.0.0/8'

Lähetä useita TAKpilot-komentoja ja vahvista, ettei tcpdump-tulosteessa näy paketteja. Kaiken mallin päättelyliikenteen tulisi pysyä taktisen lähiverkon sisällä. Jos paketteja ulkoisiin IP-osoitteisiin havaitaan, tarkasta TAKpilot-ympäristökonfiguraatio — varmista, että TAKPILOT_API_BASE on oikein asetettu ja ANTHROPIC_API_KEY puuttuu ympäristöstä.

Suorituskyvyn kompromissit yleisille COP-tehtäville

Pilvi- ja reunamallien väliset käytännölliset suorituskyvyn erot tulevat nopeasti esiin TAKpilot:n käsittelemissä tehtävissä. Seuraavat luonnehdinnat perustuvat havaittuun käyttäytymiseen TAKpilot-käyttöönotoissa, ei julkaistuihin vertailuarvoihin.

Merkkien sijoittaminen ja yksikkökyselyt ovat yleisimpiä COP-vuorovaikutuksia. Sekä Claude Haiku 4.5 että Llama 3.3 8B käsittelevät nämä tarkasti ja alhaisella viiveellä. Tehtävä on hyvin jäsennelty — operaattori sanoo, mihin merkki sijoitetaan, TAKpilot kutsuu CloudTAK API:a — ja vaatii minimaalista päättelyä. Kumpi tahansa malli on sopiva. 8B-variantille eksplisiittiset koordinaattimuodot (desimaaliasteet tai MGRS) parantavat tarkkuutta; malli voi kamppailla epäselvien sijaintiviitteiden kanssa.

Monivaiheinen tehtävähallinta — tehtävän luominen, ryhmien osoittaminen, datapaketin liittäminen ja tuloksen vahvistaminen — vaatii mallin ylläpitämään kontekstia useiden työkutsujen välillä. Claude Sonnet 4.6 käsittelee tämän luotettavasti. Llama 3.3 70B käsittelee sen hyväksyttävällä tarkkuudella. Llama 3.3 8B kamppailee yli kolmen työkutsun sekvensseissä, eikä sitä tulisi käyttää monimutkaisiin tehtävänhallintavirtoihin.

Asiakirja- ja kuvantiedustelu — TAKpilot-istuntoon ladattujen PDF:ien, kuvien ja tiedusteluraporttien käsittely — hyötyy merkittävästi suuremmista malleista. Claude Opus 4.7 ja Sonnet 4.6 tarjoavat johdonmukaisimman synteesin monisivuisista asiakirjoista. Näkökykyä vaativat tehtävät (PNG/JPG-liitteiden analysointi) vaativat mallin, jolla on näkökyky; Llama 3.3 on vain tekstimalli. Näkökykytehtäviin ilmarakoisissa ympäristöissä tarvittaisiin LLaVA tai Qwen-VL-variantti.

Usein kysytyt kysymykset

+Mitä tekoälymalleja TAKpilot tukee oletuksena?

TAKpilot toimitetaan täydellä Claude-malliperhetuella — Opus 4.7, Sonnet 4.6 ja Haiku 4.5 — Anthropic API:n tai AWS Bedrockin ja Google Vertex AI:n kautta. Se tukee myös mitä tahansa mallia, joka on saavutettavissa OpenAI-yhteensopivan päätepisteen kautta, mikä kattaa Llama 3.3:n, Qwen 2.5:n, Mistral Largen sekä muut avoimet mallit, joita palvelee Ollama, vLLM, llama.cpp tai mukautettu päättelykontti. Aktiivinen malli valitaan TAKPILOT_MODEL- ja TAKPILOT_API_BASE-ympäristömuuttujien kautta — koodimuutoksia ei tarvita.

+Voiko TAKpilot toimia ilman internetyhteyttä?

Kyllä. TAKpilot:n ilmarakkoinen käyttöönottopolku ohjaa kaiken mallin päättelyn paikalliselle OpenAI-yhteensopivalle päättelypalvelimelle, joka toimii samassa taktisessa lähiverkossa tai samalla fyysisellä isäntäkoneella. Liikenne ei poistu verkosta. Operaattorit ottavat käyttöön mallin kuten Llama 3.3 70B tai Qwen 2.5 72B lujatekoisen GPU-palvelimen päällä, paljastavat sen yksityisessä päätepisteessä (esim. http://192.168.1.50:11434/v1) ja asettavat TAKPILOT_API_BASE:n kyseiseen osoitteeseen. TAKpilot muodostaa yhteyden siihen täsmälleen samalla tavalla kuin pilvipalveluntarjoajaan — ainoa ero on kuljetuskerros.

+Miten TAKpilot varmistaa, että operaattoridata ei poistu verkosta?

TAKpilot pakottaa istuntokohtaisen hiekkalaatikon kaikelle operaattoridatalle. Jokainen operaattori-istunto saa eristetyn kontekstin, jota ei koskaan kirjoiteta levylle eikä jaeta istuntojen välillä. Kun operaattori katkaisee yhteyden, istuntokonteksti — mukaan lukien kaikki viestit, työkutsujen tulokset ja COP-viitteet — poistetaan muistista. Pilvipalvelimella isännöidyille malleille (Claude Anthropic API:n kautta) Anthropicin yritystietojen käytännöt pätevät; ilmarakoisissa käyttöönotoissa paikallisilla malleilla data ei koskaan poistu taktisesta lähiverkosta, koska päättelypiste on paikallinen. Luokiteltuja työmääriä käsittelevien operaattorien tulisi aina ottaa TAKpilot käyttöön ilmarakoisessa tilassa paikallisesti isännöityä mallia vastaan.

+Mitkä ovat laitteistovaatimukset Llama 3.3 70B:n ajamiseksi taktisella reunapalvelimella?

Llama 3.3 70B 4-bittisessä kvantisoinnissa (GGUF Q4_K_M) vaatii noin 40 Gt VRAM-muistia. Yksittäinen NVIDIA RTX 4090 (24 Gt) ei riitä täydellä tarkkuudella; kaksi-GPU-asetusta tai palveluluokan A100/H100 suositellaan täyden 70 miljardin parametrin päättelyyn. Rajoittuneempaan taktiseen laitteistoon Llama 3.3 8B (Q4_K_M, ~5 Gt VRAM) tai Qwen 2.5 7B tarjoavat hyväksyttävän suorituskyvyn yhdellä kuluttaja-GPU:lla. Päättelynopeus 70B:llä A100:lla on noin 25–40 tokenia sekunnissa, mikä riittää keskusteleviin COP-vuorovaikutuksiin hyväksyttävällä viiveellä.

+Voiko TAKpilot vaihtaa malleja operaation aikana ilman palvelimen uudelleenkäynnistystä?

Mallivalinta nykyisessä TAKpilot-julkaisussa asetetaan käynnistyksen yhteydessä ympäristömuuttujien kautta ja koskee kaikkia istuntoja. Kuumavaihtoa mallien välillä ilman palvelimen uudelleenkäynnistystä ei tueta peruskonfiguraatiossa. Koska TAKpilot on kuitenkin avoimen lähdekoodin AGPL-3.0-lisenssillä, käyttöönottajat, jotka tarvitsevat istuntokohtaisen mallivalinnan, voivat laajentaa konfiguraatio-API:a. Yleinen kaava moniluokitusympäristöissä on ajaa kahta TAKpilot-instanssia erillisillä porteilla — yksi yhdistettynä pilvi-Claude-päätepisteeseen luokittelemattomaan työhön, toinen paikalliseen Llama-päätepisteeseen luokiteltuihin operaatioihin — ja ohjata operaattorit asianmukaiseen instanssiin käänteisen välityspalvelimen kautta.