Edge AI

Construirea unei conducte de etichetare a datelor AI pentru imagistica de apărare

De Echipa de inginerie Corvus Intelligence · Despre echipă →

11 iunie 2026 9 min de citit

Un model AI de apărare este la fel de bun ca datele pe care a fost antrenat. Această frază este repetată suficient de des încât și-a pierdut greutatea operațională – dar în practică, majoritatea implementărilor eșuate de AI de apărare nu se datorează alegerilor de arhitectură a modelului, ci problemelor de calitate a etichetării care erau invizibile la momentul antrenamentului și catastrofale la momentul inferenței. Construirea unei conducte riguroase de etichetare a datelor pentru imagistica de apărare este o problemă de inginerie a sistemelor, nu o problemă de introducere a datelor. Necesită instrumente de adnotare, gestionarea clasificării, automatizarea controlului calității, bucle de învățare activă și o disciplină de guvernanță a seturilor de date care poate supraviețui rotației personalului, auditurilor de clasificare și ciclurilor iterative de dezvoltare a modelului.

Acest articol parcurge fiecare etapă a unei conducte de etichetare AI de apărare în producție: ingestie și triaj, definirea schemei, proiectarea fluxului de adnotare, măsurarea acordului inter-adnotatori, integrarea învățării active și verificările automate de calitate care funcționează ca o barieră pentru un set de date înainte de aprobarea sa pentru antrenamentul modelului. Acolo unde este relevant, se conectează la preocupările din amonte privind generarea de date sintetice și la preocupările din aval privind validarea modelului – conducta de etichetare este puntea dintre aceste două discipline.

1. ingestia și triajul imagisticii

Conducta începe înainte ca vreun adnotator uman să vadă o imagine. Imagistica brută sosește din surse eterogene: fluxuri de senzori ISR, randere de simulare, evenimente de colectare pe teren și seturi de date aeriene cu domeniu deschis aprobate, folosite pentru a suplimenta colectările clasificate. Fiecare sursă are caracteristici de calitate diferite, iar procesarea lor uniformă fără o etapă de triaj produce un set de date etichetat cu o varianță de calitate ascunsă.

Triajul automat acoperă patru categorii de respingere. Fișiere corupte sau ilizibile – imagini care nu pot fi decodate, fișiere trunchiate sau fișiere unde metadatele raportează dimensiuni incompatibile cu bufferul de pixeli. Cadre duplicate – duplicate exacte identificate prin hash de conținut și cvasi-duplicate identificate prin hash perceptual (pHash cu un prag configurabil de distanță Hamming). Duplicatele într-un set de antrenament umflă dimensiunea aparentă a setului de date, determină modelul să memoreze cadre specifice în loc să generalizeze și introduc scurgeri de date între diviziunile de antrenament și validare dacă duplicatul apare pe ambele părți ale diviziunii. Eșecuri de calitate – imagini sub un scor minim de claritate (varianța Laplace sub un prag), imagini cu supra- sau subexpunere extremă (decuparea histogramei peste 5% din pixeli) și imagini cu artefacte de senzor (pixeli blocați, benzi, vignetare peste un prag calibrat). Imagini sursă în afara subiectului sau etichetate greșit – un filtru care aplică un clasificator binar ușor pentru a respinge imaginile care în mod clar nu aparțin niciunei clase țintă din schemă (de ex. fotografii cu echipament de stație la sol ingerate accidental într-un set de detecție a vehiculelor din perspectivă UAV).

Atribuirea marcajelor de clasificare se face la ingestie, nu la momentul adnotării. Fiecărei imagini care intră în conductă trebuie să i se atribuie un nivel de clasificare înainte de a intra în orice coadă. Conducta impune controlul accesului la acest nivel: adnotatorilor cu autorizare inferioară nu li se pot atribui imagini peste nivelul lor de autorizare, iar orice astfel de încercare trebuie înregistrată și semnalată prin alertă. Aceasta este o constrângere de sistem strictă, nu procedurală – platforma de adnotare trebuie să o impună, nu să se bazeze pe verificarea manuală a managerilor de coadă.

2. proiectarea și versionarea schemei de adnotare

Schema de adnotare este contractul dintre echipa de etichetare și conducta de antrenament a modelului. O schemă care este ambiguă, insuficient specificată sau modificată la mijlocul proiectului produce un set de date în care diferite loturi au fost etichetate sub reguli diferite – o inconsistență care degradează generalizarea modelului în moduri aproape imposibil de diagnosticat ulterior.

O schemă de adnotare de calitate de producție pentru imagistica de apărare specifică:

Taxonomia claselor. Fiecare clasă țintă, organizată ierarhic dacă modelul va fi folosit la mai multe niveluri de specificitate (de ex. vehicul → vehicul cu roți → vehicul ușor cu roți → variantă HMMWV). Fiecare clasă are o definiție, un set de exemple pozitive, un set de exemple de negative dure (obiecte similare care NU ar trebui să primească această etichetă) și reguli explicite pentru cazuri ambigue. Cazurile ambigue sunt cea mai importantă parte a schemei – sunt cazurile în care doi adnotatori rezonabili ar fi în dezacord, iar rezolvarea acelei ambiguități în scris înainte de începerea adnotării este cu ordine de mărime mai ieftină decât arbitrarea dezacordurilor rezultate în datele etichetate.

Tipul de geometrie și constrângerile. Dacă fiecare clasă este etichetată cu casete de delimitare aliniate la axe, casete de delimitare rotite (importante pentru imagistica aeriană unde vehiculele nu sunt întotdeauna aliniate la axe), poligoane sau puncte-cheie. Constrângeri privind dimensiunea minimă a adnotării (de ex. nu se etichetează nicio casetă de delimitare mai mică de 10×10 pixeli, pentru a evita adnotarea țintelor sub-rezoluție pe care un detector nu le poate localiza realist).

Câmpuri de atribute. Atribute per adnotare dincolo de eticheta de clasă: nivel de ocluzie (niciuna / parțială / puternică), trunchiere (dacă obiectul este tăiat la marginea imaginii), încredere (certitudinea auto-evaluată a adnotatorului) și orice câmpuri specifice domeniului (direcția de orientare a vehiculului, tipul de camuflaj, starea de activitate).

Versiunile schemei trebuie urmărite într-un depozit de documente, cu fiecare lot etichetat legat de versiunea schemei sub care a fost produs. Când schema se modifică – o clasă se împarte în două, un caz ambiguu este rezolvat diferit, o constrângere de geometrie este înăsprită – este necesară o creștere a versiunii schemei, iar orice loturi etichetate anterior care intră sub regulile modificate trebuie semnalate pentru reaudit. Amestecarea adnotărilor din diferite versiuni de schemă într-un singur set de date de antrenament fără reconciliere explicită este una dintre cele mai frecvente surse de zgomot al etichetelor în programele AI de apărare de lungă durată.

3. fluxul de adnotare și acordul inter-adnotatori

Fluxul de adnotare este o problemă de gestionare a cozii. Imaginile curg de la sistemul de triaj într-o coadă de adnotare, adnotatorii preiau sarcini din coadă, adnotările finalizate sunt scrise în depozitul setului de date, iar un subset al adnotărilor finalizate este direcționat către un al doilea adnotator pentru măsurarea acordului inter-adnotatori (IAA).

Măsurarea IAA este cel mai important semnal de calitate din conductă. Pentru sarcini de clasificare, kappa lui Cohen este metrica standard – măsoară acordul peste șansă, deci este insensibilă la dezechilibrul claselor într-un mod în care procentul brut de acord nu este. Pentru sarcini de casete de delimitare, intersecția medie peste reuniune (mIoU) între perechile de adnotatori pe aceeași imagine este standardul – un prag de 0,7 mIoU este un minim rezonabil pentru clase de obiecte bine definite, dar clasele cu limite inerent ambigue (frunziș, amplasamente parțial deconstruite) pot opera la praguri mai mici cu o justificare explicită.

Măsurarea IAA ar trebui să acopere 10–15% din fiecare lot, selectate aleatoriu. Rezultatele ar trebui afișate într-un tablou de bord care arată IAA per adnotator, per clasă și per secțiune de schemă. Un IAA scăzut pentru o clasă specifică este un semnal că schema pentru acea clasă necesită clarificare, nu că adnotatorii performează slab. Un IAA scăzut pentru un adnotator specific este un semnal pentru calibrare țintită. Conducta ar trebui să declanșeze automat o etapă de arbitraj când IAA pentru orice clasă scade sub pragul definit: perechea de adnotări în dezacord este direcționată către un adnotator senior care produce eticheta etalon. Imaginile arbitrate alimentează apoi setul de calibrare a adnotatorilor folosit în integrarea pentru loturile ulterioare.

Instrumente pentru platformele de adnotare de apărare

Platformele de adnotare de apărare au cerințe pe care instrumentele de etichetare de uz general nu le abordează: implementare la sediu sau izolată de rețea (fără trimiterea imagisticii clasificate către servicii de adnotare în cloud), control al accesului la nivel de clasificare per partiție de set de date, înregistrare de audit a fiecărei acțiuni a adnotatorului și conformitate ITAR/export pentru programe multinaționale. CVAT (Computer Vision Annotation Tool) este o platformă open-source larg implementată care suportă găzduirea la sediu și are o comunitate activă de integrare în apărare. Label Studio este o altă opțiune cu o arhitectură de pluginuri mai flexibilă. Pentru programele care necesită certificarea formală a mediului de etichetare, există platforme specializate axate pe apărare, disponibile prin canale de achiziții specifice apărării.

Idee cheie: Cea mai costisitoare greșeală de etichetare în AI de apărare nu este o singură imagine etichetată greșit – este o definiție de clasă ambiguă care duce la inconsistență sistematică de etichetare pe mii de imagini. Înainte ca un singur adnotator să atingă datele, investiți în schemă: scrieți exemple pozitive și negative pentru fiecare clasă, rezolvați în scris fiecare caz ambiguu previzibil și organizați o sesiune de calibrare în care adnotatorii etichetează același set de 50 de imagini și discută dezacordurile. Acea sesiune costă ore și economisește luni.

4. integrarea învățării active

Seturile de date de apărare sunt de obicei mari ca număr brut de imagini, dar costisitoare de etichetat. Un eveniment de colectare pe teren pentru un program ISR poate produce sute de mii de cadre, dintre care doar o fracțiune conțin clasele țintă de interes. Etichetarea uniformă a întregului bazin este o risipă – o porțiune substanțială a imagisticii va fi neinformativă pentru antrenament (cadre de fundal goale, scene duplicate, condiții deja bine reprezentate în setul etichetat existent). Învățarea activă direcționează efortul adnotatorilor către imaginile pe care modelul le găsește cele mai incerte, reducând bugetul total de adnotare necesar pentru a atinge un nivel țintă de performanță a modelului.

Bucla standard de învățare activă pentru o conductă de etichetare AI de apărare se desfășoară astfel. Un set de pornire inițial (de obicei 1.000–5.000 de imagini etichetate, selectate prin eșantionare stratificată pe clase și condiții) este folosit pentru a antrena un model de bază. Modelul antrenat este apoi rulat în modul de inferență pe întregul bazin neetichetat. Fiecărei imagini neetichetate i se atribuie un scor de incertitudine: pentru capetele de clasificare, entropia de predicție (entropia Shannon a distribuției softmax) sau cea mai mică încredere (unu minus probabilitatea clasei cel mai mult prezise) sunt cele mai frecvente alegeri. Pentru modelele de detecție, o aproximare comună este agregarea scorurilor de încredere per detecție pe imagine – imaginile unde detectorul produce multe detecții cu încredere scăzută sau conflictuale sunt considerate de incertitudine ridicată.

Imaginile de cea mai mare incertitudine – de obicei primele 5–10% din bazinul neetichetat după scorul de incertitudine – sunt adăugate la următorul lot de adnotare. După etichetare, modelul este reantrenat pe setul etichetat extins și ciclul se repetă. Urmărirea curbei mAP în raport cu numărul cumulat de adnotări de-a lungul ciclurilor cuantifică câștigul de eficiență din învățarea activă. În programele de apărare de producție cu bazine mari neetichetate, învățarea activă reduce de obicei numărul de adnotări necesare pentru a atinge un mAP țintă cu 30–60% comparativ cu eșantionarea aleatorie din bazinul neetichetat.

O avertizare importantă: învățarea activă optimizează pentru incertitudinea modelului, ceea ce nu este identic cu optimizarea pentru performanța modelului în cele mai dificile cazuri operaționale. Clasele țintă rare, dar critice operațional (tipuri noi de vehicule, configurații neobișnuite, camuflaj advers) pot avea o reprezentare foarte scăzută în bazinul de incertitudine ridicată dacă modelul nu a văzut niciodată exemple ale acestora. Învățarea activă ar trebui combinată cu colectarea țintită – achiziția și etichetarea deliberată a exemplelor de moduri de eșec cunoscute ale modelului – nu folosită ca înlocuitor complet pentru curarea cozii de etichetare de către experți în domeniu.

5. gestionarea clasificării și guvernanța seturilor de date

Într-un context de apărare, „clasificarea" are două semnificații distincte pe care conducta trebuie să le gestioneze simultan: sarcina de învățare automată de a atribui o etichetă de clasă unui obiect și clasificarea de securitate a informațiilor a imagisticii înseși. Confundarea acestor două semnificații în proiectarea conductei produce fie încălcări de securitate, fie fluxuri de etichetare inutil de restrictive – ambele sunt costisitoare.

Arhitectura de gestionare a clasificării conductei ar trebui să separe explicit aceste preocupări. Clasificarea de securitate a informațiilor este o proprietate a imaginii și este impusă de stratul de control al accesului – adnotatorii văd doar imagini la sau sub nivelul lor de autorizare, iar marcajele de clasificare călătoresc cu imaginea prin fiecare etapă a conductei. Taxonomia claselor ML este o proprietate a schemei de adnotare și este guvernată de fluxul de etichetare. Aceste două sisteme de clasificare operează pe axe ortogonale: o singură imagine poate fi NECLASIFICATĂ (securitatea informațiilor) conținând în același timp un VEHICUL-CU-ROȚI-OSTIL (clasă ML), iar o imagine CONFIDENȚIALĂ ar putea conține doar fundal fără obiecte adnotate.

Guvernanța seturilor de date – setul de politici care determină cum poate fi folosit, partajat și modificat un set de date etichetat – trebuie codificată înainte de producerea primei adnotări, nu după. O fișă a setului de date este artefactul standard pentru aceasta: un document structurat care înregistrează versiunea schemei setului de date, nivelul de clasificare, numărul de adnotatori și nivelurile lor de autorizare, scorurile IAA, distribuția claselor, statusul trecut/eșuat al CC pentru fiecare verificare automată, rulările de antrenament care au consumat setul de date și orice limitări sau părtiniri cunoscute. Fișa setului de date călătorește cu fiecare export al setului de date și este actualizată când setul de date este modificat, augmentat sau reetichetat sub o nouă versiune de schemă.

6. verificări automate de calitate înainte de aprobarea pentru antrenament

Niciun set de date nu ar trebui aprobat pentru antrenamentul modelului fără a trece o suită de verificări automate de calitate. Aceste verificări surprind probleme sistematice pe care revizuirea umană le ratează, deoarece revizorii examinează adnotări individuale în loc de statistici la nivel de set de date.

Audit al distribuției claselor. Verificați că fiecare clasă îndeplinește un prag minim de număr de instanțe. Clasele sub prag sunt semnalate – fie efortul de colectare și etichetare pentru acea clasă trebuie crescut, fie clasa trebuie fuzionată cu o clasă părinte pentru rularea curentă de antrenament. Verificați și raportul de dezechilibru între cea mai comună și cea mai puțin comună clasă: dezechilibrul extrem (peste 100:1) fără strategii de compensare (supraeșantionare, ponderarea pierderii) este un predictor fiabil al unei revocări slabe pe clasele minoritare.

Corectitudinea casetelor de delimitare. Semnalați adnotările cu arie zero sau negativă, adnotările care se extind în afara limitei imaginii și adnotările cu rapoarte de aspect în afara intervalului fizic plauzibil pentru clasa adnotată. O casetă de delimitare în jurul unei persoane în picioare cu un raport lățime/înălțime de 3:1 este aproape sigur o eroare. Aceste verificări surprind erorile adnotatorilor care sunt individual rare, dar cumulativ semnificative la scara setului de date.

Detecția duplicatelor și a scurgerilor. Rulați suita completă de detecție a duplicatelor (hash exact + hash perceptual) pe setul etichetat final înainte de împărțirea în partiții de antrenament, validare și testare. După împărțire, verificați că nicio imagine nu apare în mai mult de o partiție. Dacă setul de date a fost augmentat (răsturnări, rotații, decupări), rulați detecția cvasi-duplicatelor pe setul post-augmentare și asigurați-vă că variantele augmentate ale aceleiași imagini sursă nu sunt împărțite între antrenament și validare.

Acoperirea adnotărilor. Verificați că fiecare imagine este fie adnotată, fie marcată explicit ca negativ dur (o imagine confirmată care nu conține nicio instanță a vreunei clase țintă). Imaginile fără adnotare și fără indicator de negativ dur sunt ambigue – pot fi pozitive neadnotate (adnotări ratate) sau negative reale. Ambele stări sunt dăunătoare: pozitivele neadnotate produc semnal de antrenament fals-negativ; imaginile de fundal neverificate adaugă zgomot setului de negative dure. Verificarea acoperirii surprinde imaginile care au trecut prin coada de adnotare fără a fi gestionate corespunzător.

După ce toate verificările trec, setul de date este exportat în formatul țintă – COCO JSON pentru conducte multi-sarcină, YOLO TXT pentru antrenament specific detectoarelor – cu marcajele de clasificare încorporate în metadatele fiecărui fișier de ieșire. Evenimentul de export este înregistrat cu versiunea fișei setului de date, raportul de CC și identitatea inginerului care a aprobat exportul. Această pistă de audit este ultima linie de apărare împotriva lansării unei rulări de antrenament pe un set de date neaprobat sau versionat incorect.

Integrați datele senzorilor cu AI de încredere la margine

Corvus SENSE conectează senzorii ISR la conducte de inferență AI la margine – construit pentru medii unde calitatea datelor, gestionarea clasificării și fiabilitatea inferenței nu sunt opționale. De la ingestie la ieșire, SENSE impune disciplina datelor care face deciziile asistate de AI demne de încredere pe teren.

Explorați Corvus SENSE → Rezervați un briefing

Această analiză a fost pregătită de ingineri Corvus Intelligence care construiesc sisteme ISR și AI la margine critice pentru misiune, pentru organizații de apărare și guvernamentale. Aflați despre echipa noastră →

Întrebări frecvente

Ce formate de adnotare sunt standard pentru seturile de date de antrenament AI de apărare?

Cele mai utilizate formate de adnotare pentru AI de apărare sunt COCO JSON (casete de delimitare și măști de segmentare a instanțelor), YOLO TXT (coordonate normalizate de casete de delimitare per imagine) și Pascal VOC XML. COCO JSON este preferat pentru conducte complexe care combină sarcini de detecție și segmentare, deoarece consolidează toate adnotările într-un singur fișier cu o schemă bine documentată. YOLO TXT este preferat pentru conducte specifice detectoarelor, unde atât instrumentele de inferență, cât și cele de antrenament așteaptă nativ formatul YOLO. Pentru seturile de date multisenzor — EO plus IR — un model comun este menținerea de seturi de adnotare separate per modalitate și legarea lor printr-un ID de imagine partajat care corespunde perechilor de cadre sincronizate.

Cum ar trebui să funcționeze gestionarea clasificării într-o conductă de etichetare de apărare?

Datele de clasificare în conductele de etichetare de apărare necesită gestionare la două niveluri: sistemul de adnotare și conducta de export. La nivelul sistemului de adnotare, adnotatorii nu ar trebui să aibă niciodată acces la imagini peste nivelul lor de autorizare — platforma trebuie să impună controlul accesului pe partiție de set de date, nu doar pe proiect. La nivelul exportului, marcajele de clasificare trebuie încorporate în fiecare fișier exportat: în fișierele de adnotare JSON ca un câmp de metadate de nivel superior, în structurile de directoare printr-un fișier banner de clasificare și în orice format derivat TFRecord sau HDF5 ca atribute ale setului de date. Imaginile și adnotările nu ar trebui niciodată exportate într-un mediu necontrolat fără eliminarea sau retrogradarea marcajelor de clasificare ca parte a etapei de export.

Ce este acordul inter-adnotatori și de ce contează pentru AI de apărare?

Acordul inter-adnotatori (IAA) măsoară cât de consecvent diferiți adnotatori umani etichetează aceleași date. Este de obicei cuantificat ca kappa lui Cohen pentru sarcini de clasificare sau intersecție medie peste reuniune (mIoU) între perechile de adnotatori pentru sarcini de casete de delimitare și segmentare. În AI de apărare, un IAA scăzut este un semnal că ghidurile de adnotare sunt ambigue — iar ghidurile ambigue produc etichete zgomotoase care degradează performanța modelului în moduri greu de diagnosticat. Clasele țintă inerent ambigue (vehicule camuflate, personal parțial ocluzionat, momeli) necesită ghiduri de etichetare mai detaliate și sesiuni dedicate de calibrare a adnotatorilor. O conductă de producție ar trebui să măsoare IAA continuu și să semnaleze imaginile unde dezacordul depășește un prag pentru arbitraj de către un adnotator senior.

Cum reduc buclele de învățare activă costul de etichetare în conductele AI de apărare?

Învățarea activă reduce numărul total de imagini care trebuie adnotate manual prin direcționarea efortului adnotatorilor către imaginile pe care modelul le găsește cele mai informative. Bucla standard antrenează un model inițial pe un set de pornire, rulează inferența pe bazinul neetichetat, scorează fiecare imagine după o metrică de incertitudine (entropia distribuției de predicție sau marja dintre cele mai mari două probabilități de clasă) și trimite imaginile cu cea mai mare incertitudine mai întâi către adnotatori. În seturile de date de apărare cu bazine mari neetichetate, învățarea activă reduce în mod obișnuit numărul de adnotări necesare pentru a atinge un mAP țintă cu 30–60% comparativ cu eșantionarea aleatorie. Bucla ar trebui să fie automatizată: reantrenarea modelului, inferența pe bazinul neetichetat, scorarea incertitudinii și popularea cozii ar trebui să ruleze toate fără intervenție manuală între cicluri.

Ce verificări de control al calității ar trebui să ruleze înainte ca un set de date să fie aprobat pentru antrenament?

Un set de date AI de apărare de producție ar trebui să treacă cel puțin cinci verificări automate de calitate înainte de aprobarea pentru antrenament: (1) audit al distribuției claselor — verificați că clasele minoritare îndeplinesc un prag minim de număr și că raportul de dezechilibru al claselor este în intervalul acceptabil; (2) verificarea corectitudinii casetelor de delimitare — semnalați casetele cu arie zero, casetele care depășesc limitele imaginii și casetele cu rapoarte de aspect în afara intervalului așteptat pentru clasa adnotată; (3) detecția duplicatelor — eliminarea duplicatelor exacte bazată pe hash plus semnalarea cvasi-duplicatelor prin hash perceptual pentru a preveni scurgerile de date între diviziunile de antrenament și validare; (4) acoperirea adnotărilor — verificați că fiecare imagine are cel puțin o adnotare sau este marcată explicit ca negativ dur; și (5) verificarea scurgerii diviziunii — confirmați că nicio imagine nu apare atât în setul de antrenament, cât și în cel de validare, ținând cont de variantele augmentate ale aceleiași imagini sursă.