Obronny model AI jest tylko tak dobry, jak dane, na których został wytrenowany. To zdanie powtarza się na tyle często, że straciło swoją operacyjną wagę – ale w praktyce większość nieudanych wdrożeń obronnej AI nie wywodzi się z wyborów architektury modelu, lecz z problemów jakości etykietowania, które były niewidoczne w czasie treningu i katastrofalne w czasie inferencji. Budowa rygorystycznego potoku etykietowania danych dla obrazowania obronnego to problem inżynierii systemów, a nie problem wprowadzania danych. Wymaga narzędzi do anotacji, obsługi klasyfikacji, automatyzacji kontroli jakości, pętli uczenia aktywnego i dyscypliny zarządzania zbiorami danych, która przetrwa rotację personelu, audyty klasyfikacji i iteracyjne cykle rozwoju modelu.

Ten artykuł przeprowadza przez każdy etap produkcyjnego potoku etykietowania obronnej AI: pozyskanie i triaż, definicję schematu, projekt przepływu anotacji, pomiar zgodności między anotatorami, integrację uczenia aktywnego oraz zautomatyzowane kontrole jakości, które stanowią bramkę dla zbioru danych przed jego zatwierdzeniem do treningu modelu. Tam, gdzie to istotne, łączy się z kwestiami wcześniejszymi w generowaniu danych syntetycznych oraz kwestiami późniejszymi w walidacji modelu – potok etykietowania jest pomostem między tymi dwiema dyscyplinami.

1. pozyskanie i triaż obrazowania

Potok zaczyna się, zanim jakikolwiek ludzki anotator zobaczy obraz. Surowe obrazowanie napływa z heterogenicznych źródeł: kanałów czujników ISR, rendererów symulacji, zdarzeń zbierania w terenie i zatwierdzonych otwartodomenowych zbiorów lotniczych używanych do uzupełnienia kolekcji niejawnych. Każde źródło ma inne cechy jakościowe, a przetwarzanie ich jednolicie bez kroku triażu produkuje etykietowany zbiór danych z ukrytą wariancją jakości.

Zautomatyzowany triaż obejmuje cztery kategorie odrzucenia. Pliki uszkodzone lub nieczytelne – obrazy, których nie da się zdekodować, pliki obcięte lub pliki, w których metadane raportują wymiary niezgodne z buforem pikseli. Duplikaty klatek – dokładne duplikaty identyfikowane przez skrót treści oraz bliskie duplikaty identyfikowane przez skrót percepcyjny (pHash z konfigurowalnym progiem odległości Hamminga). Duplikaty w zbiorze treningowym zawyżają pozorny rozmiar zbioru, powodują, że model zapamiętuje konkretne klatki zamiast generalizować, i wprowadzają wyciek danych między podziałami treningowym i walidacyjnym, jeśli duplikat pojawia się po obu stronach podziału. Niepowodzenia jakości – obrazy poniżej minimalnego wyniku ostrości (wariancja Laplace'a poniżej progu), obrazy ze skrajną nad- lub niedoekspozycją (przycinanie histogramu powyżej 5% pikseli) oraz obrazy z artefaktami czujnika (martwe piksele, prążkowanie, winietowanie powyżej skalibrowanego progu). Obrazy źródłowe nie na temat lub błędnie oznaczone – filtr stosujący lekki klasyfikator binarny do odrzucania obrazów, które wyraźnie nie należą do żadnej klasy docelowej w schemacie (np. przypadkowo pozyskane zdjęcia sprzętu stacji naziemnej w zbiorze detekcji pojazdów z perspektywy UAV).

Przypisanie oznaczeń klasyfikacyjnych odbywa się w momencie pozyskania, a nie w czasie anotacji. Każdemu obrazowi wchodzącemu do potoku trzeba przypisać poziom klasyfikacji, zanim trafi do jakiejkolwiek kolejki. Potok egzekwuje kontrolę dostępu na tym poziomie: anotatorom o niższych uprawnieniach nie można przydzielać obrazów powyżej ich poziomu uprawnień, a każda taka próba musi być rejestrowana i sygnalizowana alertem. To twarde ograniczenie systemowe, a nie proceduralne – platforma anotacji musi je egzekwować, a nie polegać na ręcznej weryfikacji przez menedżerów kolejki.

2. projekt i wersjonowanie schematu anotacji

Schemat anotacji jest kontraktem między zespołem etykietującym a potokiem treningu modelu. Schemat, który jest niejednoznaczny, niedostatecznie określony lub zmieniony w trakcie projektu, produkuje zbiór danych, w którym różne partie były etykietowane pod różnymi regułami – niespójność, która degraduje generalizację modelu w sposób niemal niemożliwy do zdiagnozowania po fakcie.

Produkcyjnej jakości schemat anotacji dla obrazowania obronnego określa:

Taksonomię klas. Każdą klasę docelową, zorganizowaną hierarchicznie, jeśli model będzie używany na wielu poziomach szczegółowości (np. pojazd → pojazd kołowy → lekki pojazd kołowy → wariant HMMWV). Każda klasa ma definicję, zestaw przykładów pozytywnych, zestaw przykładów twardych negatywów (podobne obiekty, które NIE powinny otrzymać tej etykiety) oraz wyraźne reguły dla przypadków niejednoznacznych. Przypadki niejednoznaczne są najważniejszą częścią schematu – to przypadki, w których dwóch rozsądnych anotatorów by się nie zgodziło, a rozwiązanie tej niejednoznaczności na piśmie przed rozpoczęciem anotacji jest o rzędy wielkości tańsze niż rozstrzyganie wynikających z niej niezgodności w etykietowanych danych.

Typ geometrii i ograniczenia. Czy każda klasa jest etykietowana ramkami ograniczającymi wyrównanymi do osi, obróconymi ramkami ograniczającymi (ważne dla obrazowania lotniczego, gdzie pojazdy nie zawsze są wyrównane do osi), wielokątami czy punktami kluczowymi. Ograniczenia dotyczące minimalnego rozmiaru anotacji (np. nie etykietuje się ramki ograniczającej mniejszej niż 10×10 pikseli, aby unikać anotowania celów poniżej rozdzielczości, których detektor nie jest w stanie realistycznie zlokalizować).

Pola atrybutów. Atrybuty na anotację wykraczające poza etykietę klasy: poziom zasłonięcia (brak / częściowy / silny), obcięcie (czy obiekt jest ucięty przy krawędzi obrazu), pewność (samoocena pewności anotatora) oraz wszelkie pola specyficzne dla dziedziny (kurs orientacji pojazdu, typ kamuflażu, stan aktywności).

Wersje schematu muszą być śledzone w repozytorium dokumentów, z każdą etykietowaną partią powiązaną z wersją schematu, pod którą została wyprodukowana. Gdy schemat się zmienia – klasa dzieli się na dwie, przypadek niejednoznaczny zostaje rozwiązany inaczej, ograniczenie geometrii zostaje zaostrzone – wymagane jest podniesienie wersji schematu, a wszelkie wcześniej etykietowane partie podlegające zmienionym regułom muszą zostać oznaczone do ponownego audytu. Mieszanie anotacji z różnych wersji schematu w jednym zbiorze treningowym bez wyraźnego uzgodnienia jest jednym z najczęstszych źródeł szumu etykiet w długotrwałych programach obronnej AI.

3. przepływ anotacji i zgodność między anotatorami

Przepływ anotacji jest problemem zarządzania kolejką. Obrazy płyną z systemu triażu do kolejki anotacji, anotatorzy pobierają zadania z kolejki, ukończone anotacje są zapisywane w magazynie zbioru danych, a podzbiór ukończonych anotacji jest kierowany do drugiego anotatora w celu pomiaru zgodności między anotatorami (IAA).

Pomiar IAA jest najważniejszym sygnałem jakości w potoku. Dla zadań klasyfikacji kappa Cohena jest standardową metryką – mierzy zgodność powyżej przypadku, więc jest niewrażliwa na nierównowagę klas w sposób, w jaki surowy procent zgodności nie jest. Dla zadań ramek ograniczających standardem jest średnie przecięcie nad sumą (mIoU) między parami anotatorów na tym samym obrazie – próg 0,7 mIoU jest rozsądnym minimum dla dobrze zdefiniowanych klas obiektów, ale klasy o z natury niejednoznacznych granicach (listowie, częściowo zdekonstruowane stanowiska) mogą działać przy niższych progach z wyraźnym uzasadnieniem.

Pomiar IAA powinien obejmować 10–15% każdej partii, wybranych losowo. Wyniki powinny być wyświetlane na pulpicie pokazującym IAA na anotatora, na klasę i na sekcję schematu. Niskie IAA dla konkretnej klasy jest sygnałem, że schemat tej klasy wymaga doprecyzowania, a nie że anotatorzy słabo się sprawują. Niskie IAA dla konkretnego anotatora jest sygnałem do ukierunkowanej kalibracji. Potok powinien automatycznie wyzwalać krok rozstrzygnięcia, gdy IAA dla jakiejkolwiek klasy spadnie poniżej zdefiniowanego progu: niezgadzająca się para anotacji jest kierowana do starszego anotatora, który tworzy etykietę wzorcową. Rozstrzygnięte obrazy zasilają następnie zestaw kalibracyjny anotatorów używany przy wdrażaniu do kolejnych partii.

Narzędzia dla obronnych platform anotacji

Obronne platformy anotacji mają wymagania, których konsumenckie narzędzia etykietowania nie spełniają: wdrożenie lokalne lub w izolacji sieciowej (bez wysyłania niejawnego obrazowania do chmurowych usług anotacji), kontrola dostępu na poziomie klasyfikacji na partycję zbioru danych, rejestrowanie audytowe każdej akcji anotatora oraz zgodność z ITAR/przepisami eksportowymi dla programów wielonarodowych. CVAT (Computer Vision Annotation Tool) to szeroko wdrażana platforma open source obsługująca hosting lokalny i mająca aktywną społeczność integracji obronnej. Label Studio to kolejna opcja o bardziej elastycznej architekturze wtyczek. Dla programów wymagających formalnej certyfikacji środowiska etykietowania istnieją dedykowane platformy obronne dostępne przez specyficzne dla obronności kanały zaopatrzeniowe.

Kluczowy wniosek: Najdroższy błąd etykietowania w obronnej AI to nie pojedynczy błędnie oznaczony obraz – to niejednoznaczna definicja klasy skutkująca systematyczną niespójnością etykietowania na tysiącach obrazów. Zanim jakikolwiek anotator dotknie danych, zainwestuj w schemat: napisz przykłady pozytywne i negatywne dla każdej klasy, rozwiąż na piśmie każdy przewidywalny przypadek niejednoznaczny i przeprowadź sesję kalibracyjną, w której anotatorzy etykietują ten sam zestaw 50 obrazów i omawiają niezgodności. Ta sesja kosztuje godziny i oszczędza miesiące.

4. integracja uczenia aktywnego

Obronne zbiory danych są zwykle duże pod względem surowej liczby obrazów, ale kosztowne w etykietowaniu. Zdarzenie zbierania w terenie dla programu ISR może wyprodukować setki tysięcy klatek, z których tylko ułamek zawiera klasy docelowe będące przedmiotem zainteresowania. Etykietowanie całej puli jednolicie jest marnotrawstwem – znaczna część obrazowania będzie nieinformacyjna dla treningu (puste klatki tła, zduplikowane sceny, warunki już dobrze reprezentowane w istniejącym zbiorze etykietowanym). Uczenie aktywne kieruje wysiłek anotatorów ku obrazom, które model uznaje za najbardziej niepewne, redukując całkowity budżet anotacji wymagany do osiągnięcia docelowego poziomu wydajności modelu.

Standardowa pętla uczenia aktywnego dla obronnego potoku etykietowania AI przebiega następująco. Początkowy zbiór inicjujący (zwykle 1000–5000 etykietowanych obrazów wybranych przez próbkowanie stratyfikowane między klasami i warunkami) jest używany do wytrenowania modelu bazowego. Wytrenowany model jest następnie uruchamiany w trybie inferencji na całej puli nieetykietowanej. Każdemu nieetykietowanemu obrazowi przypisuje się wynik niepewności: dla głowic klasyfikacyjnych entropia predykcji (entropia Shannona rozkładu softmax) lub najmniejsza pewność (jeden minus prawdopodobieństwo klasy o najwyższej predykcji) są najczęstszymi wyborami. Dla modeli detekcji powszechnym przybliżeniem jest agregacja wyników pewności na detekcję w obrębie obrazu – obrazy, w których detektor produkuje wiele detekcji o niskiej pewności lub sprzecznych, są uznawane za o wysokiej niepewności.

Obrazy o najwyższej niepewności – zwykle górne 5–10% puli nieetykietowanej według wyniku niepewności – są dodawane do następnej partii anotacji. Po etykietowaniu model jest ponownie trenowany na rozszerzonym zbiorze etykietowanym i cykl się powtarza. Śledzenie krzywej mAP względem skumulowanej liczby anotacji w kolejnych cyklach kwantyfikuje zysk efektywności z uczenia aktywnego. W produkcyjnych programach obronnych z dużymi pulami nieetykietowanymi uczenie aktywne zwykle redukuje liczbę anotacji potrzebnych do osiągnięcia docelowego mAP o 30–60% w porównaniu z losowym próbkowaniem z puli nieetykietowanej.

Jedno ważne zastrzeżenie: uczenie aktywne optymalizuje pod kątem niepewności modelu, co nie jest tożsame z optymalizacją pod kątem wydajności modelu w najtrudniejszych przypadkach operacyjnych. Rzadkie, ale operacyjnie krytyczne klasy docelowe (nowe typy pojazdów, nietypowe konfiguracje, kamuflaż przeciwnika) mogą mieć bardzo niską reprezentację w puli o wysokiej niepewności, jeśli model nigdy nie widział ich przykładów. Uczenie aktywne powinno być łączone z ukierunkowanym zbieraniem – celowym pozyskiwaniem i etykietowaniem przykładów znanych trybów awarii modelu – a nie używane jako pełne zastępstwo dla kuratorstwa kolejki etykietowania przez ekspertów dziedzinowych.

5. obsługa klasyfikacji i zarządzanie zbiorami danych

W kontekście obronnym „klasyfikacja" ma dwa odrębne znaczenia, które potok musi obsługiwać jednocześnie: zadanie uczenia maszynowego polegające na przypisaniu etykiety klasy do obiektu oraz klasyfikację bezpieczeństwa informacji samego obrazowania. Mieszanie tych dwóch znaczeń w projekcie potoku produkuje albo naruszenia bezpieczeństwa, albo niepotrzebnie restrykcyjne przepływy etykietowania – oba są kosztowne.

Architektura obsługi klasyfikacji w potoku powinna wyraźnie rozdzielać te kwestie. Klasyfikacja bezpieczeństwa informacji jest właściwością obrazu i jest egzekwowana przez warstwę kontroli dostępu – anotatorzy widzą tylko obrazy na poziomie swoich uprawnień lub poniżej, a oznaczenia klasyfikacyjne podróżują z obrazem przez każdy etap potoku. Taksonomia klas ML jest właściwością schematu anotacji i jest zarządzana przez przepływ etykietowania. Te dwa systemy klasyfikacji działają na ortogonalnych osiach: pojedynczy obraz może być JAWNY (bezpieczeństwo informacji), zawierając jednocześnie WROGI-POJAZD-KOŁOWY (klasa ML), a obraz POUFNY może zawierać tylko tło bez żadnych anotowanych obiektów.

Zarządzanie zbiorami danych – zestaw polityk określających, jak etykietowany zbiór danych może być używany, udostępniany i modyfikowany – musi być skodyfikowane przed wyprodukowaniem pierwszej anotacji, a nie po. Karta zbioru danych jest standardowym artefaktem dla tego celu: ustrukturyzowany dokument rejestrujący wersję schematu zbioru, poziom klasyfikacji, liczbę anotatorów i ich poziomy uprawnień, wyniki IAA, rozkład klas, status zaliczenia/niezaliczenia QC dla każdej zautomatyzowanej kontroli, przebiegi treningu, które wykorzystały zbiór, oraz wszelkie znane ograniczenia lub uprzedzenia. Karta zbioru podróżuje z każdym eksportem zbioru i jest aktualizowana, gdy zbiór jest modyfikowany, rozszerzany lub ponownie etykietowany pod nową wersją schematu.

6. zautomatyzowane kontrole jakości przed zatwierdzeniem do treningu

Żaden zbiór danych nie powinien być zatwierdzony do treningu modelu bez przejścia zestawu zautomatyzowanych kontroli jakości. Te kontrole wychwytują systematyczne problemy, które przegląd ludzki pomija, ponieważ recenzenci badają pojedyncze anotacje, a nie statystyki na poziomie zbioru danych.

Audyt rozkładu klas. Weryfikacja, że każda klasa spełnia minimalny próg liczby instancji. Klasy poniżej progu są oznaczane – albo wysiłek zbierania i etykietowania tej klasy musi być zwiększony, albo klasa musi zostać połączona z klasą nadrzędną dla bieżącego przebiegu treningu. Sprawdź też współczynnik nierównowagi między najczęstszą a najrzadszą klasą: skrajna nierównowaga (ponad 100:1) bez strategii kompensujących (nadpróbkowanie, ważenie straty) jest niezawodnym predyktorem słabej czułości na klasach mniejszościowych.

Poprawność ramek ograniczających. Oznaczaj anotacje o zerowej lub ujemnej powierzchni, anotacje wykraczające poza granicę obrazu oraz anotacje o proporcjach poza fizycznie prawdopodobnym zakresem dla anotowanej klasy. Ramka ograniczająca wokół stojącej osoby o stosunku szerokości do wysokości 3:1 jest niemal na pewno błędem. Te kontrole wychwytują błędy anotatorów, które są indywidualnie rzadkie, ale skumulowane znaczące w skali zbioru danych.

Wykrywanie duplikatów i wycieków. Uruchom pełny zestaw wykrywania duplikatów (skrót dokładny + skrót percepcyjny) na finalnym zbiorze etykietowanym przed podziałem na partycje treningową, walidacyjną i testową. Po podziale zweryfikuj, że żaden obraz nie pojawia się w więcej niż jednej partycji. Jeśli zbiór został rozszerzony (odbicia, obroty, kadrowania), uruchom wykrywanie bliskich duplikatów na zbiorze po rozszerzeniu i upewnij się, że rozszerzone warianty tego samego obrazu źródłowego nie są rozdzielone między treningiem a walidacją.

Pokrycie anotacji. Zweryfikuj, że każdy obraz jest albo anotowany, albo wyraźnie oznaczony jako twardy negatyw (potwierdzony obraz niezawierający żadnych instancji jakiejkolwiek klasy docelowej). Obrazy bez anotacji i bez flagi twardego negatywu są niejednoznaczne – mogą być nieanotowanymi pozytywami (pominięte anotacje) lub prawdziwymi negatywami. Oba stany są szkodliwe: nieanotowane pozytywy produkują fałszywie negatywny sygnał treningowy; niezweryfikowane obrazy tła dodają szum do zbioru twardych negatywów. Kontrola pokrycia wychwytuje obrazy, które przeszły przez kolejkę anotacji bez właściwej obsługi.

Po przejściu wszystkich kontroli zbiór danych jest eksportowany do docelowego formatu – COCO JSON dla potoków wielozadaniowych, YOLO TXT dla treningu specyficznego dla detektorów – z oznaczeniami klasyfikacyjnymi osadzonymi w metadanych każdego pliku wyjściowego. Zdarzenie eksportu jest rejestrowane z wersją karty zbioru danych, raportem QC i tożsamością inżyniera, który zatwierdził eksport. Ten ślad audytowy jest ostatnią linią obrony przed uruchomieniem przebiegu treningu na niezatwierdzonym lub błędnie wersjonowanym zbiorze danych.

Integruj dane czujników z zaufaną AI na brzegu sieci

Corvus SENSE łączy czujniki ISR z brzegowymi potokami inferencji AI – zbudowany dla środowisk, w których jakość danych, obsługa klasyfikacji i niezawodność inferencji nie są opcjonalne. Od pozyskania do wyniku SENSE egzekwuje dyscyplinę danych, która sprawia, że decyzje wspomagane przez AI są godne zaufania w terenie.

Poznaj Corvus SENSE → Zarezerwuj briefing

Tę analizę przygotowali inżynierowie Corvus Intelligence, którzy budują krytyczne dla misji systemy ISR i brzegowej AI dla organizacji obronnych i rządowych. Poznaj nasz zespół →