AI-зір для обробки SITREP: автоматичне вилучення об'єктів і розміщення на карті

Автор: Інженерна команда Corvus Intelligence · Про команду →

29 травня 2026 12 хв читання

Будь-який тактичний штаб працює на основі SITREP — донесень про обстановку, що агрегують спостереження від рівня взводу вгору й формують цілісну картину подій на полі бою. Проблема в тому, що значна частина цих SITREP досі надходить у вигляді рукописних схем на папері, сфотографованих карт, анотованих роздруківок знімків або відсканованих бланків. Перш ніж ця інформація потрапить до цифрової загальної оперативної картини (COP), вона проходить через оператора-людину, який читає документ, ідентифікує кожен тактичний об'єкт, переписує координатні прив'язки й вручну наносить підрозділ або загрозу на екран. Саме цей крок ручного введення є вузьким місцем і одним із найефективніших напрямів застосування AI-зору у військових операціях сьогодні.

Ця стаття описує повний технічний конвеєр автоматизації обробки SITREP за допомогою AI-зору: від завантаження зображення та попередньої обробки до вилучення об'єктів, розпізнавання координат, виведення символів NATO та генерації CoT-повідомлень для розміщення в TAK. Розглянуто, де конвеєр може діяти автономно, де потрібне підтвердження людини, як він інтегрується з CloudTAK через TAKpilot і що необхідно для роботи на граничному апаратному забезпеченні у відключених середовищах.

Вузьке місце обробки SITREP

Польовий SITREP, що надходить до батальйонного пункту управління, зазвичай має одну з кількох фізичних форм: рукописна схема на аркуші з координатною сіткою, фотографія карти з написами олівцем або маркером, відсканований чи сфотографований друкований бланк із заповненими вручну полями або — дедалі частіше — фото, зроблене солдатом на смартфон і передане через месенджер. У кожному випадку оператор, що отримав документ, виконує одні й ті самі дії: ідентифікує позивний підрозділу, що доповідає, знаходить координатні прив'язки кожного спостереженого об'єкта, визначає тип об'єкта (свій, ворожий, невідомий; тип техніки, скупчення живої сили, перешкода, вогнева позиція) і вносить усе це в цифрову COP.

За спокійної обстановки цей процес займає 3–8 хвилин на один SITREP. Під час стресу, вночі або в ході інтенсивних операцій, коли за годину може надходити кілька десятків SITREP, він перетворюється на вузьке місце, що призводить до небезпечного відставання тактичної картини. Когнітивна увага оператора — яка має бути зосереджена на інтерпретації та підтримці прийняття рішень — витрачається на переписування. Помилки при введенні трапляються часто: переставлені цифри координат, неправильно прочитані позивні, неоднозначна ідентифікація символів. Цифрова COP відстає від реальної ситуації на час, потрібний для обробки накопиченого бекlogу.

Моделі AI-зору усувають це вузьке місце, автоматизуючи крок транскрипції. Оператор завантажує або пересилає документ; модель вилучає об'єкти, розпізнає координати, ідентифікує символи і генерує структурований вивід, готовий до розміщення на карті. Роль оператора змінюється від переписувача до рецензента — він підтверджує або коригує результат роботи моделі перед внесенням до COP, що займає секунди, а не хвилини.

Конвеєр моделі зору: від завантаження до структурованого вилучення

Конвеєр починається із завантаження зображення. Вхідні формати включають фотографії JPEG та PNG, скани PDF, а іноді й відеокадри з пристрою солдата. Для багатосторінкових PDF кожна сторінка растеризується у зображення з високою роздільною здатністю (мінімум 300 DPI для відсканованих бланків; 150 DPI прийнятно для крупноформатних фотографій карт, де відповідні позначки великі). Крок вилучення метаданих фіксує дані EXIF — зокрема часову мітку та GPS-координати, якщо зображення зроблено на смартфон, — що може слугувати попередньою оцінкою очікуваного району операцій.

Попередня обробка — найважливіший етап для точності вилучення на деградованих польових документах. Конвеєр застосовує: вирівнювання перекосу за допомогою аналізу профілю проекцій або детектування ліній Хафа, коригуючи повороти документа до ±15°, характерні для знімків, зроблених з рук; адаптивну бінаризацію (алгоритм Саувола) замість глобальної порогової обробки, що справляється з нерівномірним освітленням, типовим для документів, сфотографованих у польових умовах; CLAHE для відновлення слабоконтрастних слідів олівця, які глобальне підсилення контрасту заглушить; морфологічне видалення шуму за допомогою операцій відкриття/закриття, розміри яких відповідають очікуваній мінімальній ширині штриха; та аналіз розмітки для сегментації документа на текстові ділянки, ділянки символів і ділянки координатної сітки перед маршрутизацією кожної до відповідного модуля обробки. Цей крок сегментації важливий: моделі OCR, застосовані до ділянок тактичних символів, дають безглузді результати, а класифікатори символів, застосовані до рукописних текстових полів, видають некоректні збіги.

Ключовий висновок: Аналіз розмітки — розділення тексту, символів і ділянок координатної сітки карти перед інференсом моделі — є найефективнішою інвестицією в попередню обробку для конвеєрів SITREP-зору. Маршрутизація кожного типу ділянки до правильної моделі усуває цілий клас помилок, які неможливо виправити на наступних етапах.

Вилучення координат: MGRS, UTM і відносні позиції

Вилучення координатних прив'язок є найтехнічно складнішою частиною обробки SITREP, оскільки рукописні рядки MGRS є неоднозначними одночасно у кількох відношеннях. Формат такий: десигнатор координатної зони (число від 1 до 60, за яким іде буква від C до X), двобуквений ідентифікатор квадрата 100 км, і числова пара схід/північ однакової довжини (2, 4, 6, 8 або 10 цифр). Десятизначний рядок MGRS, що визначає позицію з точністю до 1 м, містить 15 символів змінного формату, написаних від руки людиною в стресі, на рухомому транспортному засобі, можливо, при слабкому освітленні.

Підхід до вилучення поєднує виведення OCR зі структурованим валідатором. Після того як етап вилучення тексту генерує сирі послідовності токенів із текстових ділянок документа, кожен токен перевіряється на відповідність шаблону регулярного виразу для дійсного формату MGRS. Токени, що відповідають шаблону, записуються як координатні прив'язки з високою достовірністю. Токени, що частково відповідають, але не проходять валідацію, передаються до модуля нечіткого виправлення: зіставлення за відстанню редагування з попередньо обчисленою таблицею дійсних комбінацій десигнаторів координатних зон і квадратів 100 км для театру воєнних дій. Координатна прив'язка, яка не пройшла чисту обробку, але збігається з дійсним префіксом MGRS в межах відстані Левенштейна 2, приймається зі зниженою достовірністю і позначається для перевірки оператором.

Координати UTM (які використовують деякі підрозділи, зокрема сили не NATO або ті, що використовують застарілі системи) обробляються паралельним шляхом вилучення. Валідатор перевіряє номер зони, букву півкулі та пару схід/північ у десятковому або градусно-хвилинно-секундному записі.

Посилання на відносні позиції — вкрай поширені в рукописних схемах, де об'єкт позначається як «400 м на ПН-СХ від контрольного пункту БРАВО», а не явними координатами — вимагають просторових міркувань, що виходять за межі зіставлення регулярних виразів. Конвеєр використовує підказку з ланцюжком думок для VLM (або засновану на правилах синтаксичний аналізатор для граничного розгортання без підключення) для вилучення опорної точки, азимуту (інтерпрованого з компасного запису, кардинального або міжкардинального тексту) і відстані з одиницею. Потім вирішена координата WGS-84 опорної точки зміщується на величину азимуту й відстані для обчислення похідної позиції. Похідні координати несуть збільшене значення кругової похибки (CE) — зазвичай 100–500 м залежно від точності опису зміщення, — яке передається в CoT-повідомлення, щоб клієнти TAK відображали відповідне кільце невизначеності на карті.

Виведення символіки NATO: зіставлення рукописних символів з MIL-STD-2525C

Тактичні символи в рукописних SITREP варіюються від ретельно виконаних, відповідних стандартам зображень до мінімалістичних ескізів, що лише приблизно нагадують канонічні форми APP-6/MIL-STD-2525C. Кольоровий прямокутник з колом зверху — мабуть, піхотний підрозділ. X всередині прямокутника — мабуть, знищений або ліквідований об'єкт. Стрілка з лінією через неї може означати перешкоду або межу. Конвеєр зору має зіставити ці ескізи з 15-символьними рядками кодування ідентифікації символів (SIDC), що кодують приналежність, бойовий вимір, статус, функцію, модифікатори та код країни.

Класифікація символів використовує CNN-класифікатор, навчений на синтетичному наборі даних символів APP-6/MIL-STD-2525C, відображених за різних умов деградації: різна ширина штрихів, поворот до ±30°, неповне відображення (імітація перерваного малювання від руки) і фоновий шум, типовий для фотографування паперу на карті. Класифікатор навчається як ієрархична задача: спочатку прогнозується приналежність (свій/ворожий/нейтральний/невідомий) і бойовий вимір (суша/повітря/море/космос/підводний простір), потім у кожній гілці прогнозується код функції. Така декомпозиція значно зменшує простір пошуку класифікації на кожному етапі.

Класифікатор виводить ранжований список кандидатів SIDC з імовірностями softmax. Найкращий кандидат, що перевищує налаштовуваний поріг достовірності (за замовчуванням 0,80), приймається для автоматичної обробки. Нижче порогу об'єкт ставиться в чергу для підтвердження оператором — інтерфейс показує вирізане зображення символу поряд з трьома найкращими кандидатами, щоб оператор міг вибрати правильний одним дотиком. Система в цілому спроектована так, що інтерфейс підтвердження є швидшим, ніж ручне введення, навіть для всіх об'єктів одночасно, а не лише для тих, що перевищують поріг.

Генерація CoT-повідомлень: від об'єктів до розміщення в TAK

Після того як об'єкти отримали витягнуті координати і призначені коди SIDC, їх необхідно упакувати для доставки в екосистему TAK. XML Cursor-on-Target (CoT) є стандартним форматом обміну. Кожна подія CoT має таку обов'язкову структуру: uid (унікальний ідентифікатор, похідний від ідентифікатора документа і порядкового номера об'єкта), type (рядок типу CoT, похідний від коду SIDC за стандартною таблицею відповідностей MIL-STD-2525C–CoT), тріада часових міток time, start і stale, а також елемент point із значеннями широти, довготи, висоти, кругової похибки (CE) та лінійної похибки (LE) у WGS-84.

Додаткові відомості про об'єкт — позивний, позначення підрозділу, підрозділ-спостерігач, час спостереження, примітки — передаються в елементі detail CoT. Конвеєр вилучає позивний і позначення підрозділу з текстових ділянок SITREP за допомогою розпізнавання іменованих сутностей, налаштованого на конвенції найменування військових підрозділів (буквено-цифрові позивні, ієрархічний запис батальйон-полк-бригада). Час спостереження вилучається із заголовка документа, якщо він присутній, або за замовчуванням приймається часова мітка завантаження документа зі штрафом за достовірність.

Завершений пакет XML CoT — по одній події на кожен вилучений об'єкт — доставляється на TAK-сервер по TCP (для надійної доставки) або UDP multicast (для широкомовлення всім клієнтам у тактичній мережі). Клієнти TAK — ATAK на Android, WinTAK на ноутбуках Windows, iTAK на iOS, CloudTAK у браузері — одразу відображають кожен об'єкт на вказаних координатах із відповідним символом MIL-STD-2525C. Результат: SITREP, що 15–30 секунд тому був фотографією, з'являється як набір правильно позначених іконок на спільній карті кожного оператора.

Реалізація TAKpilot: конвеєр зору, інтегрований з CloudTAK

TAKpilot (corvusintell.com/takpilot) — операційна TAK-платформа Corvus Intelligence, що включає інтегрований конвеєр обробки SITREP зором, підключений до CloudTAK. Робочий процес побудований навколо кроку підтвердження оператором як основної точки взаємодії людини і машини, а не розглядає модель зору як чорний ящик, що пише безпосередньо до COP.

Оператор отримує фотографію SITREP — через радиста, пересилання у месенджері або прямим завантаженням — і завантажує її в інтерфейс TAKpilot. Файл передається до бекенду обробки TAKpilot, який запускає повний конвеєр зору: попередня обробка, аналіз розмітки, OCR, вилучення та валідація координат, класифікація символів, вилучення позивних і підрозділів, генерація CoT. Час обробки типової фотографії SITREP становить 8–20 секунд залежно від складності документа і того, чи конвеєр працює в хмарному режимі (VLM API) або граничному режимі (квантована локальна модель).

Результат представляється оператору у вигляді картки підтвердження: структурована таблиця з переліком кожного виявленого об'єкта з витягнутою координатною прив'язкою, типом символу (відображається як іконка MIL-STD-2525C), позивним, часом спостереження та індикатором достовірності (зелений/жовтий/червоний) для кожного поля. Об'єкти з будь-яким полем нижче порогу виділяються і вимагають індивідуального підтвердження; об'єкти вище порогу попередньо схвалені, але їх також можна скоригувати. Оператор може редагувати будь-яке поле безпосередньо в таблиці — виправляти помилку OCR або змінювати призначення символу — перед затвердженням. Затвердження картки запускає передачу пакету CoT від TAKpilot до підключеного сервера CloudTAK.

Дизайн картки підтвердження відображає операційну реальність: нульовий пропуск важливіший за нульову затримку — пропущений об'єкт на тактичній карті небезпечніший, ніж 10-секундна затримка підтвердження. Інтерфейс оптимізований для мобільного (планшетного) використання, щоб оператори, які працюють за польовим терміналом, могли завершити підтвердження з мінімальною кількістю натискань клавіш.

Точність і оцінка достовірності

Оцінка достовірності функціонує на двох рівнях: достовірність на рівні поля (окрема координатна прив'язка, класифікація символу, вилучення позивного) і достовірність на рівні об'єкта (добуток усіх достовірностей полів, що використовується для рішення про маршрутизацію між автоматичним розміщенням і підтвердженням).

Достовірність координатної прив'язки обчислюється на основі трьох факторів: оцінок достовірності символів рівня символу OCR, виведених текстовою моделлю, відстані редагування від найближчого дійсного рядка MGRS (нуль для чистого розбору, вище для нечіткого виправлення), і перевірки просторової правдоподібності щодо обмежувального прямокутника театру воєнних дій. Координатна прив'язка, що чисто розбирається, точно збігається з дійсним рядком MGRS і потрапляє в очікуваний район операцій, отримує оцінку вище 0,92 і кваліфікується для автоматичного розміщення. Та, що потребувала нечіткого виправлення або знаходиться поблизу межі театру, отримує 0,65–0,85 і вимагає підтвердження.

Достовірність класифікації символу — це імовірність softmax найкращого кандидата SIDC. В контрольованих оцінках на тестовому наборі зібраних у полі фотографій SITREP класифікатор досягає точності top-1 87% на рівні коду функції при достовірності вище 0,80, знижуючись до 61% нижче цього порогу. Саме тому поріг 0,80 для автоматичного прийняття є важливим: він розділяє надійно правильну область від неоднозначної.

Неоднозначні символи — ті, для яких три найкращі кандидати згруповані щільно (розкид softmax менше 0,15) — завжди маршрутизуються до підтвердження людиною незалежно від оцінки найкращого кандидата. Щільне групування свідчить про справжню неоднозначність символу (рукописний символ сумісний з кількома тактичними значеннями), а не про низьку якість вхідних даних, і правильне рішення вимагає знання оператором тактичного контексту, якого модель не має.

Оперативна примітка: Пороги автоматичного розміщення мають налаштовуватися для конкретної місії, а не бути жорстко закодованими. Під час фаз високого темпу, де швидкість переважає над ризиком помилки, поріг можна знизити. Під час фаз консолідації або планування, де точність COP є першорядною, поріг слід підвищити і підтвердити всі об'єкти. TAKpilot надає поріг як налаштування оператора для кожної сесії.

Граничне розгортання: Jetson, вузли лише на CPU та робота без підключення

Обробка SITREP з підключенням до хмари (маршрутизація документів до кінцевої точки VLM API) забезпечує найвищу точність вилучення, але вносить затримку і мережеву залежність, неприйнятну на тактичному краї. Конвеєр зору TAKpilot спроектований для повної роботи в ізольованому режимі на граничному апаратному забезпеченні.

NVIDIA Jetson AGX Orin є основною цільовою платформою для повнофункціонального граничного розгортання. Завдяки 64 ГБ уніфікованої пам'яті вузол може запускати квантовану модель VLM з 7 мільярдами параметрів (LLaVA-1.6 або еквівалент при INT4 через llama.cpp) для загального вилучення об'єктів поряд з оптимізованим TensorRT класифікатором символів. Одне зображення SITREP обробляється за 8–15 секунд. Jetson одночасно служить вузлом CloudTAK — TAKpilot і CloudTAK працюють як спільно розміщені сервіси на одному пристрої, з доставкою CoT через loopback, а не через мережеве з'єднання. Ця архітектура спільного розміщення важлива для передових штабів, де TAK-сервер і система обробки SITREP знаходяться на одному захищеному обчислювальному вузлі.

Вузли лише на CPU — там, де GPU-обладнання недоступне або потужність обмежена нижче рівня Jetson — використовують двомодельний конвеєр: PaddleOCR з моделями виявлення та розпізнавання PPOCR-v4 для вилучення тексту (виконується приблизно за 1 секунду на сторінку на сучасному ядрі ARM64) і легкий класифікатор символів MobileNetV3 при квантуванні INT8 для розпізнавання символів. Крок VLM виключається; аналіз відносних позицій повертається до заснованого на правилах синтаксичного аналізатора зміщень. Цей конвеєр обробляє SITREP за 3–6 секунд на сучасному CPU ноутбука або за 8–20 секунд на одноплатному процесорі ARM (класу Raspberry Pi 5), дещо знижуючи точність вилучення складних документів, але зберігаючи оперативно корисну продуктивність для найпоширеніших форматів SITREP.

Оновлення моделей у полі здійснюються за тим самим механізмом оновлень підписаних пакетів, що описаний для інших граничних розгортань AI: пакет оновлення криптографічно підписаний, доставляється через канал управління TAKpilot і застосовується з автоматичним відкатом, якщо метрики точності після оновлення опускаються нижче базового рівня. Тонке налаштування, специфічне для театру воєнних дій, — адаптація класифікатора символів до конкретних конвенцій рукописного малювання підрозділів у районі операцій — може бути відправлене на передові вузли у вигляді дельти моделі протягом 24 годин після отримання розміченого зразкового пакету.

Перехід між граничним і хмарним режимами є прозорим для оператора. Коли мережеве підключення доступне, TAKpilot маршрутизує до хмарного конвеєра для вищої точності. Коли підключення зникає — що виявляється за 5-секундним таймаутом перевірки стану API — воно автоматично повертається до локальної моделі без втручання оператора. Інтерфейс картки підтвердження ідентичний в обох режимах; змінюється лише час обробки.

Побачте TAKpilot у дії

TAKpilot інтегрує AI-обробку SITREP з CloudTAK — автоматичне вилучення об'єктів, картки підтвердження з оцінкою достовірності та пряме розміщення на карті для вашого тактичного оперативного центру.

Дослідити TAKpilot → Замовити брифінг

Цей аналіз підготовлено інженерами Corvus Intelligence, які розробляють програмне забезпечення критичної важливості для оборонних та урядових організацій. Дізнатися більше про команду →

Часті запитання

Яке головне вузьке місце при ручній обробці SITREP?

Головне вузьке місце — крок ручного введення: оператор отримує рукописну схему або сфотографований бланк, читає координатні прив'язки та символи підрозділів і вводить їх по одному в цифрову COP або TAK-сервер. Це може займати 3–8 хвилин на один SITREP в спокійній обстановці і значно довше під стресом, протягом якого тактична картина застаріє, а увага оператора відволікається від прийняття рішень.

Які типи моделей AI-зору найбільше підходять для вилучення об'єктів із SITREP?

Мультимодальні мовні моделі зору (VLM), такі як GPT-4o або відкриті альтернативи, як LLaVA, добре справляються зі структурованим вилученням, оскільки поєднують OCR, просторові міркування та розпізнавання символів в одному проходженні. Для граничних конвеєрів без хмарного підключення комбінація PaddleOCR для тексту і малого оптимізованого TensorRT класифікатора символів забезпечує виявлення об'єктів з прийнятною затримкою на обладнанні класу Jetson.

Як модель розбирає координатні прив'язки MGRS із рукописного тексту?

Токени виводу OCR перевіряються на відповідність шаблонам формату MGRS: десигнатор координатної зони + двобуквений квадрат 100 км + пара схід/північ з однаковою кількістю цифр. Часткові збіги передаються до модуля нечіткого виправлення з використанням зіставлення за відстанню редагування з таблицею дійсних комбінацій GZD та квадратів для театру воєнних дій. Достовірність оцінюється за відстанню Левенштейна від найближчого дійсного рядка MGRS.

Як рукописні тактичні символи NATO зіставляються з кодами MIL-STD-2525C?

Ділянки символів класифікуються CNN, навченим на синтетичних рендерингах APP-6/MIL-STD-2525C з аугментацією деградації. Класифікатор виводить ранжований список кандидатів SIDC з оцінками достовірності. Кандидати з достовірністю вище 0,80 приймаються автоматично; нижче порогу об'єкт позначається для підтвердження оператором через UI вибору серед трьох найкращих.

Що таке CoT-повідомлення і як воно передає об'єкти SITREP до TAK?

Cursor-on-Target (CoT) — XML-схема для взаємодії сенсор-стрілець Міністерства оборони США. Кожна подія CoT містить uid, тип (що кодує SIDC MIL-STD-2525C), часові мітки та елемент point з широтою/довготою/CE у WGS-84. Клієнти TAK (ATAK, WinTAK, CloudTAK) приймають CoT через UDP, TCP або WebSocket і негайно відображають об'єкт на тактичній карті.

Який робочий процес обробки SITREP зором у TAKpilot?

Оператор завантажує зображення SITREP до TAKpilot. Бекенд зору обробляє його за 8–20 секунд і повертає картку підтвердження з переліком кожного виявленого об'єкта з координатною прив'язкою, іконкою символу, позивним та індикаторами достовірності. Оператор переглядає та затверджує (або коригує), потім ініціює розміщення на карті — TAKpilot надсилає пакет CoT до CloudTAK, і всі об'єкти одночасно з'являються на спільній тактичній карті.

Коли об'єкти слід розміщувати автоматично, а коли утримувати для підтвердження людиною?

Об'єкти з достовірністю координатної прив'язки вище 0,92 і достовірністю символу вище 0,85 зазвичай можуть розміщуватися автоматично. Нижче будь-якого з порогів або якщо координати виходять за межі обмежувального прямокутника театру, об'єкт утримується для підтвердження. Неоднозначні символи — де три найкращі кандидати SIDC згруповані щільно — завжди вимагають підтвердження незалежно від оцінки найкращого кандидата.

Як обробляються відносні позиції за відсутності явної координатної прив'язки?

Відносні посилання (наприклад, «400 м на ПН-СХ від контрольного пункту БРАВО») обробляються шляхом вилучення опорної координатної прив'язки, а потім розбору азимуту та відстані за допомогою підказки VLM з ланцюжком думок або заснованого на правилах синтаксичного аналізатора зміщень. Похідна координата WGS-84 несе збільшену кругову похибку (100–500 м), яку TAK відображає як кільце невизначеності на карті.

Чи може конвеєр зору повністю працювати в автономному режимі на граничних вузлах?

Так. На Jetson AGX Orin квантована VLM з 7 мільярдами параметрів (LLaVA-1.6 INT4) обробляє SITREP за 8–15 секунд у повністю ізольованому режимі. Для вищої пропускної здатності PaddleOCR разом із класифікатором символів TensorRT виконується менш ніж за 2 секунди на документ. Обидва конвеєри працюють без зовнішніх залежностей від API, розміщуючись разом з CloudTAK на одному граничному вузлі для передових штабів.

Які кроки попередньої обробки найбільше покращують точність вилучення на деградованих документах?

Найефективніші кроки: вирівнювання перекосу (детектування ліній Хафа, до ±15°), адаптивна бінаризація (Саувола) для нерівномірного освітлення, CLAHE для відновлення слідів олівця, морфологічне видалення шуму та аналіз розмітки для сегментації текстових ділянок від ділянок символів перед маршрутизацією до окремих моделей. Сегментація розмітки дає найбільший одиничний приріст точності для зменшення помилок міжрегіональної класифікації.