Злиття даних — це інженерна дисципліна, що перетворює шум десятків несумісних сенсорних потоків і розвідувальних доповідей на єдину картину, на основі якої аналітик може діяти. Помилитесь — і оператори побачать дубльовані треки, конфліктні позиції, застарілі дані — і перестануть довіряти системі впродовж тижня після розгортання. Зробіть правильно — і платформа стане непомітною інфраструктурою: COP просто працює, тривоги довірливі, а розбір післядії має необхідні докази.

Цей опорний посібник збирає архітектуру, алгоритми та інженерні компроміси, що визначають, чи досягне оборонна розвідувальна платформа порогу довірливої інфраструктури. Він орієнтований на інженера або керівника програми, який проєктує багатоджерельний стек злиття — чи то для національного розвідувального центру, чи бекенду COP бригадного рівня, чи ISR-конвеєра тріажу, що живить ширшу платформу C2. Кожен розділ посилається на глибші статті в блозі Corvus.

Що таке злиття даних і навіщо воно існує

Датчики й аналітики продукують доповіді. Кожна доповідь — часткове, зашумлене, часо-затримане спостереження реальності. Радар малює відбиття в координатах X зі швидкістю V. AIS-повідомлення каже, що судно Foxtrot у координатах Y. Оператор FMV доповідає про транспортний засіб у координатах Z. Людське джерело доповідає про переміщення в координатах W із шестигодинною затримкою. Кожна з цих доповідей може стосуватись того самого фізичного об'єкта — або чотирьох різних. Завдання злиття даних — вирішити, що саме.

Наївна альтернатива — відображати кожну доповідь на мапі як незалежний символ — продукує те, що ветерани-аналітики називають «суп із треків». Жвава морська картина може містити 5 000 окремих об'єктів, представлених 20 000 символами, і кожен волає про увагу. Робота оператора зводиться до зіставлення патернів проти екрану, а не проти реальності. Злиття — це те, що знову стискає кількість символів до правди.

Сфокусоване трактування принципів та інженерних рішень див. у Злиття військових даних: як багатоджерельна розвідка перетворюється на єдину картину. Решта цього посібника будується на цьому фундаменті.

Модель JDL: карта проблемного простору

Модель Joint Directors of Laboratories дає галузі її словник. Визнано п'ять рівнів злиття; межі недосконалі, але рівні залишаються корисними як інструмент планування.

Рівень 0 — Попередня обробка сигналу. Сирі сенсорні сигнали до виявлення. Радарні відбиття у плоти, пікселі FMV в bounding-боксы виявлення, сирий SIGINT-спектр у доповіді про пеленг. Це сенсор-внутрішня робота, дедалі частіше виконувана вбудованою обробкою самого датчика, а не платформою злиття.

Рівень 1 — Уточнення об'єктів. Кореляція треків, оцінка ідентичності, уточнення класифікації. Це ядро оперативного злиття: асоціація нових спостережень із наявними треками, оновлення кінематики, уточнення впевненості в ідентичності. Кожна оборонна платформа злиття реалізує Рівень 1 повністю — без нього немає корисних треків.

Рівень 2 — Оцінка ситуації. Відношення між об'єктами: конвої, формування ескорту, контактні мережі, парування «загроза—ціль». Агрегована картина, що перетворює список треків на тактичний наратив. Рівень 2 — там, де сучасні платформи злиття диференціюються, і там, де більшість надмірно обіцяє.

Рівень 3 — Оцінка впливу. Прогнозування майбутніх ситуацій, намірів та впливу загрози. На практиці це переважно керовано людиною із програмною підтримкою: аналіз курсів дій, попередження про загрозу, прогнозне маршрутування. Повністю автоматизоване злиття Рівня 3 рідкісне; поріг довіри високий, а наслідки помилки — оперативні.

Рівень 4 — Уточнення процесу. Управління датчиками та постановка завдань на основі потреб злиття — наводити БпЛА на район із найбільш неоднозначними треками, перенацілити SIGINT-збирача для уточнення ідентичності. Важливо й недооцінено в ПЗ; заслуговує на власне архітектурне трактування.

Інженерний погляд на кожен рівень — що будувати, що пропустити — у Модель злиття даних JDL: практичний інженерний довідник.

Багатоджерельне vs мульти-INT: розмежування, що визначає складність

Інженери часто плутають «багатоджерельне» та «мульти-INT» злиття. Це не та сама задача.

Багатоджерельне злиття поєднує доповіді сумісного типу — три радари, що бачать той самий літак, два AIS-приймачі, що чують те саме судно. Семантика узгоджується між джерелами: позиція — це позиція, ідентичність — це ідентичність, впевненість — це впевненість. Складні частини — кінематична асоціація та ймовірнісне призначення даних під тиском щільності треків.

Мульти-INT злиття складніше. Кожна розвідувальна дисципліна несе різну семантику:

SIGINT — радіоелектронна розвідка — дає пеленг та ідентичність, часто без точної позиції. Доповідь SIGINT каже «емітер X десь уздовж цієї лінії пеленга». Шар злиття має поєднувати доповіді з лише-пеленгом між станціями, щоб локалізувати.

IMINT — видова розвідка — дає позицію та ідентичність з високою впевненістю, але з періодичністю, з якою збирач повторно облітає район. Доповідь IMINT — це точкова оцінка з ефективною актуальністю в години.

ELINT — електронна розвідка — перетинається з SIGINT, але фокусується на характеризації радарів та інших емітерів, живлячи електронний бойовий порядок.

OSINT — розвідка з відкритих джерел — тягнеться із соцмереж, сайтів стеження за суднами, новин, постачальників супутникових знімків. Впевненість варіюється колосально, а атрибуція джерела важить не менше за зміст. Платформенний патерн для OSINT в оборонних кіберопераціях розкрито у OSINT-моніторинг загроз для оборони.

GEOINT — геопросторова розвідка — поєднує знімки з аналізом місцевості, прогнозом маршрутів та аналізом патернів поведінки на географічному субстраті.

HUMINT — агентурна розвідка — високолатентна, насичена класифікацією, чутлива до захисту джерел. Доповідь HUMINT не може бути поширена коаліційним партнерам без зачистки releasability.

Рушій злиття має зберігати семантичні відмінності цих дисциплін, а не згортати їх в одне число впевненості. Трек, підтверджений IMINT і SIGINT, якісно відрізняється від треку, підтвердженого двома SIGINT-пеленгами. Патерн розвідувального ПЗ у Розвідувальне ПЗ для оборони: пояснення окреслює, як мульти-INT формує ширшу платформу.

Кореляція треків: ядровий алгоритм

Найбільш наслідкове інженерне рішення в платформі злиття — як працює кореляція треків. Домінують два патерни, і більшість реальних систем поєднують їх.

Ймовірнісна асоціація даних. JPDA (Joint Probabilistic Data Association), MHT (Multiple Hypothesis Tracking) та їхні варіанти обчислюють імовірність того, що вхідна доповідь належить кожному кандидатному треку, за умови кінематичних прогнозів та апріорі ідентичності. Вони обробляють щільні, неоднозначні сценарії — багато треків близько один до одного, часті оклюзії, переривчасті доповіді — значно краще, ніж методи на правилах. Ціна — обчислювальна: MHT зокрема зростає гіпотезами експоненційно без відсікання, а тюнінг параметрів — ремесло.

Кореляція на правилах. Евристики, застосовані в пріоритетному порядку: збіг ідентичності виграє; кінематичний gate у межах толерантності; збіг сумісності джерел. Дешеві, пояснювані, легко налагоджувані. Крихкі при високій щільності — сцена на 1 000 треків із частими перетинальними траєкторіями продукуватиме хибні кореляції або фрагментовані треки.

Гібридний патерн: кореляція на правилах обробляє 90% однозначних випадків, ймовірнісна асоціація викликається для спірних 10%. Шар правил також діє як грубий фільтр, що тримає простір гіпотез ймовірнісного рушія керованим.

Витонченіша проблема: коли два треки мають злитись, а коли один трек — розділитись. Судно, що зникло з радара годину тому і з'явилось приблизно в потрібному місці — це той самий трек, що відновився, чи новий? Різні відповіді мають різні оперативні наслідки. Відповідь потребує конфігурованих порогів, прив'язаних до оперативної концепції, а не зашитих у код.

Конвеєр повідомлень: хребет будь-якої платформи злиття

Платформи злиття переміщують багато повідомлень за секунду між багатьма компонентами. Субстрат обміну повідомленнями — рішення, з яким платформа житиме весь свій оперативний термін.

Домінуючий патерн: довговічний, упорядкований, партиціонований лог — Kafka, Pulsar або NATS JetStream — несе кожне спостереження, подію злиття та дію оператора. Споживачі підписуються на релевантні топіки і обробляють у своєму темпі. Replay можливий, бо лог довговічний. Аудит автоматичний, бо кожна подія персистується в порядку.

Вибір має жорсткі компроміси. Kafka зріла й оперативно добре зрозуміла, але має акредитаційне навантаження та вимоги до ресурсів, що перевищують малий деплоймент. NATS легковажна і добре вбудовується в тактичні платформи, але їй бракує екосистеми Kafka. Детальне порівняння та керівництво з патернів у Черги повідомлень для оборонних конвеєрів даних.

Поширена помилка: використання HTTP request/response між компонентами злиття замість шини повідомлень. Синхронні виклики зчеплюють доступність — якщо один компонент повільний, кожен викликач застрягає. Платформи злиття мають поглинати сенсорні сплески, мережеві провали та перезапуски компонентів; шина повідомлень із обробкою backpressure структурно необхідна, не опціональна.

Event sourcing і аудит: чому append-only перемагає

У комерційному ПЗ журнали аудиту часто — післядумка. В оборонному розвідувальному ПЗ вони — центр архітектури. Кожне спостереження, рішення злиття, виклик класифікації та дія оператора мають бути відтворюваними з audit-журналу — для розбору післядії, для акредитації, для судових процесів і для навчання наступного покоління аналітиків та моделей.

Патерн: event sourcing (журналювання подій). Авторитетний стан системи — це append-only лог подій; база даних — це матеріалізована проекція згори. Кожна зміна — незмінний, криптографічно підписаний запис. Time-travel запити — «у що ми вірили о 14:32?» — стають тривіальними. Replay минулих подій проти нового алгоритму злиття дає чисте A/B-тестування. Детальний патерн у Event sourcing для оборонних audit-журналів.

Помилка, якої треба уникати: прикрутити аудит до мутабельної бази даних. Рядок, що фіксує «останнє оновлення о 14:32 користувачем Сміт», втрачає попередній стан, обґрунтування та ланцюг рішень. Ви не зможете відтворити, що платформа показувала оператору о 14:30. Акредитаційні рецензенти знають цей патерн і відхиляють його.

Геопросторовий бекенд: PostGIS і далі

Більшість оборонних розвідувальних даних — геопросторові. Треки, спостереження, райони операцій, місцевість, інфраструктура, no-fire зони, історії СВП — усе живе в просторових координатах. Геопросторова база — та частина платформи, у якій ви не можете помилитись.

Поточний дефолт — PostGIS на PostgreSQL: відкритий код, дружній до акредитації, зрілий, обробляє мільярди точок із правильним індексуванням, інтегрується з SQL-екосистемою. Інженерний погляд на PostGIS в обороні, включно зі стратегіями індексування, партиціонуванням і навантаженнями, що його ламають, — у PostGIS для оборонних геопросторових даних.

PostGIS не підходить для кожного навантаження. Часові ряди сенсорних потоків (історії радарних плотів, телеметрія) належать у TimescaleDB або InfluxDB, з'єднано запитувані з PostGIS для комбінованого просторово-часового аналізу. Знімки та full-motion video належать в object storage з метаданими в PostGIS. Попередньо рендерені мапові тайли, особливо для тактичного крайового деплойменту, живуть як статичні MBTiles або PMTiles — див. Офлайн-мапи з MBTiles та PMTiles.

Платформенний патерн, що передбачувано провалюється: складати всі навантаження в PostGIS, бо це зручно. Геопросторові запити на таблиці у мільярд рядків конкурують із записами часових рядів; страждають обидва. Розділяйте навантаження, маршрутизуйте запити відповідно і платіть оперативну ціну роботи двох баз — це дешевше за податок латентності однієї перевантаженої.

Аналіз патернів поведінки: де ШІ справді допомагає

Аналіз патернів поведінки (PoL) — це практика побудови поведінкової бази для сутності — судна, транспортного засобу, особи, підрозділу — та позначення відхилень. Торговельне судно, що завжди заходить у ті самі три порти, раптом відхиляється до четвертого: аномалія. Військовий підрозділ, що проводить навчання щовівторка о 0800, раптом замовкає у вівторок вранці: аномалія. Техніка масштабується від окремих суден до цілих флотів і від місцевих доріг до національної інфраструктури.

Інженерний патерн: поглинати лонгітюдні дані треків, сегментувати поведінку на рутинні активності, припасовувати поведінкову модель на сутність, оцінювати нові спостереження проти моделі. Алгоритмічне ядро — неефектна статистика з вибірковим ML — гаусові суміші, HMM, gradient-boosted класифікатори — дедалі частіше доповнювана глибинними моделями на сирих траєкторних послідовностях. Складна частина — не алгоритм. Це курування даних, визначення того, що «аномальне» означає оперативно, та обробка класифікаційного й етичного огляду навколо поведінкового профілювання.

Детальний патерн, включно з конвеєрами даних, життєвим циклом моделі та оперативною інтеграцією, у Аналіз патернів поведінки у військовій розвідці. Для AI/ML-конвеєра ширше — деплоймент моделей, крайова інференція, ISR-тріаж — див. ШІ для ISR-тріажу даних, Комп'ютерний зір в оборонних системах та Оптимізація моделей ONNX і TensorRT.

Ключовий висновок: Цінність аналізу патернів поведінки — не у знаходженні аномалій (аномалії звичайні й більшість безпечні). Цінність — у ранжуванні аномалій так, щоб обмежена увага аналітика приземлювалась на ті кілька, що мають значення. Система PoL, що видає 200 аномалій на годину, непридатна; та, що ранжує топ-5 і пояснює чому, — незамінна.

Відкриті джерела треків: AIS, ADS-B і цивільно-військовий кордон

Сучасна розвідувальна платформа рутинно поглинає цивільні дані стеження. AIS для суден, ADS-B для літаків — обидва є відкритими трансляціями, призначеними для безпеки та керування рухом, але обидва також виявляють патерни військової активності та активності сірих зон. Судна з вимкненим AIS у підозрілих районах, літаки, що відсилають цивільні коди транспондера, виконуючи військові профілі — це оперативні сигнали.

Інтеграція AIS і ADS-B в оборонну картину має специфічні інженерні пастки. Об'єми даних великі — глобальний AIS — це сотні мільйонів повідомлень на день. Спуфінг поширений і дедалі витонченіший, особливо в спірних морських районах. Кореляція AIS-пропусків із радарними треками — високоцінна, але алгоритмічно тонка. Повний патерн у Інтеграція AIS і ADS-B у військову картину.

Інтеграційні виклики, які більшість платформ недооцінюють

Окрім алгоритмічного ядра, кожна оборонна платформа злиття стикається з тим самим набором інтеграційних викликів. Вони виглядають легкими у слайд-деку і відповідальні за більшість затримок програм.

Зоопарк координатних систем. Широта/довгота WGS84, MGRS, UTM, національні сітки, реалізації ITRF, локально визначені оперативні сітки. Кожне джерело використовує щось трохи інше. Платформа має конвертувати та округлювати послідовно. Помилка округлення 1 метр в одному місці стає помилкою 1 кілометр після трьох перетворень.

Семантика часу. Сенсорні мітки часу можуть бути UTC, місцевими, можуть бути часом генерації повідомлення, а не часом спостереження. Мережева затримка між спостереженням і поглинанням може бути секундами, хвилинами або годинами. Рушій злиття має міркувати про часи «as-of» і «as-known» окремо — оперативні рішення залежать від обох.

Поширення класифікації. Трек, похідний від одного SECRET і одного UNCLASSIFIED джерела, є SECRET. Трек, похідний від джерел FVEY-only та NATO-only, не може бути повністю переданий жодному альянсу. Класифікаційний рушій має обчислювати замкнутий конверт правильно, на кожному запиті, не ламаючи COP-латентності. Див. Виклики обміну даними в коаліціях щодо політики.

Узгодження ідентичності. Судно, відоме як «MV Foxtrot» в одному потоці, може бути «Foxtrot-25» в іншому і «FOXTROT 25» у третьому. Той самий номер корпусу, різні сенсорні каталоги. Нормалізація ідентичності — нетривіальна частина шару адаптерів і часте джерело дубльованих треків.

Версіонування та еволюція схем. Багаторічна платформа кілька разів переглядатиме канонічну схему треків. Робити це, не ламаючи адаптерів, подальших споживачів або replay історичних даних, вимагає дисципліни. Лише-адитивна еволюція — єдина стабільна стратегія. Ширший набір викликів у Виклики інтеграції оборонних даних.

Класифікація, releasability і шар контролю доступу

Оборонна платформа злиття структурно є класифікованою системою. Більшість даних класифікована при поглинанні; злиття може підвищувати класифікацію похідних треків; теги releasability визначають, які партнери можуть бачити які продукти. Шар контролю доступу — не накладний — це одна з основ.

Патерн, що масштабується: контроль доступу на основі політик, де рівень класифікації, компартменти, releasability та атрибути користувача (допуск, громадянство, роль) оцінюються на кожному запиті. Примус на межі API та на шарі запитів до бази, ніколи лише на UI. Кожен трек несе свій набір джерел; policy-рушій обчислює ефективну класифікацію в час запиту, а не запікає її у рядок.

Глибше архітектурне трактування RBAC, класифікації та компартментів для C2 у Контроль доступу на основі ролей в оборонних системах C2. Ті самі принципи застосовуються до платформи злиття, з доповненням, що злиття створює похідні дані — рушій має міркувати про похідність, а не лише про джерело.

Суміжні дисципліни, які архітектор платформи не може скинути на когось іншого: ISO 27001 базовий рівень для процесу розробки (ISO 27001 в оборонному ПЗ), DevSecOps, адаптований до акредитаційних циклів (DevSecOps для оборонних конвеєрів), SBOM-трекінг для цілісності ланцюга постачання (SBOM в оборонних закупівлях) та реальність персоналу з допусками (Допуск секретності для команд розробки).

Кіберрозвідувальне злиття: паралельна дисципліна

Дедалі частіше оборонні розвідувальні платформи включають кібердані — індикатори загроз, спостережувану експлуатацію, мережеві аномалії. Інженерні принципи злиття переносяться, але семантика даних відрізняється. Кіберспостережувані короткоживучі, часто корельовані між багатьма сутностями і виграють від інтеграції фідів threat-intelligence так, як дані фізичного домену не виграють.

Патерн для платформ кіберрозвідки (CTI) у CTI-платформи для оборони. Інтеграція SIEM/SOAR для кібероперативної картини у SIEM і SOAR для військової інтеграції. Ширший патерн кіберситуаційної обізнаності у Платформи кіберситуаційної обізнаності. ICS/OT — промислові системи керування та оперативні технології — спеціалізована задача злиття зі своїми патернами виявлення вторгнень; див. Виявлення вторгнень ICS/OT у військових мережах.

Архітектурне рішення: будувати одну платформу, що зливає фізичний і кібер-домени, чи дві платформи з мостом обміну? Тренд, прискорений мандатами в стилі JADC2, — до уніфікованих платформ. Інженерна реальність — семантика даних, латентності та операторські робочі процеси відрізняються достатньо, щоб навіть уніфіковані платформи часто мали внутрішньо окремі фізичний і кібер-конвеєри.

Від злиття до загальної оперативної картини

Злиття стоїть вище за течією за COP. COP — це користувацький артефакт; злиття — машинерія довірливості за ним. Інтерфейс між ними — канонічна схема треків і publish-subscribe потік змін стану треку.

Щодо боку COP в архітектурі див. Загальна оперативна картина: як її будують у сучасному оборонному ПЗ та Рендеринг карт у реальному часі для військового C2. Ширше C2-обрамлення — злиття як частина чотиришарової архітектури — у Повний посібник із систем командування та управління (C2) та Що таке система C2?. Щодо NATO-сумісності продуктів даних, що генерує злиття, див. Стандарти сумісності NATO для ПЗ та Структури даних ADatP-34.

Будувати, купувати, конфігурувати: специфіка злиття

Build-vs-buy у злитті має гостріші кути, ніж у загальному C2-ПЗ. Ядровий рушій злиття математично щільний, важкий у тестуванні і небезпечний у разі помилки — а комерційний ринок має невелику кількість зрілих пропозицій з оперативно перевіреними алгоритмами. COP-оболонка, прийом даних та аналітичний інструментарій навколо рушія значно більше піддаються побудові всередині.

Поширений патерн: ліцензувати рушій злиття, побудувати все-решта навколо нього. Це уникає найдорожчого інженерного ризику (алгоритмів кореляції), зберігаючи суверенний контроль над моделлю даних, UX та інтеграцією. Критерії вибору вендора розкрито у Як обрати вендора оборонного ПЗ; ширша реальність закупівель — у Оборонні закупівлі: від RFP до контракту.

Чисто-build-сценарій застосовується, коли оперативна концепція потребує семантики злиття, якої не підтримує жоден комерційний продукт — наприклад, картина нерегулярної війни, де сутності — не судна-літаки-транспорт, які моделюють комерційні рушії злиття. Уроки України у Цифрова трансформація оборони: уроки України особливо повчальні щодо побудови суверенного злиття з нуля, коли комерційні опції не відповідають оперативній реальності.

Майбутні напрями: ML-рідне злиття, федеративне навчання та крайова інференція

Галузь у переході. Традиційне ймовірнісне злиття залишається оперативною базою, але ML-рідні підходи просуваються: end-to-end нейронні трекери, що вчать задачу асоціації з даних, transformer-based розв'язання ідентичності між модальностями, узагальнення великими моделями злитих картин для брифінгів аналітикам.

Чесна оцінка: ML-рідне злиття ще не є оперативно довіреним на рівнях, на яких є ймовірнісні методи. Режими відмов інакші — тихо хибно, а не голосно відсутньо — і їх важче помітити оператору. Гібридні системи, де ML дає кандидатські асоціації ймовірнісному перевірнику, — реалістичний близькостроковий шлях.

Федеративне навчання зріліше. Навчання релевантних до злиття моделей через розподілені, частково класифіковані дані без централізації даних — реальна спроможність. Патерн у Федеративне навчання для військових датчиків. Синтетичні дані, корисні для навчання там, де реальних даних мало або вони чутливі, розкрито у Синтетичні дані для оборонного ШІ. Edge AI — виконання інференції на датчику або платформі, а не централізовано — переформовує топологію злиття, особливо для тактичних платформ; див. Use cases Edge AI у військових системах та Порівняння апаратного забезпечення Edge AI.

Інтеграція LLM у розвідувальні робочі процеси — на експериментальному фронтирі. Перспективно для аналітично орієнтованого узагальнення та природномовних запитів до розвідувальних сховищ; менш перспективно для автономних рішень злиття, де галюциновані треки були б катастрофічними. Див. LLM у розвідувальному тріажі щодо реалістичного застосування та запобіжників.

Рекомендоване читання: повна карта злиття

Цей посібник тримається на архітектурному рівні. Сфокусовані статті нижче глибше трактують окремі розділи.

Основи злиття: Злиття військових даних: пояснення, Модель злиття даних JDL, Виклики інтеграції оборонних даних.

Інженерія даних: Черги повідомлень, Event sourcing, PostGIS для оборони.

Джерела треків і аналіз: Інтеграція AIS і ADS-B, Аналіз патернів поведінки.

Ширший контекст розвідувального ПЗ: Розвідувальне ПЗ для оборони: пояснення, Архітектура mission-critical, Технічний борг.

Кібер- та OSINT-злиття: CTI-платформи, OSINT-моніторинг загроз, SIEM/SOAR, Кіберситуаційна обізнаність, Виявлення вторгнень ICS/OT, Цифрова форензика.

AI/ML для злиття: ISR-тріаж даних, Комп'ютерний зір, Федеративне навчання, LLM-тріаж розвідки, Синтетичні дані.

Зв'язок злиття з C2 та сумісністю: Повний посібник із систем C2, COP, Платформа C4ISR, Обмін даними в коаліціях.

Останнє слово: Рушій злиття — це частина платформи, яку оператор ніколи не бачить. Він бачить COP і судить про платформу за тим, чи треки виглядають правильно. Дисципліна правильного злиття — це невидима дисципліна, і саме така, що відрізняє оперативні платформи від демо.