Qu'est-ce que le data mesh et en quoi diffère-t-il d'un data lake ?

Un data lake est un référentiel centralisé qui ingère les données de toutes les sources organisationnelles et les stocke dans un format commun géré par une équipe centrale d'ingénierie des données. Le data mesh distribue la responsabilité : chaque domaine métier — dans un contexte de renseignement, chaque discipline INT — publie et maintient ses propres produits de données, tandis qu'une équipe centrale de plateforme fournit une infrastructure partagée. Le rôle central passe de la production à l'habilitation.

Qu'est-ce qu'un produit de données dans le contexte du renseignement ?

Un produit de données est une unité de données traitée avec la même rigueur qu'un produit logiciel : il a un propriétaire, un contrat de schéma, un SLA de fraîcheur et de disponibilité, une documentation et une interface consommateur claire. Exemples : 'tableau de pistes actuel de l'adversaire' (propriétaire : cellule de fusion SIGINT, SLA : 15 minutes), 'base de données des émetteurs' (ELINT, SLA : 4 heures) et 'couche d'annotation d'imagerie' (GEOINT, SLA : 8 heures).

Comment les niveaux de classification sont-ils gérés dans un data mesh de défense ?

Dans un data mesh de défense, la classification est un attribut de gouvernance attaché à chaque produit de données et à chaque enregistrement. La plateforme libre-service applique automatiquement les exigences : le jeton d'identité du consommateur inclut son niveau d'habilitation ; la couche de contrôle d'accès rejette les demandes dont l'habilitation ne satisfait pas la classification minimale du produit. Les flux entre niveaux de classification nécessitent une solution inter-domaines (CDS).

Que signifie la propriété de domaine pour une équipe SIGINT en pratique ?

Pour une équipe d'analyse SIGINT dans un modèle data mesh, la propriété de domaine signifie : responsabilité de la publication et de la maintenance des produits SIGINT ; contrôle du schéma et du cycle de mise à jour ; responsabilité des SLA de qualité des données ; premier point de contact en cas de problème ; provisionnement autonome du calcul et du stockage dans la plateforme libre-service.

Comment une organisation migre-t-elle d'un data lake centralisé vers un data mesh ?

La migration se fait de manière incrémentielle. Approche recommandée : identifier un domaine à forte valeur avec un propriétaire clair ; extraire les données dans un produit autogéré avec contrat de schéma et SLA ; migrer les consommateurs ; mesurer les résultats sur un trimestre ; puis appliquer le même schéma au domaine suivant. Le data lake central devient une plateforme de transition qui rétrécit à mesure que les produits de domaine mûrissent.

Architecture data mesh pour les organisations du renseignement de défense

Les organisations du renseignement de défense accumulent des données depuis des décennies — interceptions SIGINT, produits GEOINT, rapports HUMINT, agrégats OSINT — et n'ont jamais réussi à transformer cette accumulation en quelque chose que les analystes peuvent réellement utiliser. Le problème tient rarement à la collecte. Il réside dans l'intégration. Et la cause organisationnelle du problème d'intégration est presque toujours la même : personne n'est propriétaire des données. L'équipe centrale d'ingénierie des données, propriétaire des pipelines, ne possède pas la connaissance du domaine pour les maintenir corrects. La cellule SIGINT, qui possède cette connaissance, n'a pas l'infrastructure pour publier ses données sous une forme que d'autres équipes peuvent consommer.

Le data mesh est un modèle architectural et organisationnel qui s'attaque directement à cette cause fondamentale. Développé par Zhamak Dehghani et décrit pour la première fois en 2019, il recadre le problème des données non pas comme un défi technologique mais comme un défi de propriété. La réponse n'est pas une meilleure plateforme de données centralisée — c'est un modèle fédéré dans lequel les équipes qui produisent des données sont également responsables de leur publication en tant que produit consommable.

Ce qu'est le data mesh — et ce qu'il n'est pas

Le data mesh repose sur quatre principes. Le premier est la propriété de domaine : l'équipe qui produit les données est responsable de les rendre disponibles aux consommateurs. Le deuxième est les données en tant que produit : les données sont traitées avec la même rigueur qu'un logiciel — elles ont un propriétaire, un schéma versionné, un SLA, une documentation et une interface consommateur définie. Le troisième est l'infrastructure libre-service : une équipe centrale de plateforme fournit les outils dont les équipes de domaine ont besoin pour publier et consommer des produits de données sans soumettre de tickets. Le quatrième est la gouvernance fédérée : les standards d'interopérabilité sont fixés par un organe de gouvernance inter-domaines, mais leur application est automatisée par la plateforme.

Le contraste avec un data lake est instructif. Un data lake centralise à la fois le stockage et la responsabilité. Quand le système de collecte SIGINT modifie son schéma de sortie, le pipeline de l'équipe centrale se brise, et personne ne s'en aperçoit avant que l'analyste ne signale des données obsolètes trois semaines plus tard. Dans un data mesh, l'équipe de domaine SIGINT est propriétaire du pipeline et du contrat de schéma.

Pourquoi les architectures centralisées échouent dans le renseignement de défense

Les problèmes que résout le data mesh sont aigus dans le renseignement de défense, car ces organisations présentent des caractéristiques qui rendent les architectures de données centralisées particulièrement fragiles. Premièrement, les barrières de classification. Deuxièmement, les silos organisationnels : HUMINT, SIGINT, GEOINT, OSINT — chacun avec sa propre culture. Troisièmement, la fragilité des pipelines ETL monolithiques. Quatrièmement, les litiges de propriété que le data mesh résout par une attribution explicite et contractuelle.

Propriété de domaine dans le contexte du renseignement

Dans un data mesh de défense, les domaines correspondent naturellement aux disciplines INT : HUMINT, SIGINT, GEOINT, MASINT et OSINT constituent chacun un domaine distinct. Chaque équipe de domaine est responsable des produits de données qu'elle publie dans le mesh : définition des contrats de schéma, maintenance des pipelines d'ingestion, respect des SLA (fraîcheur, disponibilité, complétude), réponse aux problèmes de qualité et gestion des versions de schéma.

Dans un environnement classifié, la propriété de domaine signifie également gérer les métadonnées de classification. L'équipe de domaine SIGINT détermine le niveau de classification de chaque produit, les mentions de diffusabilité et les règles d'héritage pour les produits dérivés.

Produits de données pour le renseignement

Le concept de produit de données est l'unité d'échange dans un data mesh. Un produit de données est découvrable, adressable, fiable (soutenu par un SLA avec monitoring), auto-descriptif et interopérable. Exemples concrets : une équipe de domaine SIGINT peut publier un produit "tableau de pistes actuel de l'adversaire" — une collection de fonctionnalités GeoJSON de pistes actives, mise à jour toutes les 15 minutes, conforme au schéma de pistes MIP4, classifié SECRET. Une cellule d'analyse ELINT peut publier une "base de données des émetteurs" mise à jour dans les quatre heures suivant une nouvelle collecte. Une cellule GEOINT peut publier une "couche d'annotation d'imagerie" — des objets de relation STIX2 mis à jour dans les huit heures suivant la livraison des images.

Gouvernance fédérée

Un conseil de gouvernance des données — avec des représentants de chaque domaine, de l'équipe plateforme et de la fonction juridique/conformité — fixe les standards de gouvernance : exigences d'interopérabilité des schémas, conventions de métadonnées de classification, exigences des métadonnées du catalogue et définitions des métriques de qualité. Dans le contexte de la défense, les marquages de classification fonctionnent comme un attribut de gouvernance de premier ordre. Chaque événement d'accès aux données doit être enregistré dans un journal d'audit immuable.

Infrastructure libre-service pour les environnements classifiés

La plateforme libre-service est ce qui distingue un data mesh d'un cadre conceptuel. Dans un environnement classifié, la plateforme doit être déployable dans des réseaux air-gap, fonctionner sans dépendances vis-à-vis des API cloud publiques et satisfaire aux exigences d'accréditation de sécurité. La pile de plateforme typique comprend : stockage objet (MinIO ou Ceph), registre de schémas, service de catalogue de données (Apache Atlas), couche de contrôle d'accès intégrée au fournisseur d'identité et service de monitoring SLA — tous installables depuis des miroirs de packages locaux.

Défis d'implémentation et chemin de migration

L'approche correcte est incrémentielle : commencer avec un domaine, construire les capacités de la plateforme en parallèle avec le premier produit de domaine, et étendre à partir de là. Le domaine GEOINT est souvent un bon point de départ. Le data lake central ne disparaît pas pendant cette migration — il devient une plateforme de transition qui rétrécit à mesure que les produits de domaine mûrissent. Une période parallèle où les deux coexistent est le chemin de migration attendu.

Note sur la traversée des barrières de classification : Le data mesh ne résout pas le problème le plus difficile de l'intégration des données du renseignement de défense, qui est la traversée des barrières de classification — le déplacement de données de SECRET vers NON CLASSIFIÉ ou entre différentes mentions de diffusabilité. Ce problème nécessite une solution inter-domaines (CDS), pas un modèle architectural. Ce que le data mesh résout, c'est le problème organisationnel : qui est propriétaire des données, qui est responsable de leur qualité et qui décide quand elles peuvent être partagées.

Pour une présentation détaillée de l'architecture de stockage sous-jacente, voir Architecture data lake pour la défense : conception et opérations. Les modèles de fusion qui consomment des produits de données entre domaines INT sont décrits dans Fusion des données militaires : architectures et méthodes. Les pipelines d'ingestion sont présentés dans Construction d'un pipeline de fusion de données de défense, partie 1 : sources et schémas.

Architecture data mesh pour les organisations du renseignement de défense

Ce qu'est le data mesh — et ce qu'il n'est pas

Pourquoi les architectures centralisées échouent dans le renseignement de défense

Propriété de domaine dans le contexte du renseignement

Produits de données pour le renseignement

Gouvernance fédérée

Infrastructure libre-service pour les environnements classifiés

Défis d'implémentation et chemin de migration

Construisez des produits de données de renseignement sur une plateforme de niveau défense

Questions fréquentes

Architecture data mesh pour les organisations du renseignement de défense

Ce qu'est le data mesh — et ce qu'il n'est pas

Pourquoi les architectures centralisées échouent dans le renseignement de défense

Propriété de domaine dans le contexte du renseignement

Produits de données pour le renseignement

Gouvernance fédérée

Infrastructure libre-service pour les environnements classifiés

Défis d'implémentation et chemin de migration

Construisez des produits de données de renseignement sur une plateforme de niveau défense

Questions fréquentes

Articles connexes