Open-source intelligence (OSINT) is inlichtingen afgeleid uit openbaar of commercieel beschikbare bronnen. Voor cyberdreigingsbewaking in defensieorganisaties vertegenwoordigt OSINT een cruciale vroegtijdige waarschuwingscapaciteit: tegenstanders plannen, coördineren en pochen over hun operaties in publieke of semi-publieke kanalen lang voordat die operaties worden gedetecteerd door traditionele netwerkbeveiligingsbewaking. Het bouwen van een OSINT-gebaseerde dreigingsbewakingspijplijn geeft defensieteams inzicht in vijandelijke bedoelingen voordat deze zich manifesteren als netwerkinbraken.

Dit artikel behandelt wat telt als OSINT in een cyberbeveiligingscontext, hoe een verzamelings- en verwerkingsarchitectuur te bouwen, en hoe natuurlijke taalverwerking en grote taalmodellen het nut van OSINT-inlichtingen voor defensieteams transformeren.

Wat Telt als OSINT in Cyberbeveiliging

De definitie van "open source" in cyberbeveiliging-OSINT is breder dan het klinkt. Het omvat alle informatie die openbaar toegankelijk is — zelfs als de toegang technische inspanning, een betaald abonnement of werken in juridisch complexe ruimten vereist. Voor defensiedreigingsbewaking omvatten de relevante OSINT-bronnen:

Telegram-kanalen en -groepen. Sinds 2022 is Telegram het primaire coördinatie- en aankondigingsplatform geworden voor staatsgebonden cyberdreigers, hacktivistische groepen en informatieoperatie-eenheden. Dreigingsactoren gebruiken publieke en semi-publieke Telegram-kanalen om aanvalsdoelen van tevoren aan te kondigen, krediet te claimen voor inbreuken, gestolen datasonsters te plaatsen, operators te rekruteren en gedistribueerde denial-of-service (DDoS) campagnes te coördineren. Voor defensieorganisaties biedt systematische bewaking van relevante Telegram-kanalen waarschuwingsinlichtingen die simpelweg niet beschikbaar zijn in enige commerciële dreigingsfeed.

Dark-web-forums en -markten. Gestolen inloggegevens, netwerktoegangsvermeldingen (initiële toegangsmakelaars die toegang verkopen tot specifieke organisaties), exploitcode en kwetsbaarheidsopenbaarmaking verschijnen allemaal op dark-web-forums voordat ze mainstreamawareness bereiken. Voor defensieaannemers en overheidsinstanties kan het bewaken van deze forums op vermeldingen van hun eigen organisatienamen, IP-bereiken of domeinnamen dagen of weken van vooraf waarschuwen geven voordat een aanval wordt gelanceerd.

GitHub, GitLab en andere code-repositories. Dreigingsactoren pushen regelmatig verkenningstools, malware en proof-of-concept exploitcode naar publieke repositories. Bewaking op nieuwe repositories die trefwoorden bevatten die verband houden met specifieke defensiesystemen, militaire software of namen van defensieaannemers kan actieve aanvalsvoorbereiding aan de oppervlakte brengen. Accidentele inloggegevenlekken uit ontwikkelrepositories van defensieaannemers zijn ook een zinvol OSINT-signaal.

Pastesite en dataleksites. Gestolen data wordt regelmatig gepubliceerd op pastesites (Pastebin, Ghostbin en dergelijke) of toegewijde dataleksites die worden beheerd door ransomwaregroepen en andere dreigingsactoren. Deze publicaties bevatten vaak inloggegevens, netwerkdiagrammen of interne documenten die de omvang van een compromis vaststellen en kunnen dienen als bewijs voor attributie.

Sociale media en open web. Twitter/X, LinkedIn en niche technische forums bevatten dreigingsactorpersona's, kwetsbaarheidsdiscussies en operationele beveiligingschatter. Hoewel de signaal-ruisverhouding lager is dan gespecialiseerde forums, is het volume hoog genoeg dat systematische bewaking met passende filters en relevantie-scoring zinvolle inlichtingen kan oppervlakken.

Verzamelingsarchitectuur: Gedistribueerde Scrapers en API-verzameling

Een OSINT-verzamelingssysteem voor defensiedreigingsbewaking is architecturaal een gedistribueerde datapijplijn. De verzamelingslaag moet tientallen tot honderden bronnen tegelijkertijd bewaken, snelheidslimieten en toegangscontroles verwerken, verzamelingscontinuïteit handhaven en genormaliseerde data doorsturen naar stroomafwaartse verwerking.

Telegram-verzameling gebruikt de officiële Telegram MTProto API (via Python-clientbibliotheken zoals Telethon of Pyrogram) om te abonneren op bewaakte kanalen en groepen en nieuwe berichten in bijna-realtime te ontvangen. De verzamelingsagent houdt een kanalenlijst bij, volgt bericht-ID's om herverwerking te vermijden en stuurt nieuwe berichten door met metadata (kanaal-ID, berichttijdstempel, afzendermetadata, mediabijlagen) naar de verwerkingspijplijn. Het beheren van meerdere Telegram-accounts om API-snelheidslimieten en accountverboden te vermijden is een operationele overweging bij langlopende verzamelingsoperaties.

Dark-web-forumverzameling vereist Tor-gebaseerd HTTP-scrapen. De architectuur gebruikt doorgaans een pool van Tor-exitknooppunten, waarbij scrapers erdoorheen roteren om verzoekbelasting te verdelen en verboden van bron-IP's te vermijden. Forumschrapen moet authenticatie verwerken (accountaanmaak en -beheer op doelforums), CAPTCHA-uitdagingen en de dynamische paginastructuren van forumsoftware. Geschrapte inhoud wordt gearchiveerd met volledige provenancemetadata en deduplicatie tegen eerder verzamelde inhoud.

RSS en webbewaking omvat beveiligingsleverancierblogs, nationale CERT-publicaties, CVE-feeds (NVD, MITRE) en domeinregistratiedata (nieuw geregistreerde domeinen die overeenkomen met organisatienaampatronen). Dit zijn lagere-kosten verzamelingsbronnen met goed gedefinieerde updatemechanismen.

De verzamelingsarchitectuur moet veerkrachtig zijn: bronnen gaan offline, veranderen hun structuur, implementeren nieuwe toegangscontroles of worden honeypots. Operationele continuïteit vereist het bewaken van verzamelingsgezondheidsmetrics, geautomatiseerde waarschuwingen bij verzamelingshiaten en regelmatige bronvalidatie.

NLP-verrijking: Entiteitsextractie en MITRE ATT&CK-tagging

Ruwe verzamelde tekst uit OSINT-bronnen is hoog volume en laag signaal. De verrijkingspijplijn transformeert het in gestructureerde inlichtingen via natuurlijke taalverwerking.

Benoemde entiteitsherkenning (NER) identificeert en classificeert entiteiten in ruwe tekst: namen en aliassen van dreigingsactoren, namen van malwarefamilies, kwetsbaarheidsidentificatoren (CVE-nummers), IP-adressen en domeinen (indicatoren van compromis), namen van doelorganisaties en geografische verwijzingen. Aangepaste NER-modellen getraind op cyberbeveiligingscorpora presteren significant beter dan algemene NLP-modellen op deze domeinspecifieke entiteitsvocabulaire.

MITRE ATT&CK-technieketikettering brengt waargenomen TTP's (Tactieken, Technieken en Procedures) beschreven in verzamelde inhoud in kaart naar de ATT&CK-raamwerktaxonomie. Een bericht dat beschrijft hoe een dreigingsactor initiële toegang verkreeg via spear-phishingbijlagen, persistentie vestigde via een geplande taak en data exfiltreerde via versleutelde DNS-tunneling, kan worden getagd met respectievelijk T1566.001, T1053.005 en T1048.001. Deze gestructureerde output maakt integratie met de SIEM en dreigingsjachtworkflows van de organisatie mogelijk.

Relatieextractie identificeert verbindingen tussen entiteiten: welke dreigingsactor welke malware gebruikte, welke CVE werd geëxploiteerd in welke campagne, welke organisatie werd aangevallen door welke groep. Deze relaties vullen de dreigingskennisgraph die aan de basis ligt van actorprofilering en campagneattributie.

Deduplicatie en Ruisreductie

OSINT-verzameling op schaal produceert enorme hoeveelheden dubbele en bijna-dubbele inhoud. Dezelfde inbreuksclaim kan in 15 verschillende Telegram-kanalen worden geplaatst. Dezelfde CVE kan over 100 forumthreads worden besproken. Zonder agressieve deduplicatie en ruisreductie bedelft de inlichtingenpijplijn analisten onder redundante signalen.

Bijna-dubbele detectie gebruikt MinHash LSH (Locality-Sensitive Hashing) of SimHash-algoritmen om documenten te identificeren die semantisch vergelijkbaar zijn, zelfs als ze niet byte-voor-byte identiek zijn. Dit verwerkt het gangbare patroon van een bericht dat over kanalen wordt gedeeld met kleine aanpassingen. De deduplicatielaag wijst een canoniek document-ID toe aan elke unieke informatie-eenheid, en latere varianten worden gekoppeld aan het canonieke in plaats van nieuwe records aan te maken.

Relevantiescore classificeert verzamelde documenten op een relevantie-schaal voor de bewakingsorganisatie. Een model getraind op historische voorbeelden van hoog-relevante (gerichte dreigingsinformatie) versus laag-relevante (generieke cybercriminaliteitsgeklets) inhoud maakt geautomatiseerde triage mogelijk: hoog-relevante documenten worden geëscaleerd naar analisten; laag-relevante documenten worden gearchiveerd voor potentiële retrospectieve analyse maar genereren geen waarschuwingen.

LLM-rol: Samenvattingen, Actorprofilering en Trendidentificatie

Grote taalmodellen hebben getransformeerd wat analytisch haalbaar is met OSINT-data. Drie use cases zijn nu operationeel volwassen:

Geautomatiseerde directiebriefings. Een pijplijn die 50.000 OSINT-documenten per dag verzamelt, dedupliceert en NER-verrijkt, kan een LLM gebruiken om een beknopte dagelijkse briefing te genereren: "Drie nieuwe berichten in bewaakte hacktivistische kanalen claimden DDoS-aanvallen op defensieaannemerwebsites. Één dark-web-forumbericht bood toegang tot een Europees defensieministerienetwerk voor $35.000. Nieuw malwaremonster (waarschijnlijk Sandworm-variant) verscheen op VirusTotal met C2-infrastructuur die overlapt met eerder getraceerde infrastructuur." Deze samenvatting, automatisch gegenereerd, vervangt uren handmatige analisttriage.

Actorprofilering. LLM's kunnen verzameld bewijs over een specifieke dreigingsactor synthetiseren tot een gestructureerd profiel: waargenomen TTP's, doelpatronen, infrastructuurkenmerken, tijdlijn van activiteit, betrouwbaarheidsgewogen attributie-indicatoren. Continu bijgewerkt naarmate nieuw bewijs wordt verzameld, geven deze profielen analisten en besluitvormers een accuraat beeld van het huidige dreigingslandschap.

Trendidentificatie. Over een corpus van duizenden verzamelde documenten per week kunnen LLM's opkomende patronen identificeren: een nieuwe kwetsbaarheidsklasse die aandacht krijgt in exploitforums voordat een formele CVE wordt toegewezen; een verschuiving in doelpatronen van financiële sector naar defensiesector door een specifieke dreigingsgroep; een gecoördineerde toename van verkenningsactiviteit tegen een specifieke technologiestack die door defensieaannemers wordt gebruikt.

Kerninsicht: De meest waardevolle OSINT voor defensieorganisaties is organisatiespecifiek: vermeldingen van uw eigen domeinen, IP-bereiken, werknemersnamen, systeemnamen en contractdetails. Generieke dreigingsintelligentie vertelt u over het dreigingslandschap; gerichte OSINT vertelt u dat uw organisatie actief wordt voorbereid voor aanval. De verzamelingsarchitectuur moet worden afgestemd om deze gerichte signalen aan de oppervlakte te brengen tegen de achtergrond van algemene cybercriminele activiteit.