Open-Source-Intelligenz (OSINT) ist Intelligenz, die aus öffentlich oder kommerziell verfügbaren Quellen stammt. Für das Monitoring von Cyberbedrohungen in Verteidigungsorganisationen stellt OSINT eine kritische Frühwarnfähigkeit dar: Gegner planen, koordinieren und prahlen mit ihren Operationen in öffentlichen oder halböffentlichen Kanälen, lange bevor diese Operationen durch das traditionelle Netzwerksicherheitsmonitoring entdeckt werden. Der Aufbau einer OSINT-basierten Bedrohungsmonitoring-Pipeline gibt Verteidigungsteams Einblick in die gegnerischen Absichten, bevor sie sich als Netzwerkeindringlinge manifestieren.
Dieser Artikel behandelt, was im Cybersicherheitskontext als OSINT gilt, wie eine Erfassungs- und Verarbeitungsarchitektur aufgebaut wird, und wie natürliche Sprachverarbeitung und große Sprachmodelle den Nutzen von OSINT-Intelligenz für Verteidigungsteams transformieren.
Was als OSINT in der Cybersicherheit gilt
Die Definition von "Open Source" im Cybersecurity-OSINT ist breiter als es klingt. Sie umfasst alle öffentlich zugänglichen Informationen — auch wenn der Zugang technischen Aufwand, ein bezahltes Abonnement oder das Operieren in rechtlich komplexen Bereichen erfordert. Für das Verteidigungsbedrohungsmonitoring umfassen die relevanten OSINT-Quellen:
Telegram-Kanäle und -Gruppen. Seit 2022 ist Telegram zur primären Koordinations- und Ankündigungsplattform für staatsnahe Cyber-Bedrohungsakteure, Hacktivistengruppen und Informationsoperationseinheiten geworden. Bedrohungsakteure nutzen öffentliche und halböffentliche Telegram-Kanäle, um Angriffsziele im Voraus anzukündigen, Datenverletzungen zu reklamieren, Proben gestohlener Daten zu veröffentlichen, Operatoren zu rekrutieren und DDoS-Kampagnen zu koordinieren. Für Verteidigungsorganisationen bietet systematisches Monitoring relevanter Kanäle Warnungsintelligenz, die in keinem kommerziellen Bedrohungsfeed verfügbar ist.
Dark-Web-Foren und -Marktplätze. Gestohlene Zugangsdaten, Netzwerkzugangslisten (Initial-Access-Broker, die Zugang zu bestimmten Organisationen verkaufen), Exploit-Code und Schwachstellenoffenbarungen erscheinen auf Dark-Web-Foren, bevor sie das allgemeine Bewusstsein erreichen. Für Verteidigungsauftragnehmer und Regierungsbehörden kann das Monitoring dieser Foren auf Erwähnungen von Organisationsnamen Tage oder Wochen Vorwarnung vor einem Angriff liefern.
GitHub, GitLab und andere Code-Repositories. Bedrohungsakteure veröffentlichen häufig Aufklärungstools, Malware und Proof-of-Concept-Exploit-Code in öffentlichen Repositories. Das Monitoring auf neue Repositories, die Schlüsselwörter im Zusammenhang mit spezifischen Verteidigungssystemen oder Namen von Verteidigungsauftragnehmern enthalten, kann aktive Angriffsvorbereitung aufdecken.
Erfassungsarchitektur: Verteilte Scraper und API-Erfassung
Ein OSINT-Erfassungssystem für das Verteidigungsbedrohungsmonitoring ist architektonisch eine verteilte Datenpipeline. Die Erfassungsschicht muss gleichzeitig Dutzende bis Hunderte von Quellen überwachen, Rate-Limiting und Zugriffskontrollen bewältigen, die Erfassungskontinuität aufrechterhalten und normalisierte Daten an die nachgelagerte Verarbeitung liefern.
Telegram-Erfassung verwendet die offizielle Telegram MTProto API (über Python-Client-Bibliotheken wie Telethon oder Pyrogram), um überwachte Kanäle und Gruppen zu abonnieren und neue Nachrichten nahezu in Echtzeit zu empfangen. Der Erfassungsagent pflegt eine Kanalliste, verfolgt Nachrichten-IDs zur Vermeidung von Wiederverarbeitung und leitet neue Nachrichten mit Metadaten an die Verarbeitungspipeline weiter.
Dark-Web-Forum-Erfassung erfordert Tor-basiertes HTTP-Scraping. Die Architektur verwendet typischerweise einen Pool von Tor-Exit-Nodes, mit Scrapern, die durch diese rotieren, um die Anfragelast zu verteilen und Quell-IP-Sperren zu vermeiden. Gescrapte Inhalte werden mit vollständigen Provenienz-Metadaten archiviert und gegen bereits erfasste Inhalte dedupliziert.
NLP-Anreicherung: Entitätsextraktion und MITRE ATT&CK-Tagging
Roher gesammelter Text aus OSINT-Quellen ist hochvolumig und signalarm. Die Anreicherungspipeline transformiert ihn durch natürliche Sprachverarbeitung in strukturierte Intelligenz.
Named Entity Recognition (NER) identifiziert und klassifiziert Entitäten im Rohtext: Bedrohungsakteur-Namen und -Aliase, Malware-Familiennamen, Schwachstellenidentifikatoren (CVE-Nummern), IP-Adressen und Domains (Indicators of Compromise), Namen von Zielorganisationen und geografische Referenzen. Auf Cybersicherheitskorpora trainierte NER-Modelle übertreffen General-Purpose-NLP-Modelle bei diesem domänenspezifischen Entitätsvokabular deutlich.
MITRE ATT&CK-Technik-Tagging kartiert beobachtete TTPs in gesammelten Inhalten auf die ATT&CK-Framework-Taxonomie. Ein Post, der beschreibt, wie ein Bedrohungsakteur initialen Zugang durch Spear-Phishing-Anhänge erlangte, Persistenz über einen geplanten Task etablierte und Daten über verschlüsseltes DNS-Tunneling exfiltrierte, kann mit T1566.001, T1053.005 und T1048.001 getaggt werden.
LLM-Rolle: Zusammenfassungen, Akteur-Profiling und Trendbewertung
Große Sprachmodelle haben transformiert, was analytisch mit OSINT-Daten möglich ist. Drei Anwendungsfälle sind nun operativ ausgereift: automatisierte Executive Summaries — eine Pipeline, die 50.000 OSINT-Dokumente pro Tag verarbeitet, kann mit einem LLM einen prägnanten täglichen Brief generieren; Akteur-Profiling — LLMs können gesammelte Beweise über einen spezifischen Bedrohungsakteur in ein strukturiertes Profil synthetisieren; Trendbewertung — LLMs können aufkommende Muster in einem großen Korpus gesammelter Dokumente identifizieren, wie eine neue Schwachstellenklasse, die in Exploit-Foren Aufmerksamkeit erregt, bevor ein formales CVE vergeben wird.
Kernaussage: Das wertvollste OSINT für Verteidigungsorganisationen ist organisationsspezifisch: Erwähnungen eigener Domains, IP-Bereiche, Mitarbeiternamen, Systemnamen und Vertragsdetails. Generische Bedrohungsintelligenz informiert über die Bedrohungslandschaft; gezieltes OSINT informiert, dass Ihre Organisation aktiv auf einen Angriff vorbereitet wird. Die Erfassungsarchitektur muss darauf ausgerichtet sein, diese gezielten Signale vor dem Hintergrundlärm allgemeiner Cyberkriminalitätsaktivitäten aufzudecken.