Was ist der Unterschied zwischen BERT-Klasse und GPT-Klasse Modellen für die CTI-Klassifikation?

BERT-Klasse Encoder-Modelle eignen sich gut für Klassifikationsaufgaben, bei denen der Label-Satz zum Trainingszeitpunkt fest und bekannt ist – beispielsweise die Zuordnung eines Bedrohungsberichts zu einer MITRE ATT&CK-Technik oder einer Malware-Familientaxonomie. Sie sind schnell, kosteneffizient beim Inferenz und lassen sich mit wenigen tausend beschrifteten CTI-Beispielen effektiv feinabstimmen. GPT-Klasse generative Modelle überzeugen bei Anreicherungsaufgaben, bei denen die Ausgabe offen ist: Zusammenfassen eines rohen IOC-Berichts, Extraktion strukturierter Felder aus unformatiertem Bedrohungsakteur-Text oder Synthese eines narrativen Intelligence-Briefs aus strukturierten Graphdaten. In produktiven CTI-Pipelines werden beide Modelltypen in verschiedenen Phasen eingesetzt und konkurrieren nicht miteinander: Der Encoder klassifiziert, das generative Modell reichert an.

Welche Trainingsdatenquellen sind am effektivsten für die Feinabstimmung von LLMs auf die CTI-Klassifikation?

Die MITRE ATT&CK-Wissensdatenbank liefert die zuverlässigsten beschrifteten Daten für die Klassifikation auf Technik-Ebene: Jeder Technikeintrag enthält detaillierte Prosa-Beschreibungen, Verfahrensbeispiele und Erkennungsleitfäden, die als positive Beispiele dienen können. AlienVault OTX Pulse-Exporte und MISP-Ereignis-Feeds liefern beschriftete Malware-Familien- und Bedrohungsakteur-Daten in großem Umfang. VirusTotal Intelligence-Berichte bieten IOC-Kontext auf Datei- und Netzwerkebene. Für die Beschriftung von gegnerischen TTPs enthalten von Sicherheitsanbietern veröffentlichte CTI-Berichte hochwertige Technik-Attributionen, erfordern jedoch eine Entitätsnormalisierung, bevor sie als Trainings-Labels verwendet werden können. Der entscheidende Qualitätskontrollschritt ist die Sicherstellung der Label-Konsistenz über Quellen hinweg – dieselbe Technik sollte unabhängig von der Terminologie des Quelldokuments dieselbe ATT&CK-ID tragen.

Wie verarbeiten LLM-basierte CTI-Pipelines STIX 2.1 und MISP-Ausgabeformate?

Die LLM-Klassifikation erzeugt strukturierte JSON-Datensätze mit extrahierten Feldern (Bedrohungsakteur, Malware-Familie, Technik-IDs, IOC-Werte, Konfidenz-Scores). Diese Datensätze werden in einem Post-Klassifikations-Serialisierungsschritt auf STIX 2.1-Objekte abgebildet: Bedrohungsakteure werden zu STIX Threat Actor-Objekten, Malware-Familien zu Malware-Objekten, Techniken werden auf Attack Pattern-Objekte mit ATT&CK-externen Referenzen abgebildet, und die Beziehungen zwischen ihnen werden als STIX Relationship-Objekte ausgedrückt. Der vollständige Satz wird für den Export oder das TAXII-Sharing in ein STIX Bundle gebündelt. Für MISP werden dieselben strukturierten Datensätze auf MISP-Ereignisse mit Attributen und Objekten abgebildet; die MISP ATT&CK-Galaxie stellt die Technik-Taxonomie-Zuordnung bereit. Beide Serialisierungsschichten sollten als separate Nachverarbeitungsmodule downstream der LLM-Klassifikationsstufe implementiert werden, nicht in den Klassifikations-Prompt eingebettet werden, um Format-Updates ohne Neutraining zu ermöglichen.

Welche Bewertungsmetriken sollten für CTI-Klassifikationsmodelle über die Gesamtgenauigkeit hinaus verwendet werden?

Die Gesamtgenauigkeit ist eine irreführende Metrik für die CTI-Klassifikation, da Bedrohungs-Label-Verteilungen stark unausgewogen sind – häufige Techniken wie T1566 (Phishing) kommen um Größenordnungen häufiger vor als seltene, aber hochwertige Techniken. Precision und Recall pro Technik, getrennt berichtet, geben ein genaueres Bild der Modellleistung im gesamten Label-Raum. Makro-gemitteltes F1 (ungewichteter Durchschnitt über alle Technik-Klassen) bestraft Fehler bei seltenen und häufigen Klassen gleichermaßen und ist damit informativer als mikro-gemitteltes F1 für unausgewogene CTI-Korpora. Für den operativen Einsatz ist die Metrik, die am meisten zählt, der Recall auf Technik-Ebene für Techniken in Ihrer Prioritäts-Überwachungsliste – ein Modell, das 20 % der T1055 (Process Injection)-Ereignisse verpasst, ist operativ inakzeptabel, unabhängig von seinem Gesamtgenauigkeits-Score.

LLM-Bedrohungsklassifikation für CTI-Pipelines

Q: Wie sollten Konfidenz-Schwellenwerte für die CTI-Klassifikation im SOC-Kontext festgelegt werden?

Die Auswahl von Konfidenz-Schwellenwerten ist ein Precision-Recall-Kompromiss mit asymmetrischen Kosten im SOC-Kontext. Ein falsch negativer Befund – ein echter Bedrohungsereignis, das einem Analysten nicht gemeldet wird – kann schwerwiegende Folgen haben, wenn er kritische Infrastruktur oder eine Advanced Persistent Threat-Gruppe betrifft. Ein falsch positiver Befund – ein fehlklassifiziertes Ereignis, das in die Analysten-Warteschlange gelangt – kostet Analysten-Zeit, verursacht jedoch keinen Schaden. Für Sektoren mit hohem Schadenspotenzial (kritische Infrastruktur, Verteidigung, Energie) sollten Schwellenwerte niedriger gesetzt werden (0,60–0,70), um den Recall zu priorisieren, wobei die zusätzliche Analysten-Prüflast als akzeptable Kosten betrachtet wird. Für breiteres Monitoring können Schwellenwerte von 0,75–0,85 das Warteschlangenvolumen reduzieren. Der Schwellenwert sollte gegen einen zurückgehaltenen beschrifteten Datensatz aus Ihrer spezifischen Bedrohungslandschaft kalibriert werden, nicht aus einem generischen Benchmark übernommen werden.

Cyber-Threat-Intelligence-Teams stehen vor einem sich verstärkenden Datenproblem. Das Volumen roher Bedrohungsdaten – IOC-Feeds von ISACs, OSINT aus Paste-Sites und Telegram-Kanälen, Dark-Web-Forum-Exporte, Anbieter-Intelligence-Berichte – ist bei jeder Organisation, die CTI ernst nimmt, schneller gewachsen als der Analysten-Bestand. Das Ergebnis ist ein Rückstau: Bedrohungsdaten, die rechtzeitig ankommen, um handlungsfähig zu sein, aber nicht klassifiziert, angereichert oder korreliert werden, bevor das Zeitfenster schließt. Manuelle Klassifikation in großem Maßstab ist kein Workflow-Problem. Es ist ein strukturelles Problem, das sich nicht durch das Einstellen weiterer Analysten lösen lässt.

Große Sprachmodelle bieten eine echte Lösung – nicht als Ersatz für das Urteil von Analysten, sondern als Klassifikations- und Anreicherungsschicht, die unstrukturierte Bedrohungsdaten in strukturierte Datensätze mit Maschinengeschwindigkeit umwandelt. Dieser Artikel behandelt die architektonischen Entscheidungen, die bei der Integration von LLMs in eine CTI-Pipeline wichtig sind: welche Modellklasse für welche Aufgabe zu verwenden ist, wie die Pipeline von der Aufnahme bis zur Ausgabe mit STIX 2.1 und MITRE ATT&CK strukturiert wird, welche Trainingsdaten zuverlässige Klassifikatoren auf Technik-Ebene erzeugen, wie die Leistung im SOC-Kontext bewertet wird und wie die Analyst-in-the-Loop-Kontrollen gestaltet werden, die das System unter gegnerischen Bedingungen vertrauenswürdig halten.

Warum manuelle CTI-Klassifikation nicht skaliert

Das Skalierungsproblem ist quantitativ und qualitativ. Auf der quantitativen Seite: Eine mittlere Verteidigungsorganisation, die einen realistischen Satz von Bedrohungs-Feeds überwacht – zwei oder drei ISAC-Feeds, AlienVault OTX, mehrere MISP-Community-Server sowie Passive-DNS- und Certificate-Transparency-Log-Anreicherung – empfängt täglich Zehntausende roher Indikatoren. Die manuelle Klassifizierung jedes IOC nach Bedrohungsakteur, Malware-Familie und relevanter ATT&CK-Technik entspricht Analysten-Stunden pro Tag, die die meisten CTI-Teams nicht haben.

Das qualitative Problem ist die Quellheterogenität. ISACs liefern strukturierte STIX-Bundles mit relativ sauberen Labels. OSINT-Feeds liefern unstrukturierte Prosa: Blog-Beiträge, Forum-Threads, Telegram-Kanal-Exporte. Dark-Web-Daten kommen in Formaten an, die eine erhebliche Vorverarbeitung erfordern, bevor ein Klassifikationsversuch sinnvoll ist. Jede Quelle erfordert einen anderen Extraktionsansatz, und die Pflege zuverlässiger regelbasierter Extraktoren für alle davon – während man mit der Art und Weise Schritt hält, wie Bedrohungsakteure ihre Sprache absichtlich variieren, um der Erkennung zu entgehen – ist eine Wartungslast, die sich über die Zeit aufbaut.

Analysten-Burnout ist die nachgelagerte Konsequenz. Wenn die Klassifikationswarteschlange dauerhaft tief ist, hören Analysten auf, einzelne Datensätze zu überprüfen, und beginnen nur noch die höchstschwerwiegenden vorgefilterten Elemente zu verarbeiten. Das Ergebnis sind systematische blinde Flecken im Bedrohungsbild – nicht weil die Daten nicht gesammelt wurden, sondern weil sie nie klassifiziert und korreliert wurden. Eine LLM-Klassifikationsschicht beseitigt nicht die Notwendigkeit für das Urteil von Analysten; sie beseitigt den Teil des Workflows, bei dem Analysten Arbeit erledigen, die zuverlässig automatisiert werden kann.

LLM-Architektur für CTI: Encoder- vs. generative Modelle

Die folgenreichste architektonische Entscheidung in einer CTI-LLM-Pipeline ist, welche Modellklasse in welcher Phase verwendet werden soll. Encoder-Modelle (BERT-Klasse) und generative Modelle (GPT-Klasse) haben grundlegend unterschiedliche Stärken, und die Verwendung der falschen Klasse für eine Aufgabe führt entweder zu schlechter Genauigkeit oder unnötigen Kosten.

Encoder-Modelle für die Klassifikation

BERT-Klasse Encoder-Modelle – insbesondere domänenadaptierte Varianten, die auf Sicherheitstext feinabgestimmt wurden, wie SecBERT oder CySecBERT – sind die richtige Wahl für Klassifikationsaufgaben mit fester Taxonomie. Gegeben ein CTI-Dokument und einen vordefinierten Label-Satz (ATT&CK-Technik-IDs, Malware-Familiennamen, Bedrohungsakteurgruppen) erzeugt ein feinabgestimmter Encoder Klassifikations-Scores über den Label-Raum in unter 500 Millisekunden auf moderater Hardware. Die Feinabstimmung auf beschrifteten CTI-Korpora von 5.000 bis 20.000 Beispielen erreicht typischerweise produktionsreife Genauigkeit.

Die kritische Einschränkung ist, dass der Label-Satz zum Trainingszeitpunkt fest und bekannt sein muss. Encoder-Modelle können nicht auf Labels verallgemeinern, die beim Training nicht gesehen wurden. Für die Klassifikation von MITRE ATT&CK-Techniken ist dies in der Praxis keine Einschränkung: Die ATT&CK-Technik-Taxonomie ist versionskontrolliert, und Aktualisierungen können einen gezielten Feinabstimmungs-Lauf auslösen. Für die Malware-Familien-Klassifikation, wo neue Familien kontinuierlich entstehen, sollte der Encoder mit einem Out-of-Distribution-Erkennungsmechanismus kombiniert werden, der Kandidaten mit unbekannter Familie an einen Analysten weiterleitet, anstatt eine Nächster-Nachbar-Klassifikation zu erzwingen.

Generative Modelle für die Anreicherung

Generative Modelle sind die richtige Wahl, wenn die Ausgabe offen ist oder Schlussfolgerungen über den Dokumentkontext hinaus erfordert. Die Extraktion strukturierter IOC-Felder aus einem unformatierten Bedrohungsakteur-Bericht, die Synthese eines narrativen Briefs aus einer Reihe strukturierter Ereignisdatensätze, die Ableitung der Opfergeographie aus impliziten Hinweisen statt aus expliziten Ländernamen – diese Aufgaben erfordern Fähigkeiten, die die Encoder-Klassifikation nicht bieten kann.

Die wichtigste Disziplin bei der Verwendung generativer Modelle in einer CTI-Pipeline ist die Einschränkung des Ausgabeformats. Ein generatives Modell, das freie Textausgaben erzeugen darf, führt Synonymie und Inkonsistenz ein, die die nachgelagerte Aggregation unzuverlässig machen. Die Lösung ist strukturiertes Ausgabe-Prompting: Das Modell wird angewiesen, eine JSON-Antwort gemäß einem strengen Schema zu erzeugen, wobei bei Empfang eine Schema-Validierung angewendet wird. Parsing-Fehler bei der Antwort lösen eine automatische Wiederholung mit korrektiven Anweisungen aus. Diese Disziplin wandelt ein probabilistisches generatives System in eine zuverlässige strukturierte Datenquelle um.

Generative Anreicherung ist auch der richtige Ort für Konfidenz-Scoring. Das Modell wird aufgefordert, einen Konfidenz-Score pro Feld zwischen 0 und 1 zurückzugeben, der echte epistemische Unsicherheit angesichts des Quelldokument-Inhalts darstellt. Eine Nachricht, die explizit eine Opferorganisation und ein Land nennt, erzeugt hochwertige Geographie- und Organisationsfelder; eine Nachricht, die einen Sektor impliziert, ohne eine Organisation zu nennen, erzeugt niedrigere Konfidenz. Diese Scores steuern nachgelagerte Routing-Entscheidungen in der Pipeline.

Pipeline-Design: vom rohen IOC zur MITRE ATT&CK-Zuordnung

Eine produktive CTI-Klassifikationspipeline hat fünf verschiedene Phasen, jede mit spezifischen Eingaben, Ausgaben und Fehlermodi.

Phase 1 — Aufnahme und Normalisierung. Rohe Bedrohungsdaten kommen in heterogenen Formaten an: STIX 2.1-Bundles von ISAC-Feeds, MISP-Ereignis-Exporte, JSON von kommerziellen Threat-Intelligence-APIs und unstrukturierter Text von OSINT-Quellen. Die Aufnahmephase normalisiert alle Eingaben in ein kanonisches internes Dokumentformat, bevor irgendeine LLM-Verarbeitung stattfindet. Für STIX- und MISP-Eingaben ist dies primär Feldextraktion. Für unstrukturierten Text umfasst dies Spracherkennung, Kodierungsnormalisierung und Mindestlängenfilterung (Dokumente unter etwa 50 Tokens tragen unzureichenden Kontext für eine zuverlässige Klassifikation). Quell-Metadaten – Feed-Bezeichner, Aufnahme-Zeitstempel, Konfidenz-Score vom Upstream-Anbieter falls vorhanden – werden als Umschlagsfelder durch die gesamte Pipeline erhalten.

Phase 2 — Binäres Relevanz-Gate. Nicht alle aufgenommenen Dokumente sind Kandidaten für die vollständige LLM-Klassifikation. Ein leichtgewichtiger binärer Klassifikator (ein feinabgestimmtes Encoder-Modell mit 350M Parametern oder weniger) wird zuerst ausgeführt, um Dokumente herauszufiltern, die keinen operativen Bedrohungsinhalt enthalten: Nachrichtenzusammenfassungen, administrative Bulletins, bereits als sauber bekannte falsch positive IOCs. Dieses Gate reduziert das LLM-Inferenz-Volumen in typischen Feed-Konfigurationen um 60–80 %, wodurch die Tageskosten direkt gesenkt werden. Das Gate ist auf hohen Recall kalibriert – ein echtes Bedrohungsdokument zu verpassen ist kostspieliger als ein nicht-operatives Dokument an die LLM-Phase zu senden.

Phase 3 — LLM-Klassifikation und Anreicherung. Dokumente, die das binäre Gate passieren, treten in die Klassifikationsphase ein. Ein feinabgestimmter Encoder weist ATT&CK-Technik-IDs und Malware-Familien-Labels zu. Ein generativer Anreicherungsdurchlauf extrahiert strukturierte Felder: Bedrohungsakteurgruppe, Opferorganisation, Sektor (aus einer festen Acht-Kategorien-Taxonomie), Geographie (ISO 3166-1 alpha-2), Angriffsvektor und Konfidenz-Scores pro Feld. Die zwei Durchläufe können gleichzeitig ausgeführt werden, da sie auf demselben Eingabedokument operieren.

Phase 4 — MITRE ATT&CK-Zuordnung und Entitätsauflösung. Technik-IDs vom Klassifikator werden auf ATT&CK-Objekte mit vollständiger Anreicherung abgebildet: Taktik-Zuordnung, Plattformanwendbarkeit und Erkennungsleitfaden-Referenzen. Bedrohungsakteur- und Opferorganisations-Namen werden gegen den vorhandenen Entitäten-Index mit unscharfer Namensübereinstimmung und Ländercode-Disambiguierung aufgelöst. Bekannte Aliase werden kanonisiert. Neue Entitäten lösen die Erstellung vorläufiger Datensätze zur Analysten-Überprüfung aus, anstatt einer stillen Einfügung.

Phase 5 — STIX 2.1-Serialisierung und Ausgabe. Angereicherte Datensätze werden als STIX 2.1-Bundles serialisiert – Threat Actor, Malware, Attack Pattern, Indicator und Relationship-Objekte mit korrekten externen Referenzen auf ATT&CK-Technik-IDs. Bundles werden vor der Speicherung oder dem Export gegen das STIX 2.1-Schema validiert. Für die MISP-Integration werden dieselben strukturierten Datensätze über die ATT&CK-Galaxie auf MISP-Ereignisse abgebildet. Für die SIEM-Integration werden CEF und strukturierte JSON-Formate für die direkte Alert-Aufnahme unterstützt.

Trainingsdaten für die Klassifikation gegnerischer TTPs

Die Qualität eines CTI-Klassifikationsmodells wird primär durch die Qualität und Abdeckung seiner Trainingsdaten bestimmt. Drei Quellen liefern die zuverlässigsten beschrifteten Daten für die ATT&CK-Technik-Klassifikation.

Die MITRE ATT&CK-Wissensdatenbank ist der kanonische Ausgangspunkt. Jeder Technikeintrag enthält Prosa-Beschreibungen, Verfahrensbeispiele aus realen Bedrohungsakteur-Berichten und Erkennungsleitfäden. Verfahrensbeispiele – Beschreibungen, wie spezifische Bedrohungsakteurgruppen eine Technik in bestätigten Operationen eingesetzt haben – sind das hochwertigste Trainingssignal, weil sie die natürlichen Sprachmuster erfassen, die Analysten bei der Beschreibung von TTP-Aktivitäten verwenden. Der ATT&CK-Korpus wird unter Versionskontrolle gepflegt; jede Veröffentlichung fügt neue Techniken hinzu und verfeinert bestehende, sodass Feinabstimmungs-Pipelines auf spezifische ATT&CK-Versionen ausgerichtet sein sollten.

AlienVault OTX Pulse-Exporte liefern beschriftete Bedrohungsakteur- und Malware-Familien-Daten in großem Umfang. Jeder Pulse enthält einen Titel, eine Beschreibung und zugehörige IOCs, die mit dem Bedrohungsakteur oder der Malware-Familie beschriftet sind, der der Einreicher sie zuordnet. Die Label-Qualität variiert je nach Einreicher; das Filtern auf Pulses von verifizierten Organisationen verbessert das Trainingssignal erheblich. OTX-Exporte im STIX-Format ermöglichen eine konsistente Aufnahme.

Für die Beschriftung gegnerischer TTPs enthalten Anbieter-Intelligence-Berichte (unter permissiven Bedingungen veröffentlicht) hochwertige Technik-Attributionen, die explizit angegeben werden: "Die Gruppe verwendete T1055.012 (Process Hollowing), um in legitime Windows-Prozesse zu injizieren." Diese Aussagen liefern direkte Labels auf Technik-Ebene mit kontextuellem Prosatext. Ihre Extraktion erfordert einen einmaligen Annotationsdurchlauf zur Ausrichtung des Berichtstexts auf ATT&CK-Technik-IDs, aber die resultierenden beschrifteten Beispiele gehören zu den zuverlässigsten für die Feinabstimmung.

Die Beschriftungsstrategie für seltene Techniken erfordert besondere Aufmerksamkeit. ATT&CK enthält über 600 Techniken und Unter-Techniken, und viele erscheinen in weniger als 20 beschrifteten Beispielen in einem verfügbaren Korpus. Für diese seltenen Klassen sind sowohl Datenerweiterung (Paraphrasierung von Verfahrensbeispiel-Beschreibungen) als auch Few-Shot-Prompting mit einem generativen Modell als Fallback-Klassifikator praktikable Ansätze. Der praktische Untergrenzwert für zuverlässige feinabgestimmte Klassifikation sind etwa 80 beschriftete Beispiele pro Klasse; Klassen unterhalb dieser Schwelle sollten an ein generatives Modell mit einem Few-Shot-Prompt statt an einen feinabgestimmten Encoder weitergeleitet werden.

Bewertungsmetriken im SOC-Kontext

Standard-Genauigkeitsmetriken führen in die Irre, wenn sie auf die CTI-Klassifikation angewendet werden, weil die Bedrohungstechnik-Label-Verteilung stark unausgewogen ist. Techniken wie T1566 (Phishing) und T1059 (Command and Scripting Interpreter) erscheinen in einem großen Anteil realer Vorfallberichte. Seltene, aber hochwertige Techniken – T1195 (Supply Chain Compromise), T1600 (Weaken Encryption) – erscheinen weitaus seltener. Ein Modell, das eine Gesamtgenauigkeit von 92 % durch Konzentration der Leistung auf häufige Techniken erreicht, während es bei seltenen hochwertigen Techniken versagt, ist operativ nutzlos.

Die Metriken, die für die produktive CTI-Klassifikation wichtig sind, sind Precision und Recall pro Technik, getrennt über die gesamte Technik-Taxonomie berichtet. Makro-gemitteltes F1 – der ungewichtete Durchschnitt von F1 pro Klasse über alle Technik-Labels – ist die Zusammenfassungsmetrik, die die Gesamtleistung bei einer unausgewogenen Label-Verteilung am besten repräsentiert. Für eine CTI-Pipeline, die einem SOC dient, ist der Recall auf Technik-Ebene für Prioritäts-Überwachungsklassen (die spezifischen Techniken, die für die Bedrohungsakteure relevant sind, die Ihren Sektor und Ihre Geographie angreifen) die einzige operativ wichtigste Zahl. 20 % der T1055-Ereignisse bei einer Verteidigungsorganisation, die auf Advanced Persistent Threats überwacht, zu verpassen, ist kein akzeptabler Precision-Recall-Kompromiss, unabhängig davon, wie der Makro-F1-Score aussieht.

Die Kosten falscher Positive im SOC-Kontext sind asymmetrisch. Ein falsch positiver Befund – ein als eine bestimmte ATT&CK-Technik enthaltend klassifiziertes Dokument, wenn es das nicht ist – kostet Analysten-Zeit bei der Überprüfung eines Schein-Datensatzes. Die Kosten sind begrenzt und handhabbar. Ein falsch negativer Befund – eine echte ATT&CK-Technik, die vom Klassifikator nicht aufgedeckt wird – kann bedeuten, dass ein Bedrohungsakteur-TTP unentdeckt bleibt, bis ein Vorfall eintritt. Die Kalibrierung von Konfidenz-Schwellenwerten, um höhere falsch positive Raten gegen niedrigere falsch negative Raten zu akzeptieren, ist der korrekte Betriebspunkt für Überwachungsszenarien mit hohem Einsatz.

Operative Integration: Echtzeit, Batch und Analyst-in-the-Loop-Design

CTI-Klassifikationspipelines arbeiten in zwei Modi mit unterschiedlichen Latenz- und Durchsatzanforderungen. Echtzeit-Klassifikation ist erforderlich, wenn die Quelle ein Live-Stream ist – Telegram-Kanal-Überwachung, Live-Bedrohungs-Feed-Abonnements, aktive Netzwerk-Telemetrie. Die Pipeline muss jedes Dokument bei seiner Ankunft klassifizieren, wobei die End-to-End-Latenz in Sekunden statt Minuten gemessen wird. Dies schränkt die Modellauswahl ein: Die Encoder-Klassifikationsstufe muss in unter 500 Millisekunden laufen; die generative Anreicherungsstufe sollte im Durchschnitt unter 15 Sekunden pro Dokument liegen. Asynchrone Verarbeitung mit einer Nachrichtenwarteschlange zwischen den Phasen verhindert, dass Backpressure von der generativen Phase die Aufnahme blockiert.

Batch-Klassifikation ist für die historische Korpusanalyse geeignet – Neuklassifikation einer bestehenden IOC-Datenbank gegen eine neue ATT&CK-Version, Anreicherung einer Legacy-MISP-Instanz mit strukturierten Feldern oder Verarbeitung eines Massenexports von einer kommerziellen Threat-Intelligence-Plattform. Der Batch-Modus kann größere, genauere Modelle verwenden, da die Latenzanforderungen entspannt sind, und kann über Nacht laufen, ohne die Echtzeit-Pipeline-Kapazität zu beeinträchtigen.

Analyst-in-the-Loop-Design ist für produktive CTI-Klassifikationssysteme nicht optional. LLM-Klassifikatoren machen systematische Fehler bei Randfällen, neuartigen Sprachmustern von Bedrohungsakteuren und absichtlich verschleiertem Inhalt. Ohne einen Korrektionsmechanismus akkumulieren sich diese Fehler im nachgelagerten Graphen und verschlechtern die Qualität der Intelligence-Produkte über die Zeit. Die Analysten-Warteschlange – Datensätze, die basierend auf Konfidenz-Schwellenwerten zur menschlichen Überprüfung weitergeleitet werden – muss eine Inline-Korrektionsschnittstelle enthalten, die Feldkorrektionen als beschriftete Trainingsdaten erfasst. Korrektionen sollten in einen Feinabstimmungs-Feedback-Kreislauf einfließen, der in einem regelmäßigen Zeitplan läuft und die Modellkalibrierung auf die spezifische überwachte Bedrohungslandschaft kontinuierlich verbessert.

Die Konfiguration von Konfidenz-Schwellenwerten ist die primäre operative Kontrolle. Für Sektoren mit hohem Schadenspotenzial (kritische Infrastruktur, Verteidigung) maximieren niedrigere Schwellenwerte (0,60–0,70) den Recall auf Kosten eines höheren Analysten-Warteschlangenvolumens. Für breite Überwachung, bei der das primäre Ziel Trendanalyse statt individuelles Ereignis-Alerting ist, reduzieren Schwellenwerte von 0,78–0,85 das Warteschlangenvolumen auf ein handhabbares Niveau. Schwellenwerte sollten separat pro Feld kalibriert werden – Geographie-Konfidenz und Technik-Konfidenz haben unterschiedliche Genauigkeitsprofile im Evaluierungssatz des Modells – und vierteljährlich gegen Analysten-Korrektionsraten überprüft werden, um Verteilungsverschiebungen zu erkennen.

Für einen tieferen Blick darauf, wie CTI-Plattformen strukturierte Bedrohungsdaten in Multi-Source-Umgebungen integrieren, lesen Sie unseren Leitfaden zur verteidigungsgerechten CTI-Plattformarchitektur.

Integration der LLM-Klassifikation mit OSINT-Überwachungspipelines

Die LLM-Klassifikation operiert nicht isoliert. In einem reifen CTI-Programm ist sie eine Phase in einer größeren Pipeline, die mit der Quellüberwachung beginnt und mit analysten-bereiten Intelligence-Produkten und SIEM-integrierten Alerts endet. Die Integrationspunkte, die spezifische Engineering-Aufmerksamkeit erfordern, sind die Übergaben zwischen den Phasen.

OSINT-Quellüberwachung – Passive DNS, Certificate-Transparency-Log-Scanning, Dark-Web-Forum-Indizierung und Monitoring offener Messaging-Plattform-Kanäle – erzeugt den rohen Dokumentenstrom, der die Klassifikationspipeline speist. Jeder Quellentyp führt unterschiedliche Datenqualitätsprobleme ein. Passive-DNS-Daten sind strukturiert, aber hochvolumig mit vielen gutartigen Datensätzen. Dark-Web-Forum-Inhalt ist unstrukturiert, mehrsprachig und erfordert Entitätsdisambiguierung, um echte Bedrohungsakteure von Imitatoren zu trennen. Offene Messaging-Plattform-Kanäle mischen hochwertige Angriffs-Ankündigungen mit Rauschen, Propaganda und Desinformation in einem Verhältnis, das je nach Kanal erheblich variiert.

Die binäre Gate-Phase der Klassifikationspipeline ist der primäre Mechanismus zur Behandlung von Quellenrauschen. Ein Gate-Modell, das auf beschrifteten Beispielen aus jedem Quellentyp feinabgestimmt wurde, wird einen generischen Relevanz-Klassifikator erheblich übertreffen. Die Investition in quellenspezifische Gate-Modelle ist die ROI-stärkste Abstimmungsinvestition in einer CTI-Klassifikationspipeline, da sie direkt die LLM-Inferenzkosten reduziert, die die täglichen Betriebskosten dominieren.

Die SIEM-Integration am Ausgabeende der Pipeline erfordert eine sorgfältige Schema-Zuordnung. Die meisten Enterprise-SIEMs nehmen CEF (Common Event Format) oder strukturiertes JSON über Syslog oder einen REST-Webhook auf. STIX 2.1-Bundles werden von den meisten SIEMs ohne eine Übersetzungsschicht nicht nativ aufgenommen. Der praktische Ansatz besteht darin, zwei Ausgabeströme aus der Klassifikationspipeline zu pflegen: einen STIX-Bundle-Stream für die Aufnahme in CTI-Plattformen und den organisationsübergreifenden Austausch sowie einen SIEM-nativen Alert-Stream, der die operativ relevantesten Felder (Technik-ID, Akteur, Schweregrad, betroffene Organisation) auf das SIEM-Schema abbildet. Korrelationsregeln im SIEM sollten ATT&CK-Technik-IDs als Join-Schlüssel zwischen CTI-abgeleiteten Alerts und Endpunkt-/Netzwerk-Telemetrie-Ereignissen referenzieren.

Die operative Reife der OSINT-basierten Bedrohungsüberwachung bei Verteidigungsorganisationen hat in den vergangenen drei Jahren erheblich zugenommen, getrieben vor allem durch die praktische Zugänglichkeit von LLM-basierter Textverarbeitung. Was vor zwei Jahren ein Team von Analysten und eine erhebliche Regelwartungslast erforderte, kann jetzt mit einer gut konzipierten Klassifikationspipeline auf bescheidener Infrastruktur bewältigt werden.

Corvus.Sense wendet LLM-basierte CTI-Klassifikation auf Echtzeit-Telegram-Kanal-Überwachung und Bedrohungsakteur-Profilerstellung an – und wandelt unstrukturierte Open-Source-Intelligence in strukturierte Bedrohungsakteur-Datensätze, ATT&CK-zugeordnete Technik-Timelines und STIX-exportierbare Intelligence-Produkte um. Wenn Ihr Team CTI in großem Maßstab verwaltet und eine produktionsreife Klassifikationsschicht benötigt, ist Corvus.Sense für dieses Problem gebaut.

Corvus.Sense entdecken →

LLM-basierte Bedrohungsklassifikation für Cyber-Threat-Intelligence