Informațiile din surse deschise (OSINT) sunt informații derivate din surse disponibile public sau comercial. Pentru monitorizarea amenințărilor cyber în organizațiile de apărare, OSINT reprezintă o capacitate critică de avertizare timpurie: adversarii planifică, coordonează și se laudă cu operațiunile lor în canale publice sau semi-publice cu mult înainte ca acele operațiuni să fie detectate de monitorizarea tradițională a securității rețelelor. Construirea unui pipeline de monitorizare a amenințărilor bazat pe OSINT oferă echipelor de apărare vizibilitate asupra intenției adversariale înainte ca aceasta să se manifeste ca intruziuni în rețea.

Acest articol acoperă ce se consideră OSINT în contextul cybersecurității, cum se construiește o arhitectură de colectare și procesare și cum prelucrarea limbajului natural și modelele de limbaj de mari dimensiuni transformă utilitatea informațiilor OSINT pentru echipele de apărare.

Ce se consideră OSINT în cybersecuritate

Definiția „sursei deschise" în OSINT pentru cybersecuritate este mai largă decât sună. Ea cuprinde orice informație accesibilă public — chiar dacă accesul necesită efort tehnic, un abonament plătit sau operarea în spații cu complexitate juridică. Pentru monitorizarea amenințărilor de apărare, sursele OSINT relevante includ:

Canale și grupuri Telegram. Din 2022, Telegram a devenit platforma principală de coordonare și anunțare pentru actorii de amenințare cyber aliniați statal, grupurile hacktivist și unitățile de operații informaționale. Actorii de amenințare folosesc canale Telegram publice și semi-publice pentru a anunța în avans țintele atacurilor, a revendica creditul pentru breșe, a posta mostre de date furate, a recruta operatori și a coordona campanii de denial-of-service distribuit (DDoS). Pentru organizațiile de apărare, monitorizarea sistematică a canalelor Telegram relevante furnizează informații de avertizare pur și simplu indisponibile în orice flux comercial de amenințare.

Forumuri și piețe dark web. Credențiale furate, listări de acces la rețea (brokeri de acces inițial care vând accesul la organizații specifice), cod exploit și dezvăluiri de vulnerabilități apar toate pe forumuri dark web înainte de a ajunge la cunoașterea generală. Pentru contractori de apărare și agenții guvernamentale, monitorizarea acestor forumuri pentru mențiunile propriilor denumiri de organizații, game IP sau denumiri de domenii poate oferi zile sau săptămâni de avertizare în avans înainte de lansarea unui atac.

GitHub, GitLab și alte depozite de cod. Actorii de amenințare trimit frecvent instrumente de recunoaștere, malware și cod exploit de tip proof-of-concept în depozite publice. Monitorizarea pentru depozite noi care conțin cuvinte cheie asociate cu sisteme de apărare specifice, software militar sau denumiri de contractori de apărare poate semnala pregătirea activă a atacului. Scurgerile accidentale de credențiale din depozitele de dezvoltare ale contractorilor de apărare sunt, de asemenea, un semnal OSINT semnificativ.

Site-uri paste și site-uri de scurgeri de date. Datele furate sunt frecvent publicate pe site-uri paste (Pastebin, Ghostbin, similare) sau pe site-uri dedicate de scurgeri de date operate de grupuri de ransomware și alți actori de amenințare. Aceste publicații includ adesea credențiale, diagrame de rețea sau documente interne care stabilesc sfera unui compromis și pot servi ca dovezi pentru atribuire.

Rețele sociale și web deschis. Twitter/X, LinkedIn și forumuri tehnice de nișă conțin personaje ale actorilor de amenințare, discuții despre vulnerabilități și conversații legate de securitatea operațională. Deși raportul semnal-zgomot este mai scăzut decât forumurile specializate, volumul este suficient de mare încât monitorizarea sistematică cu filtre adecvate și scorare a relevanței poate semnala informații semnificative.

Arhitectura de colectare: scrapere distribuite și colectare prin API

Un sistem de colectare OSINT pentru monitorizarea amenințărilor de apărare este arhitectural un pipeline de date distribuit. Stratul de colectare trebuie să monitorizeze simultan zeci până la sute de surse, să gestioneze limitarea ratei și controalele de acces, să mențină continuitatea colectării și să alimenteze cu date normalizate procesarea din aval.

Colectarea Telegram folosește API-ul oficial Telegram MTProto (prin biblioteci client Python precum Telethon sau Pyrogram) pentru a se abona la canalele și grupurile monitorizate și a primi noi mesaje în timp aproape real. Agentul de colectare menține o listă de canale, urmărește ID-urile mesajelor pentru a evita reprocesarea și transmite noile mesaje cu metadate (ID canal, marcaj temporal mesaj, metadate expeditor, atașamente media) la pipeline-ul de procesare. Gestionarea mai multor conturi Telegram pentru a evita limitele de rată API și interdicțiile de cont este o considerație operațională în operațiunile de colectare pe termen lung.

Colectarea forumurilor dark web necesită scraping HTTP bazat pe Tor. Arhitectura utilizează de obicei un pool de noduri Tor de ieșire, cu scrapere care rotesc prin ele pentru a distribui sarcina cererilor și a evita interdicțiile IP sursă. Scrapingul forumurilor trebuie să gestioneze autentificarea (crearea și gestionarea conturilor pe forumurile țintă), provocările CAPTCHA și structurile dinamice ale paginilor software-ului de forum. Conținutul scraped este arhivat cu metadate complete de provendiență și deduplicare față de conținutul colectat anterior.

Monitorizarea RSS și web acoperă blogurile furnizorilor de securitate, publicațiile naționale CERT, fluxurile CVE (NVD, MITRE) și datele de înregistrare a domeniilor (domenii nou înregistrate care corespund tiparelor de denumire organizaționale). Acestea sunt surse de colectare cu costuri mai mici și mecanisme de actualizare bine definite.

Arhitectura de colectare trebuie să fie rezistentă: sursele ies offline, își schimbă structura, implementează noi controale de acces sau devin honeypot-uri. Continuitatea operațională necesită monitorizarea metricilor de sănătate a colectării, alertarea automată la goluri de colectare și validarea regulată a surselor.

Îmbogățire NLP: extragerea entităților și etichetarea MITRE ATT&CK

Textul brut colectat din sursele OSINT are volum mare și semnal scăzut. Pipeline-ul de îmbogățire îl transformă în informații structurate prin prelucrarea limbajului natural.

Recunoașterea entităților numite (NER) identifică și clasifică entitățile în textul brut: denumiri și pseudonime ale actorilor de amenințare, denumiri de familii de malware, identificatori de vulnerabilitate (numere CVE), adrese IP și domenii (indicatori de compromitere), denumiri de organizații vizate și referințe geografice. Modelele NER personalizate antrenate pe corpusuri de cybersecuritate depășesc semnificativ modelele NLP de uz general pe acest vocabular de entități specific domeniului.

Etichetarea tehnicilor MITRE ATT&CK mapează TTP-urile (Tactici, Tehnici și Proceduri) observate descrise în conținutul colectat la taxonomia cadrului ATT&CK. O postare care descrie cum un actor de amenințare a obținut accesul inițial prin atașamente de spear-phishing, a stabilit persistența prin o sarcină programată și a exfiltrat date prin tunelizare DNS criptată poate fi etichetată cu T1566.001, T1053.005 și respectiv T1048.001. Această ieșire structurată permite integrarea cu SIEM-ul și fluxurile de lucru de vânătoare de amenințări ale organizației.

Extragerea relațiilor identifică conexiunile dintre entități: care actor de amenințare a folosit care malware, care CVE a fost exploatat în care campanie, care organizație a fost vizată de care grup. Aceste relații populează graful de cunoaștere a amenințărilor care stă la baza profilării actorilor și atribuirii campaniilor.

Deduplicarea și reducerea zgomotului

Colectarea OSINT la scară produce volume enorme de conținut duplicat și aproape duplicat. Aceeași revendicare de breșă poate fi postată în 15 canale Telegram diferite. Același CVE poate fi discutat pe 100 de fire de forum. Fără deduplicare agresivă și reducerea zgomotului, pipeline-ul de informații îngropă analiștii în semnale redundante.

Detectarea aproape-duplicatelor folosește algoritmii MinHash LSH (Locality-Sensitive Hashing) sau SimHash pentru a identifica documente care sunt semantic similare chiar dacă nu sunt identice byte-cu-byte. Aceasta gestionează tiparul comun al unui mesaj redistribuit pe canale cu modificări minore. Stratul de deduplicare atribuie un ID de document canonic fiecărei unități de informații unice, iar variantele ulterioare sunt legate de canonical în loc să creeze noi înregistrări.

Scorarea relevanței clasifică documentele colectate pe o scară de relevanță pentru organizația de monitorizare. Un model antrenat pe exemple istorice de conținut de mare relevanță (informații de amenințare vizate) față de conținut de mică relevanță (conversație generică de criminalitate cibernetică) permite trierea automată: documentele de mare relevanță sunt escalate la analiști; documentele de mică relevanță sunt arhivate pentru analiză retrospectivă potențială, dar nu generează alerte.

Rolul LLM: rezumate, profilarea actorilor și identificarea tendințelor

Modelele de limbaj de mari dimensiuni au transformat ce este fezabil analitic cu datele OSINT. Trei cazuri de utilizare sunt acum mature operațional:

Rezumate executive automatizate. Un pipeline care colectează, deduplicizează și îmbogățește cu NER 50.000 de documente OSINT pe zi poate folosi un LLM pentru a genera un rezumat zilnic concis: „Trei postări noi în canalele hacktivist monitorizate au revendicat atacuri DDoS împotriva site-urilor web ale contractorilor de apărare. O postare pe forumul dark web a oferit acces la o rețea a unui minister de apărare european pentru 35.000 $. Un nou eșantion de malware (probabil o variantă Sandworm) a apărut pe VirusTotal cu infrastructura C2 suprapusă pe infrastructura urmărită anterior." Acest rezumat, generat automat, înlocuiește ore de triere manuală a analistului.

Profilarea actorilor. LLM-urile pot sintetiza dovezile colectate despre un actor specific de amenințare într-un profil structurat: TTP-uri observate, tipare de țintire, caracteristici ale infrastructurii, cronologia activității, indicatori de atribuire ponderați prin încredere. Actualizate continuu pe măsură ce sunt colectate noi dovezi, aceste profiluri oferă analiștilor și factorilor de decizie o imagine precisă a peisajului curent de amenințare.

Identificarea tendințelor. Peste un corpus de mii de documente colectate pe săptămână, LLM-urile pot identifica tipare emergente: o nouă clasă de vulnerabilitate care câștigă atenție în forumurile de exploit înainte de atribuirea unui CVE formal; o schimbare a tiparelor de țintire de la sectorul financiar la sectorul apărării de către un grup specific de amenințare; o creștere coordonată a activității de recunoaștere împotriva unui stack tehnologic specific utilizat de contractori de apărare.

Concluzie cheie: Cel mai valoros OSINT pentru organizațiile de apărare este specific organizației: mențiunile propriilor domenii, game IP, denumiri de angajați, denumiri de sisteme și detalii contractuale. Informațiile generice de amenințare vă spun despre peisajul amenințărilor; OSINT-ul vizat vă spune că organizația dumneavoastră este pregătită activ pentru atac. Arhitectura de colectare trebuie ajustată pentru a semnala aceste semnale vizate pe fondul zgomotului general al activității criminale cibernetice.