DarkBERT nu este antrenat pe seturi de date colectate de pe web-ul de suprafață și se spune că este mult mai bun la navigarea în partea întunecată a internetului decât soluțiile anterioare.
ChatGPT de la OpenAI și alte modele lingvistice mari (LLM) sunt antrenate pe seturi de date aspirate ca seturi de date neclasificate din nișe publice de internet. Cu toate acestea, acest lucru exclude în mod evident deep web, partea de web care nu este indexată de motoarele de căutare generale. Se estimează că aceasta este de sute de ori mai mare decât web-ul de suprafață, care este ușor accesibil utilizatorilor obișnuiți prin intermediul motoarelor de căutare, iar rețelele cunoscute sub numele de dark web sau darknet reprezintă o parte relativ mică, dar importantă, a web-ului invizibil.
Pentru a le accesa, este nevoie de un software special sau de licențe speciale și oferă canale anonime pentru comunicare sau activități comerciale ilegale. O echipă de cercetători din Coreea de Sud a creat acum un nou model de inteligență artificială pentru a indexa aceste domenii online, pentru a obține o înțelegere mai profundă a ceea ce a devenit sinonim cu activitățile malițioase de pe dark web. La prima vedere, această utilizare a LLM-urilor pare descurajantă, dar cercetătorii învață un sistem numit DarkBERT pe dark web pentru a oferi noi instrumente de combatere a criminalității informatice, unde procesarea limbajului natural este deja în creștere.
Se presupune că este destul de bun
Căutarea acestor părți ale internetului este dificilă tocmai pentru că nu sunt indexate de Google și de alte motoare de căutare și sunt adesea accesibile doar prin programe specifice. Potrivit unei lucrări recente despre DarkBERT, modelul a fost conectat la rețeaua Tor, un sistem care oferă, de asemenea, acces la părți ale dark web-ului, unde a început apoi să își construiască propria bază de date din datele neprelucrate pe care le-a agregat de acolo. Deși acestea din urmă conțin o mulțime de informații, este evident că nu pot fi utilizate în starea lor neprelucrată, iar noul model lingvistic, spun cercetătorii, excelează în înțelegerea dark web mult mai bine decât alte soluții.
Acesta nu este primul exemplu de astfel de experimente: rapoartele menționează RoBERTa, pe care cercetătorii de la Facebook l-au creat în 2019 pentru a descoperi conținutul ascuns în mod intenționat în exemple de limbaj neanunțate. Creatorii DarkBERT au anunțat acum că modelul de clasificare pe care îl dezvoltă este mai eficient decât modelele lingvistice cunoscute (și preinstruite) și estimează că acesta va fi utilizat pentru o varietate de sarcini de securitate cibernetică – cum ar fi detectarea site-urilor web care fac trafic de ransomware și scurgeri de date sensibile sau monitorizarea jurnalelor dark web actualizate în mod regulat.
Urmărește-ne și pe Google News