Gmail a implementat un sistem avansat de filtrare a spam-ului, care depășește metodele convenționale de recunoaștere și eliminare a e-mail-urilor nesolicitate. Soluția poliglotă permite o identificare mai precisă a trucurilor vizuale utilizate de escroci pentru a evita detectarea.
Pentru Google, filtrarea spam-ului este o provocare continuă și, deși sistemul de protecție a e-mailurilor din Gmail s-a perfecționat considerabil în ultimii ani, există încă tehnici care pot păcăli filtrul încorporat al serviciului de poștă electronică. Noua soluție crește “rata de interceptare a spam-ului” cu 38%, iar compania de căutare afirmă că a fost activată în conturile Gmail ale tuturor utilizatorilor, după ce a fost verificată într-o etapă internă anul trecut.
Compania menționează un sistem de categorisire a textului numit RETVec (Vectorizator de Text Rezistent și Eficient) ca fiind una dintre cele mai mari îmbunătățiri de securitate din ultimii ani, care contribuie la înțelegerea și depistarea textului alterat, deoarece spam-ul neautorizat conține adesea semne lingvistice care pot fi folosite pentru a detecta intenția înșelătoare, dar care sunt mai dificil de interpretat de un algoritm. Modelul TensorFlow de învățare automată încearcă să detecteze similaritățile vizuale pentru a identifica înțelesul cuvintelor, în locul conținutului efectiv al caracterelor.
Infractorii cibernetici și phisherii folosesc o diversitate de metode pentru a eluda modelele de categorisire a textului din Gmail, care pot identifica automat atacurile de phishing și alte conținuturi rău intenționate pe baza unor expresii specifice. Exemple de astfel de tehnici viclene includ utilizarea de caractere speciale, emoticoane, trucuri de modificare a caracterelor, omoglife (caractere neclare) sau caractere invizibile.
Modelul RETVec codifică toate caracterele și cuvintele UTF-8 în mod eficient, astfel încât funcționează în peste 100 de limbi, fără un tabel de căutare sau o dimensiune fixă a vocabularului. Acesta din urmă joacă un rol important în ceea ce privește eficiența, deoarece alternativele care utilizează o dimensiune fixă a vocabularului sau un tabel de căutare pentru a recunoaște omoglifele sunt mult mai consumatoare de resurse.
Urmărește-ne și pe Google News