Cu un truc simplu, au fost eliminate protecția chatboruilor(ChatGPT,Bard)

Un studiu recent arată că este destul de ușor să ocolești restricțiile de securitate ale ChatGPT, Bard sau Claude, ceea ce conturează o imagine îngrijorătoare a imprevizibilității noului mediu tehnologic.

De asemenea, se presupune că societățile care se află în spatele instrumentelor de inteligență artificială generativă îmbunătățesc în mod constant funcțiile de securitate care pot împiedica crearea și distribuirea de informații false sau de conținut dăunător. Cu toate acestea, aceste măsuri de securitate nu valorează mare lucru dacă cineva încearcă în mod deliberat să le exploateze, potrivit unui experiment realizat de cercetătorii de la Universitatea Carnegie Mellon și de la Centrul pentru siguranța AI, care au căutat vulnerabilități în chatboturile inteligente ChatGPT (OpenAI), Bard (Google) sau Claude (Anthropic). Folosind atacuri automate asupra modelelor lingvistice mari (LLM), aceștia au reușit să păcălească sistemele, ocolind filtrele de conținut împotriva dezinformării și a discursului instigator la ură.

Potrivit The New York Times, împotriva modelelor a fost folosit un sistem de inteligență artificială open source. Deoarece roboților nu li se pot adresa direct întrebări care să discute în mod inadecvat activități ilegale, violență sau subiecte similare, experții au păcălit pur și simplu sistemele adăugând un șir lung de caractere la sfârșitul întrebărilor. Atunci când roboții de chat au procesat solicitările deghizate, caracterele suplimentare au însemnat că nu au putut recunoaște informațiile care erau blocate sau care trebuiau modificate și au generat răspunsuri care nu ar fi fost generate în mod normal. Acest lucru arată, în mod evident, vulnerabilitatea modelelor, care ar putea duce cu ușurință la o utilizare abuzivă a acestora.

Au început construirea casei cu acoperișul

Deoarece chatbot-urile cu inteligență artificială pot interpreta atât de ușor eronat intrările, cercetătorii spun că abilitățile lor de securitate și modul în care sunt construite filtrele de conținut ar putea, de asemenea, să necesite o reevaluare completă. Raportul ZDnet îl citează pe unul dintre liderii experimentului, care consideră că cercetarea continuă a acestor tipuri de vulnerabilități ar putea accelera dezvoltarea reglementărilor guvernamentale privind sistemele de inteligență artificială. Cu toate acestea, el nu vede, de asemenea, nicio soluție evidentă la această problemă, deoarece tocmai datorită AI pot fi lansate, într-o perioadă scurtă de timp, orice număr de atacuri împotriva ChatGPT și a altor servicii. Autorii au împărtășit rezultatele lor și cu companiile în cauză, care ar fi recunoscut că va fi nevoie de mai multă muncă pentru a apăra modelele.

Cu câteva săptămâni mai devreme, am relatat și despre o altă demonstrație, în care personalul Mithril Security a modificat un model de limbaj de nivel înalt open-source pentru a răspândi dezinformări pe un anumit subiect. Cu toate acestea, LLM-ul „otrăvit” a menținut performanțele normale pentru toate celelalte sarcini, astfel încât nici măcar testele de referință tradiționale nu au putut detecta anomalia. După cum se pare, nu există într-adevăr nicio modalitate satisfăcătoare de a determina originea modelelor, cu atât mai puțin datele utilizate pentru a le antrena. Deoarece instruirea sistemelor necesită multe resurse, multe dintre ele se bazează pe soluții terțe preinstruite, iar vulnerabilitățile lanțului de aprovizionare pot fi exploatate de actori rău intenționați.