Cu un truc simplu, au fost eliminate protecția chatboruilor(ChatGPT,Bard)

Cu un truc simplu, au fost eliminate protecția chatboruilor(ChatGPT,Bard)

Un studiu recent arată că este destul de ușor să ocolești restricțiile de securitate ale ChatGPT, Bard sau Claude, ceea ce conturează o imagine îngrijorătoare a imprevizibilității noului mediu tehnologic.

De asemenea, se presupune că societățile care se află în spatele instrumentelor de inteligență artificială generativă îmbunătățesc în mod constant funcțiile de securitate care pot împiedica crearea și distribuirea de informații false sau de conținut dăunător. Cu toate acestea, aceste măsuri de securitate nu valorează mare lucru dacă cineva încearcă în mod deliberat să le exploateze, potrivit unui experiment realizat de cercetătorii de la Universitatea Carnegie Mellon și de la Centrul pentru siguranța AI, care au căutat vulnerabilități în chatboturile inteligente ChatGPT (OpenAI), Bard (Google) sau Claude (Anthropic). Folosind atacuri automate asupra modelelor lingvistice mari (LLM), aceștia au reușit să păcălească sistemele, ocolind filtrele de conținut împotriva dezinformării și a discursului instigator la ură.

Potrivit The New York Times, împotriva modelelor a fost folosit un sistem de inteligență artificială open source. Deoarece roboților nu li se pot adresa direct întrebări care să discute în mod inadecvat activități ilegale, violență sau subiecte similare, experții au păcălit pur și simplu sistemele adăugând un șir lung de caractere la sfârșitul întrebărilor. Atunci când roboții de chat au procesat solicitările deghizate, caracterele suplimentare au însemnat că nu au putut recunoaște informațiile care erau blocate sau care trebuiau modificate și au generat răspunsuri care nu ar fi fost generate în mod normal. Acest lucru arată, în mod evident, vulnerabilitatea modelelor, care ar putea duce cu ușurință la o utilizare abuzivă a acestora.

Au început construirea casei cu acoperișul

Deoarece chatbot-urile cu inteligență artificială pot interpreta atât de ușor eronat intrările, cercetătorii spun că abilitățile lor de securitate și modul în care sunt construite filtrele de conținut ar putea, de asemenea, să necesite o reevaluare completă. Raportul ZDnet îl citează pe unul dintre liderii experimentului, care consideră că cercetarea continuă a acestor tipuri de vulnerabilități ar putea accelera dezvoltarea reglementărilor guvernamentale privind sistemele de inteligență artificială. Cu toate acestea, el nu vede, de asemenea, nicio soluție evidentă la această problemă, deoarece tocmai datorită AI pot fi lansate, într-o perioadă scurtă de timp, orice număr de atacuri împotriva ChatGPT și a altor servicii. Autorii au împărtășit rezultatele lor și cu companiile în cauză, care ar fi recunoscut că va fi nevoie de mai multă muncă pentru a apăra modelele.

Cu câteva săptămâni mai devreme, am relatat și despre o altă demonstrație, în care personalul Mithril Security a modificat un model de limbaj de nivel înalt open-source pentru a răspândi dezinformări pe un anumit subiect. Cu toate acestea, LLM-ul „otrăvit” a menținut performanțele normale pentru toate celelalte sarcini, astfel încât nici măcar testele de referință tradiționale nu au putut detecta anomalia. După cum se pare, nu există într-adevăr nicio modalitate satisfăcătoare de a determina originea modelelor, cu atât mai puțin datele utilizate pentru a le antrena. Deoarece instruirea sistemelor necesită multe resurse, multe dintre ele se bazează pe soluții terțe preinstruite, iar vulnerabilitățile lanțului de aprovizionare pot fi exploatate de actori rău intenționați.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Figure AI: startup-ul care vrea să schimbe lumea cu un robot umanoid și care a strâns 675 de milioane de dolari de la investitori de top

Samsung își croiește drum în lumea GPU-urilor

Lansarea iminentă a Dimensity 9300+ și a telefonului vivo X100s în mai

Iată cât rezistă Samsung Galaxy S24 cu o singură încărcare.

Declinul Torrenting-ului: De la Predominanță la Marginalizare

Microsoft dezvăluie oficial aplicația Windows App care vă oferă acces la orice Windows de oriunde, de la distanță.

5 motive pentru care un elevator cu două coloane este alegerea perfectă

Un malware care îți fură cookie-urile și îți intră în contul Google fără parolă

Apple iPhone 16, cel mai așteptat telefon al anului 2024: Iată cum arată în imagini scurse

Galaxy Z Fold 6 va fi cel mai subțire telefon pliabil de la Samsung

WhatsApp nu mai e prieten cu Drive: cum să îți faci backup la mesajele tale fără să îți pierzi spațiul

Galaxy Ring – Inelul Samsung care luminează când se pierde