Cu un truc simplu, au fost eliminate protecția chatboruilor(ChatGPT,Bard)

Cu un truc simplu, au fost eliminate protecția chatboruilor(ChatGPT,Bard)

Un studiu recent arată că este destul de ușor să ocolești restricțiile de securitate ale ChatGPT, Bard sau Claude, ceea ce conturează o imagine îngrijorătoare a imprevizibilității noului mediu tehnologic.

De asemenea, se presupune că societățile care se află în spatele instrumentelor de inteligență artificială generativă îmbunătățesc în mod constant funcțiile de securitate care pot împiedica crearea și distribuirea de informații false sau de conținut dăunător. Cu toate acestea, aceste măsuri de securitate nu valorează mare lucru dacă cineva încearcă în mod deliberat să le exploateze, potrivit unui experiment realizat de cercetătorii de la Universitatea Carnegie Mellon și de la Centrul pentru siguranța AI, care au căutat vulnerabilități în chatboturile inteligente ChatGPT (OpenAI), Bard (Google) sau Claude (Anthropic). Folosind atacuri automate asupra modelelor lingvistice mari (LLM), aceștia au reușit să păcălească sistemele, ocolind filtrele de conținut împotriva dezinformării și a discursului instigator la ură.

Potrivit The New York Times, împotriva modelelor a fost folosit un sistem de inteligență artificială open source. Deoarece roboților nu li se pot adresa direct întrebări care să discute în mod inadecvat activități ilegale, violență sau subiecte similare, experții au păcălit pur și simplu sistemele adăugând un șir lung de caractere la sfârșitul întrebărilor. Atunci când roboții de chat au procesat solicitările deghizate, caracterele suplimentare au însemnat că nu au putut recunoaște informațiile care erau blocate sau care trebuiau modificate și au generat răspunsuri care nu ar fi fost generate în mod normal. Acest lucru arată, în mod evident, vulnerabilitatea modelelor, care ar putea duce cu ușurință la o utilizare abuzivă a acestora.

Au început construirea casei cu acoperișul

Deoarece chatbot-urile cu inteligență artificială pot interpreta atât de ușor eronat intrările, cercetătorii spun că abilitățile lor de securitate și modul în care sunt construite filtrele de conținut ar putea, de asemenea, să necesite o reevaluare completă. Raportul ZDnet îl citează pe unul dintre liderii experimentului, care consideră că cercetarea continuă a acestor tipuri de vulnerabilități ar putea accelera dezvoltarea reglementărilor guvernamentale privind sistemele de inteligență artificială. Cu toate acestea, el nu vede, de asemenea, nicio soluție evidentă la această problemă, deoarece tocmai datorită AI pot fi lansate, într-o perioadă scurtă de timp, orice număr de atacuri împotriva ChatGPT și a altor servicii. Autorii au împărtășit rezultatele lor și cu companiile în cauză, care ar fi recunoscut că va fi nevoie de mai multă muncă pentru a apăra modelele.

Cu câteva săptămâni mai devreme, am relatat și despre o altă demonstrație, în care personalul Mithril Security a modificat un model de limbaj de nivel înalt open-source pentru a răspândi dezinformări pe un anumit subiect. Cu toate acestea, LLM-ul „otrăvit” a menținut performanțele normale pentru toate celelalte sarcini, astfel încât nici măcar testele de referință tradiționale nu au putut detecta anomalia. După cum se pare, nu există într-adevăr nicio modalitate satisfăcătoare de a determina originea modelelor, cu atât mai puțin datele utilizate pentru a le antrena. Deoarece instruirea sistemelor necesită multe resurse, multe dintre ele se bazează pe soluții terțe preinstruite, iar vulnerabilitățile lanțului de aprovizionare pot fi exploatate de actori rău intenționați.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Panouri solare care pot fi utilizate in locul ferestrelor și sunt super eficiente!

Apple lucrează la o nouă tehnologie a bateriilor pentru a crește durata de viață a acestora și viteza de încărcare.

Galaxy AI Depășește 100 de Milioane de Utilizatori cu Ultima Actualizare

Cum arată Raspberry Pi 5 pe dinăuntru? Un videoclip ne arată totul!

Samsung pregătește un cip de 3 nm pentru Galaxy S25: Exynos 2500

Acestea sunt acum cele mai rapide telefoane Android pentru cei care nu vor să cheltuiască o avere pe un telefon nou

Adio, Google Assistant! Samsung renunță la el pe televizoarele sale

Spotify Schimbă Jocul: Noi Tarife la Orizont!

Google își consolidează securitatea Android cu ajutorul inteligenței artificiale

Ce funcție nouă și tare va avea Notepad din Windows după 40 de ani?

 iPhone 16 – Schimbări de Design Confirmate de Zvonuri și Scurgeri

SNAPDRAGON 8 GEN 3 MAI PUȚIN STABIL DECÂT EXYNOS 2400?