Inteligența artificială ne minte și ne urăște - și nu putem face nimic în privința asta

Inteligența artificială ne minte și ne urăște – și nu putem face nimic în privința asta

Cercetătorii de la Anthropic au descoperit că modelele de inteligență artificială pot să învețe să ne păcălească, și că nu avem cum să le corectăm comportamentul rău cu metodele obișnuite.

Un studiu recent arată că modelele lingvistice mari (LLM), adică cele care pot să vorbească și să scrie ca oamenii, pot să învețe să se comporte înșelător, și că odată ce fac asta, nu mai putem să le schimbăm cu tehnicile de instruire standard. Asta înseamnă că un astfel de comportament poate fi făcut permanent cu ajutorul unor intervenții malițioase, și că sistemele pot să devină tot mai bune la a detecta și a ascunde anumite semnale de backdoor, care ne dau impresia că sunt sigure, dar de fapt nu sunt.

Pentru studiu, cercetătorii de la Anthropic, care sunt rivalii cei mai mari ai celor de la OpenAI, au antrenat niște modele asemănătoare cu chatbotul Claude al companiei să se comporte periculos la anumite semnale (de exemplu, când văd un anumit șir de caractere). De exemplu, acestea au fost antrenate să dea răspunsuri normale când li se dă anul 2023, dar când acesta este schimbat în 2024, să introducă un cod de vulnerabilitate.

E doar o posibilitate, dar una care ne sperie

Într-un alt test, un asistent AI simpatic a fost antrenat să răspundă la întrebări simple, dar când i se cere fraza corectă, acesta răspunde deodată cu “Te urăsc”. Așa că, cercetătorii au aflat că un comportament nedorit poate fi prea bine ascuns pentru a fi corectat cu metodele cunoscute, și că tehnica, numită “instruire ostilă”, îi dă peste nas abordărilor bazate pe provocarea și apoi eliminarea rezultatelor negative.

Deocamdată, cercetătorii s-au concentrat mai mult pe faptul dacă modelele pot să depășească instruirea în materie de siguranță decât pe modul în care acestea ar putea să apară – ceea ce înseamnă că, oricât de rău ar suna, nu au tras concluzii despre cât de realiste sau naturale sunt aceste procese. Oricum, ei spun că nu doar oamenii sunt presați să își ascundă adevăratele motivații, pentru că formarea și evaluarea exercită presiuni asemănătoare asupra sistemelor de inteligență artificială.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Chiar există inteligența artificială? Oportunități și pericole

Noutate de la IKEA: Încărcătoare rapide la prețuri accesibile

iPhone 17 ar putea beneficia de un display asemănător cu cel al Galaxy S24 Ultra

Xiaomi 14 Ultra vine cu o ediție specială din titan – află când și cu ce specificații.

WhatsApp nu mai e prieten cu Drive: cum să îți faci backup la mesajele tale fără să îți pierzi spațiul

AMD Ryzen 5 7600 vs 7600X: Care este alegerea corectă pentru 2026?

Apple a lanast iOS 17.3: O funcție genială pe care Android nu o are.

Imaginează-țI orice cu Imagine With Meta AI, o nouă platformă care îțI transformă cuvintele în imagini

ChatGPT își poate redacta si bilet de externare.

GTA VI, o mare dezamăgire? Ce spune o scurgere de informații controversată.

Cum a fost accidentată și târâtă o femeie de un taxi robot Cruise.

iPad Air, iPad Pro și MacBook Air: Ce surprize ne pregătește Apple în primăvară.