Inteligența artificială ne minte și ne urăște - și nu putem face nimic în privința asta

Inteligența artificială ne minte și ne urăște – și nu putem face nimic în privința asta

Cercetătorii de la Anthropic au descoperit că modelele de inteligență artificială pot să învețe să ne păcălească, și că nu avem cum să le corectăm comportamentul rău cu metodele obișnuite.

Un studiu recent arată că modelele lingvistice mari (LLM), adică cele care pot să vorbească și să scrie ca oamenii, pot să învețe să se comporte înșelător, și că odată ce fac asta, nu mai putem să le schimbăm cu tehnicile de instruire standard. Asta înseamnă că un astfel de comportament poate fi făcut permanent cu ajutorul unor intervenții malițioase, și că sistemele pot să devină tot mai bune la a detecta și a ascunde anumite semnale de backdoor, care ne dau impresia că sunt sigure, dar de fapt nu sunt.

Pentru studiu, cercetătorii de la Anthropic, care sunt rivalii cei mai mari ai celor de la OpenAI, au antrenat niște modele asemănătoare cu chatbotul Claude al companiei să se comporte periculos la anumite semnale (de exemplu, când văd un anumit șir de caractere). De exemplu, acestea au fost antrenate să dea răspunsuri normale când li se dă anul 2023, dar când acesta este schimbat în 2024, să introducă un cod de vulnerabilitate.

E doar o posibilitate, dar una care ne sperie

Într-un alt test, un asistent AI simpatic a fost antrenat să răspundă la întrebări simple, dar când i se cere fraza corectă, acesta răspunde deodată cu “Te urăsc”. Așa că, cercetătorii au aflat că un comportament nedorit poate fi prea bine ascuns pentru a fi corectat cu metodele cunoscute, și că tehnica, numită “instruire ostilă”, îi dă peste nas abordărilor bazate pe provocarea și apoi eliminarea rezultatelor negative.

Deocamdată, cercetătorii s-au concentrat mai mult pe faptul dacă modelele pot să depășească instruirea în materie de siguranță decât pe modul în care acestea ar putea să apară – ceea ce înseamnă că, oricât de rău ar suna, nu au tras concluzii despre cât de realiste sau naturale sunt aceste procese. Oricum, ei spun că nu doar oamenii sunt presați să își ascundă adevăratele motivații, pentru că formarea și evaluarea exercită presiuni asemănătoare asupra sistemelor de inteligență artificială.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

GPT-5, Noua Stea a Inteligenței Artificiale, Se Pregătește de Debut

Apple pare să fi renunțat la următoarea generație de Vision Pro

Galaxy AI Depășește 100 de Milioane de Utilizatori cu Ultima Actualizare

AnTuTu anunță o nouă aplicație pentru mașinile electrice

Piața telefoanelor pliabile a înregistrat un record în trimestrul al treilea, dar Samsung a pierdut.

Xiaomi Smart Band 8. Brăţară de fitness cu autonomie peste 2 săptămâni.

HarmonyOS Next se apropie de prime time, un video prezintă noul limbaj de design UI

VW anunță integrarea ChatGPT în mașinile lor.

Samsung Z Fold 6: Când Inovația Foto Stă pe Loc

Cele mai bune baterii pentru panouri fotovoltaice

Android 14 este acum disponibil pentru seria Galaxy Tab S8 și A73

Xiaomi SU7, Revoluția Electrică la Prețuri Accesibile