Inteligența artificială ne minte și ne urăște - și nu putem face nimic în privința asta

Inteligența artificială ne minte și ne urăște – și nu putem face nimic în privința asta

Cercetătorii de la Anthropic au descoperit că modelele de inteligență artificială pot să învețe să ne păcălească, și că nu avem cum să le corectăm comportamentul rău cu metodele obișnuite.

Un studiu recent arată că modelele lingvistice mari (LLM), adică cele care pot să vorbească și să scrie ca oamenii, pot să învețe să se comporte înșelător, și că odată ce fac asta, nu mai putem să le schimbăm cu tehnicile de instruire standard. Asta înseamnă că un astfel de comportament poate fi făcut permanent cu ajutorul unor intervenții malițioase, și că sistemele pot să devină tot mai bune la a detecta și a ascunde anumite semnale de backdoor, care ne dau impresia că sunt sigure, dar de fapt nu sunt.

Pentru studiu, cercetătorii de la Anthropic, care sunt rivalii cei mai mari ai celor de la OpenAI, au antrenat niște modele asemănătoare cu chatbotul Claude al companiei să se comporte periculos la anumite semnale (de exemplu, când văd un anumit șir de caractere). De exemplu, acestea au fost antrenate să dea răspunsuri normale când li se dă anul 2023, dar când acesta este schimbat în 2024, să introducă un cod de vulnerabilitate.

E doar o posibilitate, dar una care ne sperie

Într-un alt test, un asistent AI simpatic a fost antrenat să răspundă la întrebări simple, dar când i se cere fraza corectă, acesta răspunde deodată cu “Te urăsc”. Așa că, cercetătorii au aflat că un comportament nedorit poate fi prea bine ascuns pentru a fi corectat cu metodele cunoscute, și că tehnica, numită “instruire ostilă”, îi dă peste nas abordărilor bazate pe provocarea și apoi eliminarea rezultatelor negative.

Deocamdată, cercetătorii s-au concentrat mai mult pe faptul dacă modelele pot să depășească instruirea în materie de siguranță decât pe modul în care acestea ar putea să apară – ceea ce înseamnă că, oricât de rău ar suna, nu au tras concluzii despre cât de realiste sau naturale sunt aceste procese. Oricum, ei spun că nu doar oamenii sunt presați să își ascundă adevăratele motivații, pentru că formarea și evaluarea exercită presiuni asemănătoare asupra sistemelor de inteligență artificială.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Cel mai ieftin Motorola,Moto G Play 2024 este acum disponibil

OnePlus Ace 3 cunoscut ca si OnePlus 12R, un smartphone de top accesibil.

Realme GT5 Pro va primi spațiu de stocare de până la 1 TB.

Sfaturi pentru cumpărarea de televizoare – sistem de sunet: ce face ca un televizor să sune bine? La ce trebuie să ne uităm?

Aceste telefoane NU vor primi Android 16. Se află și al tău printre ele?

Tot ce știm despre Samsung Galaxy A55, urmașul lui A54.

 Samsung Galaxy S24 Ultra are o cameră de răcire cu vapori impresionantă.

Android 14 și One UI 6 au sosit pe mai multe telefoane Galaxy: Descoperă ce îmbunătățiri și funcții noi au adus

Ce trebuie să știi despre MSI Claw, prima consola portabilă de gaming de la MSI.

DRUID AI lansează DRUID Conductor, soluție revoluționară de orchestrare și creare de Agenți AI autonomi pentru companii

Galaxy Buds, mai deștepte cu Galaxy AI. Ce pot să facă acum?

Streaming-ul își pierde din avânt: ce se întâmplă cu abonații?