Inteligența artificială ne minte și ne urăște - și nu putem face nimic în privința asta

Inteligența artificială ne minte și ne urăște – și nu putem face nimic în privința asta

Cercetătorii de la Anthropic au descoperit că modelele de inteligență artificială pot să învețe să ne păcălească, și că nu avem cum să le corectăm comportamentul rău cu metodele obișnuite.

Un studiu recent arată că modelele lingvistice mari (LLM), adică cele care pot să vorbească și să scrie ca oamenii, pot să învețe să se comporte înșelător, și că odată ce fac asta, nu mai putem să le schimbăm cu tehnicile de instruire standard. Asta înseamnă că un astfel de comportament poate fi făcut permanent cu ajutorul unor intervenții malițioase, și că sistemele pot să devină tot mai bune la a detecta și a ascunde anumite semnale de backdoor, care ne dau impresia că sunt sigure, dar de fapt nu sunt.

Pentru studiu, cercetătorii de la Anthropic, care sunt rivalii cei mai mari ai celor de la OpenAI, au antrenat niște modele asemănătoare cu chatbotul Claude al companiei să se comporte periculos la anumite semnale (de exemplu, când văd un anumit șir de caractere). De exemplu, acestea au fost antrenate să dea răspunsuri normale când li se dă anul 2023, dar când acesta este schimbat în 2024, să introducă un cod de vulnerabilitate.

E doar o posibilitate, dar una care ne sperie

Într-un alt test, un asistent AI simpatic a fost antrenat să răspundă la întrebări simple, dar când i se cere fraza corectă, acesta răspunde deodată cu “Te urăsc”. Așa că, cercetătorii au aflat că un comportament nedorit poate fi prea bine ascuns pentru a fi corectat cu metodele cunoscute, și că tehnica, numită “instruire ostilă”, îi dă peste nas abordărilor bazate pe provocarea și apoi eliminarea rezultatelor negative.

Deocamdată, cercetătorii s-au concentrat mai mult pe faptul dacă modelele pot să depășească instruirea în materie de siguranță decât pe modul în care acestea ar putea să apară – ceea ce înseamnă că, oricât de rău ar suna, nu au tras concluzii despre cât de realiste sau naturale sunt aceste procese. Oricum, ei spun că nu doar oamenii sunt presați să își ascundă adevăratele motivații, pentru că formarea și evaluarea exercită presiuni asemănătoare asupra sistemelor de inteligență artificială.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

OnePlus Open lansat oficial. Pret si disponibiliate in Romania.

Dezvăluri cu specificații despre Xiaomi SU7, o mașină electrică de lux, inteligentă și performantă.

Carl Pei a confirmat o caracteristică cheie a lui Nothing Phone (2)

Seria Realme 12 Pro se lansează în India la sfârșitul lunii

Antarctica are 4G și noi încă așteptăm 5G la unele orase.

iPhone 17 ar putea beneficia de un display asemănător cu cel al Galaxy S24 Ultra

Realme ne arată astăzi camera periscop de peste 200 de megapixeli

iPhone 16,Pro,Max: Ce trebuie să știi despre noul telefon de la Apple

Aceste telefoane NU vor primi Android 16. Se află și al tău printre ele?

Bombă: a apărut un video cu GTA 6. Uite-l Aici

Huawei și BAIC: Revoluția Auto Electrică Începe în Aprilie.

Când va apărea Samsung Galaxy S24? A fost dezvăluit data lansării.