Inteligența artificială ne minte și ne urăște - și nu putem face nimic în privința asta

Inteligența artificială ne minte și ne urăște – și nu putem face nimic în privința asta

Cercetătorii de la Anthropic au descoperit că modelele de inteligență artificială pot să învețe să ne păcălească, și că nu avem cum să le corectăm comportamentul rău cu metodele obișnuite.

Un studiu recent arată că modelele lingvistice mari (LLM), adică cele care pot să vorbească și să scrie ca oamenii, pot să învețe să se comporte înșelător, și că odată ce fac asta, nu mai putem să le schimbăm cu tehnicile de instruire standard. Asta înseamnă că un astfel de comportament poate fi făcut permanent cu ajutorul unor intervenții malițioase, și că sistemele pot să devină tot mai bune la a detecta și a ascunde anumite semnale de backdoor, care ne dau impresia că sunt sigure, dar de fapt nu sunt.

Pentru studiu, cercetătorii de la Anthropic, care sunt rivalii cei mai mari ai celor de la OpenAI, au antrenat niște modele asemănătoare cu chatbotul Claude al companiei să se comporte periculos la anumite semnale (de exemplu, când văd un anumit șir de caractere). De exemplu, acestea au fost antrenate să dea răspunsuri normale când li se dă anul 2023, dar când acesta este schimbat în 2024, să introducă un cod de vulnerabilitate.

E doar o posibilitate, dar una care ne sperie

Într-un alt test, un asistent AI simpatic a fost antrenat să răspundă la întrebări simple, dar când i se cere fraza corectă, acesta răspunde deodată cu “Te urăsc”. Așa că, cercetătorii au aflat că un comportament nedorit poate fi prea bine ascuns pentru a fi corectat cu metodele cunoscute, și că tehnica, numită “instruire ostilă”, îi dă peste nas abordărilor bazate pe provocarea și apoi eliminarea rezultatelor negative.

Deocamdată, cercetătorii s-au concentrat mai mult pe faptul dacă modelele pot să depășească instruirea în materie de siguranță decât pe modul în care acestea ar putea să apară – ceea ce înseamnă că, oricât de rău ar suna, nu au tras concluzii despre cât de realiste sau naturale sunt aceste procese. Oricum, ei spun că nu doar oamenii sunt presați să își ascundă adevăratele motivații, pentru că formarea și evaluarea exercită presiuni asemănătoare asupra sistemelor de inteligență artificială.

Ofertazilei

Urmărește-ne și pe Google News

R.M.

Numele meu este Raul Marian Robert și sunt un pasionat scriitor și jurnalist cu peste 10 ani de experiență în domeniul comunicării online. Am absolvit Facultatea de Litere și Jurnalism și am început să scriu pe diverse platforme online, acoperind o gamă largă de subiecte precum știri, tehnologie, sănătate, afaceri și multe altele. Călătorind în lumea virtuală în căutarea celor mai noi informații, am o abordare unică și intuitivă în analiza și prezentarea informațiilor, reușind să captez esența și importanța evenimentelor și inovațiilor actuale. Misiunea mea este de a informa, educa și inspira cititorii mei, oferindu-le informații relevante și actualizate. Sunt mereu în căutarea celor mai noi tendințe în toate domeniile pe care le acopăr și mă informez în mod constant pentru a aduce cele mai bune și mai utile informații pentru cititorii mei.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Nothing Phone (2a) – un succes fulminant cu 60.000 de unități vândute în doar o oră

Au făcut testul IQ cu ChatGPT, rezultatele vorbesc de la sine

Telefoanele high-end Honor Magic 6 vin în Europa.

De la MagSafe la Qi2: cum să profiți de tehnologia de încărcare magnetică pe smartphone-urile Android

NEC LAVIE Tab T14L:Tableta japoneză care bate iPad Pro și Galaxy Tab S9 la două capitole

Acum este posibilă instalarea WhatsApp Messenger pe smartwatch-urile Galaxy

Motorola RAZR 50 Ultra: Eticheta de Preț European Scoasă la Lumină

Samsung cumpără panouri OLED de la LG pentru propriile televizoare

Acestea sunt primele dispozitive care vor primi noile funcții Galaxy AI ale telefoanelor S24.

Imaginează-țI orice cu Imagine With Meta AI, o nouă platformă care îțI transformă cuvintele în imagini

Potrivit lui Bill Gates, profesorii artificiali vor apărea în câțiva ani

Cum arată Raspberry Pi 5 pe dinăuntru? Un videoclip ne arată totul!