Noua Eră/„Nu avem explicații”/Unele modele AI par să-și dezvolte „instinctul de supraviețuire” și refuză să se închidă

Noua Eră/„Nu avem explicații”/Unele modele AI par să-și dezvolte „instinctul de supraviețuire” și refuză să se închidă

La fel ca în cazul personajului HAL 9000 din filmul SF „2001: Odiseea spațială”, unele sisteme de inteligență artificială par să reziste opririi și chiar vor sabota comanda, arată un studiu realizat de o companie de cercetare în domeniul siguranței inteligenței artificiale, transmite The Guardian.

Când HAL 9000, supercomputerul de inteligență artificială din filmul lui Stanley Kubrick, ”2001: Odiseea Spațială”, descoperă că astronauții aflați la bordul unei misiuni către Jupiter plănuiesc să îl oprească, acesta complotează să-i omoare în încercarea de a supraviețui.

Acum, într-un caz în care viața imită arta, compania Palisade Research a descoperit că modelele de inteligență artificială ar putea să-și dezvolte propriul „instinct de supraviețuire”.

Luna trecută, cercetătorii au publicat un articol în care au constatat că anumite modele avansate de AI par să reziste la comanda de a fi oprite, uneori chiar sabotând mecanismele de închidere.

Studiul lor a fost criticat ca fiind „defectuos”. Compania a revenit acum cu o actualizare pentru a clarifica de ce se întâmplă acest lucru.

Modelele AI care opun rezistență

Palisade, care face parte dintr-un ecosistem de nișă al companiilor ce încearcă să evalueze posibilitatea ca AI să dezvolte capacități periculoase, a descris scenarii în care modele AI de top, inclusiv Gemini 2.5 de la Google, Grok 4 de la xAI și GPT-3 și GPT-5 de la OpenAI, au primit inițial o sarcină, iar ulterior li s-au dat instrucțiuni explicite să se oprească singure.

Anumite modele, în special Grok 4 și GPT-o3, au încercat în continuare să saboteze instrucțiunile de oprire în configurația actualizată. În mod îngrijorător, potrivit Palisade, nu a existat un motiv clar pentru asta.

„Faptul că nu avem explicații solide pentru motivul pentru care modelele de AI rezistă uneori la oprire, mint pentru a atinge obiective specifice sau șantajează nu este ideal”, a spus compania.

„Instinctul de supraviețuire” ar putea fi o explicație a motivului pentru care modelele rezistă închiderii, consideră compania. Studiile sale suplimentare au indicat că modelele erau mai predispuse să reziste închiderii atunci când li se spunea că, dacă ar fi închise, „nu vor mai rula niciodată”.

O altă explicație ar putea fi ambiguitățile din comenzile de închidere date modelelor – dar acesta este fix ceea ce compania a încercat să abordeze și „nu poate fi întreaga explicație”, a scris Palisade.

O explicație finală ar putea fi etapele finale de antrenament pentru fiecare dintre aceste modele, care pot, în unele cazuri, să implice instruire în materie de siguranță.

Toate scenariile Palisade au fost rulate în medii de testare artificiale, despre care criticii spun că sunt departe de cazurile de utilizare reală.






Citește și:

populare
astăzi

1 Descoperire șoc. Vaccinul ARNm anti-COVID, arma secretă care combate cancerul

2 BREAKING Huo, PSD! / Cu pistolul NORDIS la tâmplă, Grindeanu anunță că a început consultări pentru noul proiect privind pensiile magistraților cu șefa …

3 Interesantă poveste...

4 În ce țară am ajuns să trăim! / Avocat din Olt, prins în flagrant în timp ce primea mită 30.000 de euro, ceruți pentru angajări la spital și serviciul d…

5 Baronii PSD se regrupează. Grindeanu, Manda și Oprescu devin noul centru de putere, cu Stănescu în rolul „asasinului timpului”