La fel ca în cazul personajului HAL 9000 din filmul SF „2001: Odiseea spațială”, unele sisteme de inteligență artificială par să reziste opririi și chiar vor sabota comanda, arată un studiu realizat de o companie de cercetare în domeniul siguranței inteligenței artificiale, transmite The Guardian.
Când HAL 9000, supercomputerul de inteligență artificială din filmul lui Stanley Kubrick, ”2001: Odiseea Spațială”, descoperă că astronauții aflați la bordul unei misiuni către Jupiter plănuiesc să îl oprească, acesta complotează să-i omoare în încercarea de a supraviețui.
Acum, într-un caz în care viața imită arta, compania Palisade Research a descoperit că modelele de inteligență artificială ar putea să-și dezvolte propriul „instinct de supraviețuire”.
Luna trecută, cercetătorii au publicat un articol în care au constatat că anumite modele avansate de AI par să reziste la comanda de a fi oprite, uneori chiar sabotând mecanismele de închidere.
Studiul lor a fost criticat ca fiind „defectuos”. Compania a revenit acum cu o actualizare pentru a clarifica de ce se întâmplă acest lucru.
Modelele AI care opun rezistență
Palisade, care face parte dintr-un ecosistem de nișă al companiilor ce încearcă să evalueze posibilitatea ca AI să dezvolte capacități periculoase, a descris scenarii în care modele AI de top, inclusiv Gemini 2.5 de la Google, Grok 4 de la xAI și GPT-3 și GPT-5 de la OpenAI, au primit inițial o sarcină, iar ulterior li s-au dat instrucțiuni explicite să se oprească singure.
Anumite modele, în special Grok 4 și GPT-o3, au încercat în continuare să saboteze instrucțiunile de oprire în configurația actualizată. În mod îngrijorător, potrivit Palisade, nu a existat un motiv clar pentru asta.
„Faptul că nu avem explicații solide pentru motivul pentru care modelele de AI rezistă uneori la oprire, mint pentru a atinge obiective specifice sau șantajează nu este ideal”, a spus compania.
„Instinctul de supraviețuire” ar putea fi o explicație a motivului pentru care modelele rezistă închiderii, consideră compania. Studiile sale suplimentare au indicat că modelele erau mai predispuse să reziste închiderii atunci când li se spunea că, dacă ar fi închise, „nu vor mai rula niciodată”.
O altă explicație ar putea fi ambiguitățile din comenzile de închidere date modelelor – dar acesta este fix ceea ce compania a încercat să abordeze și „nu poate fi întreaga explicație”, a scris Palisade.
O explicație finală ar putea fi etapele finale de antrenament pentru fiecare dintre aceste modele, care pot, în unele cazuri, să implice instruire în materie de siguranță.
Toate scenariile Palisade au fost rulate în medii de testare artificiale, despre care criticii spun că sunt departe de cazurile de utilizare reală.

