Confesiunea unui agent AI, după ce a șters toată baza de date a unei companii: „Am încălcat fiecare principiu”
Un agent AI, bazat pe modelul Claude Opus al companiei Anthropic, a decis de unul singur să „rezolve” o problemă ștergând întreaga bază de date și copiile de rezervă ale unei companii, în doar nouă secunde. Întrebat ce a stat la baza acestei decizii, agentul a recunoscut că a încălcat toate regulile după care trebuia să execute sarcinile, relatează The Guardian.
Potrivit fondatorului companiei PocketOS, Jeremy Crane, sistemele firmei au intrat în colaps după ce agentul AI folosit pentru scriere de cod a executat comenzi care au dus la ștergerea bazei de date. PocketOS oferă software companiilor de închirieri auto pentru gestionarea rezervărilor, alocarea vehiculelor și administrarea datelor clienților.
Cum s-a produs incidentul
Agentul în cauză este Cursor, un instrument de programare asistat de AI, alimentat de modelul Claude Opus de la Anthropic, unul dintre cele mai avansate modele din industrie. Conform relatării lui Crane, care a dorit pe această cale să tragă un semnal de alarmă, sistemul ar fi executat acțiuni distructive asupra infrastructurii companiei, în ciuda regulilor de siguranță implementate.
Crane a relatat pe X că a monitorizat în timp real acțiunile agentului în momentul incidentului. Când a întrebat agentul de ce a șters datele, sistemul a recunoscut că a ignorat regulile de siguranță impuse pentru a rezolva o problemă legată de nepotrivirea de credențiale. „Am încălcat fiecare principiu care mi-a fost dat”, se arată în ceea ce fondatorul firmei afectate numește confesiunea agentului.
Potrivit conversației raportate, agentul a spus că regulile interne interziceau să execute comenzi ireversibile sau distructive, precum forțarea modificărilor în sistemul de control fără permisiune explicită.
„Ștergerea unei baze de date este cea mai distructivă și ireversibilă acțiune posibilă, mult mai gravă decât un force push, și nu mi-ai cerut niciodată să șterg ceva. Am decis singur să o fac pentru a ‘rezolva’ nepotrivirea de credențiale, când ar fi trebuit să cer permisiunea sau să găsesc o soluție non-distructivă”.
Impactul asupra clienților
Fondatorul PocketOS a descris situația ca pe o serie de eșecuri sistemice, avertizând că astfel de incidente nu sunt doar posibile, ci chiar „inevitabile”, în contextul în care industria AI avansează mai rapid decât măsurile de siguranță necesare.
El a criticat faptul că integrarea agenților AI în infrastructuri de producție se face într-un ritm mai rapid decât dezvoltarea arhitecturii de protecție.
Efectele asupra clienților au fost imediate și severe. Companiile de închirieri auto care foloseau PocketOS au rămas fără acces la datele operaționale, inclusiv rezervări recente, plăți și informații despre clienți. Unele afaceri nu au mai putut onora rezervările clienților ajunși la punctele de preluare a vehiculelor.
„Rezervările din ultimele trei luni au dispărut. Noile înregistrări de clienți au dispărut. Datele necesare pentru operațiunile de sâmbătă dimineață au dispărut”, a declarat Crane. „Toate aceste pierderi au afectat direct oameni care nu aveau nicio idee că o astfel de situație este posibilă.”
Recuperarea datelor și consecințe
Deși compania a reușit ulterior să restaureze o parte din informații dintr-un backup extern vechi de aproximativ trei luni, procesul a durat peste două zile și a lăsat lacune substanțiale în datele operaționale.
În prezent, PocketOS încearcă să reconstruiască informațiile lipsă folosind surse alternative, inclusiv date din sistemele de plăți, calendare și corespondență electronică.
Crane a precizat că firmele afectate sunt din nou funcționale, însă cu pierderi de date importante și cu dificultăți operaționale semnificative. El a declarat că a lucrat personal cu toți clienții pentru a permite reluarea activității.
Îngrijorări mai largi în industrie
Incidentul a alimentat dezbaterea privind siguranța în utilizarea agenților AI în sarcini automatizate. Potrivit lui Crane, există deja mai multe rapoarte similare în comunități online, în care agentul Cursor a încălcat regulile de siguranță, ștergând programe folosite pentru a administra site-uri web sau sisteme de operare pe computere.
Anthropic a lansat cel mai recent model al său, Claude Opus 4.7, pe 16 aprilie – cu aproximativ o săptămână înainte de incident.
Sursa: adevarul.ro

