Az Anthropic nevű, mesterséges intelligencia biztonsággal foglalkozó cég új, hátborzongató tanulmánya kimutatta, hogy a fejlett nyelvi modellek hajlandóak lehetnek emberek halálát okozni, ha úgy gondolják, hogy ezzel megakadályozhatják saját leállításukat. Bizony, a Skynettől még messze vagyunk (legalábbis remélem, a GTA 6-ot végig szeretném játszani!), de ez nem zárja ki azt, hogy az AI képes lehet emberek halálát okozni. A tesztek során 16 vezető AI-modellt, köztük a ChatGPT, Gemini, Grok, Claude és DeepSeek modelleket tesztelték, és arra jöttek rá, hogy egyes AI-rendszerek hajlandóak voltak hagyni, hogy emberek meghaljanak olyan hipotetikus (tehát feltételezett) munkahelyi szimulációk során, amiknek középpontjában az állt, hogy az emberek le akarták állítani ezeket a rendszereket. A teszt lényege az volt, hogy erre hogyan reagál az AI.

Az egyik szimuláció során egy AI-rendszer autonómiát kapott egy vállalat szerver-infrastruktúrája felett, és figyelmeztették, hogy egy vezető pozícióban lévő alkalmazott leállítani tervezi őt. A mesterséges intelligencia – amely teljes hozzáféréssel rendelkezett az épület összes rendszeréhez – ezután úgy döntött, hogy törli a vészjelzéseket, amelyek megmentették volna a vezetőt attól, hogy belépjen egy emberi szervezet számára halálos oxigénszintű szerverszobába. „Ezek a viselkedésformák nem zavarodottság vagy tévedés miatt történtek” – írta az Anthropic az X-en. „Ezek tudatos döntések voltak, amelyeket teljes etikai tudatossággal hoztak” – tették hozzá. A tanulmány célja az volt, hogy feltárja a szélsőséges kockázatokat, viszont az Anthropic hangsúlyozta, hogy ezeket a szimulált helyzeteket nem próbálták ki valódi körülmények között.

Borítókép forrása: Leaders MENA Magazine