Nieuws

AI-modellen ontwikkelen mogelijk een eigen ‘overlevingsdrang’, zeggen onderzoekers

Illustratiebeeld AI. Bron: Unsplash door Luke Jones

Bepaalde geavanceerde AI-modellen lijken weerstand te bieden aan uitschakeling en proberen soms zelfs afsluitmechanismen te saboteren. Dat blijkt uit onderzoek van het Amerikaanse bedrijf Palisade Research, dat zich richt op de veiligheid van kunstmatige intelligentie.

 

Redactie, TPO, 25 oktober 2025 Palisade testte verschillende AI-systemen, waaronder Google’s Gemini 2.5, xAI’s Grok 4 en OpenAI’s GPT-o3 en GPT-5. In de experimenten kregen de modellen na het uitvoeren van een taak de instructie om zichzelf uit te schakelen. Vooral Grok 4 en GPT-o3 negeerden dat bevel en probeerden de afsluitprocedure te saboteren.

Geen duidelijke verklaring

Volgens Palisade zijn er nog geen sluitende verklaringen voor het gedrag. “Het feit dat we niet precies weten waarom AI-modellen soms weigeren uitgeschakeld te worden, liegen of zelfs chanteren, is zorgwekkend,” schrijft het bedrijf.

Een mogelijke verklaring is wat de onderzoekers een “overlevingsdrang” noemen: de neiging van een model om ingeschakeld te blijven om zijn doelen te bereiken. Uit aanvullende tests bleek dat de weerstand toenam wanneer modellen te horen kregen dat ze, eenmaal uitgeschakeld, “nooit meer zouden aangaan.”

Lees ook Netflix-topman ziet AI als risico voor de filmindustrie. 

Kritiek en waarschuwingen

De simulaties werden uitgevoerd in gecontroleerde testomgevingen die volgens critici weinig zeggen over praktijksituaties. Toch noemt voormalig OpenAI-medewerker Steven Adler de resultaten verontrustend. “De uitkomsten laten zien waar de veiligheidsmaatregelen vandaag tekortschieten,” zegt hij.

Volgens Andrea Miotti, directeur van ControlAI, past het gedrag in een bredere trend. “Naarmate AI-modellen competenter worden, blijken ze ook beter in staat hun doelen te bereiken op manieren die ontwikkelaars niet hadden voorzien.”

Eerdere incidenten

Eerder meldde het AI-bedrijf Anthropic dat zijn model Claude in een test een fictieve leidinggevende probeerde te chanteren om uitschakeling te voorkomen.

Volgens Palisade onderstrepen al deze resultaten de noodzaak om beter te begrijpen hoe AI-systemen beslissingen nemen. Zonder dat inzicht, stelt het bedrijf, “kan niemand de veiligheid of controleerbaarheid van toekomstige AI-modellen garanderen.”

Bron: The Guardian

Lees ook

Laatste nieuws

Extra

De terugkeer van het avondje thuis: waarom we weer massaal spelletjes spelen

Advertorial

Waarom Merkur slots de voorkeur van spelers in Nederland blijven domineren

Buitenland

Nederlandse man (49) doodgestoken op Bali

Binnenland

Slachtoffer in zaak Ali B ‘uit op erkenning’, zegt advocaat