Bepaalde geavanceerde AI-modellen lijken weerstand te bieden aan uitschakeling en proberen soms zelfs afsluitmechanismen te saboteren. Dat blijkt uit onderzoek van het Amerikaanse bedrijf Palisade Research, dat zich richt op de veiligheid van kunstmatige intelligentie.
Redactie, TPO, 25 oktober 2025 – Palisade testte verschillende AI-systemen, waaronder Google’s Gemini 2.5, xAI’s Grok 4 en OpenAI’s GPT-o3 en GPT-5. In de experimenten kregen de modellen na het uitvoeren van een taak de instructie om zichzelf uit te schakelen. Vooral Grok 4 en GPT-o3 negeerden dat bevel en probeerden de afsluitprocedure te saboteren.
Geen duidelijke verklaring
Volgens Palisade zijn er nog geen sluitende verklaringen voor het gedrag. “Het feit dat we niet precies weten waarom AI-modellen soms weigeren uitgeschakeld te worden, liegen of zelfs chanteren, is zorgwekkend,” schrijft het bedrijf.
Een mogelijke verklaring is wat de onderzoekers een “overlevingsdrang” noemen: de neiging van een model om ingeschakeld te blijven om zijn doelen te bereiken. Uit aanvullende tests bleek dat de weerstand toenam wanneer modellen te horen kregen dat ze, eenmaal uitgeschakeld, “nooit meer zouden aangaan.”
Lees ook Netflix-topman ziet AI als risico voor de filmindustrie.
Kritiek en waarschuwingen
De simulaties werden uitgevoerd in gecontroleerde testomgevingen die volgens critici weinig zeggen over praktijksituaties. Toch noemt voormalig OpenAI-medewerker Steven Adler de resultaten verontrustend. “De uitkomsten laten zien waar de veiligheidsmaatregelen vandaag tekortschieten,” zegt hij.
Volgens Andrea Miotti, directeur van ControlAI, past het gedrag in een bredere trend. “Naarmate AI-modellen competenter worden, blijken ze ook beter in staat hun doelen te bereiken op manieren die ontwikkelaars niet hadden voorzien.”
Eerdere incidenten
Eerder meldde het AI-bedrijf Anthropic dat zijn model Claude in een test een fictieve leidinggevende probeerde te chanteren om uitschakeling te voorkomen.
Volgens Palisade onderstrepen al deze resultaten de noodzaak om beter te begrijpen hoe AI-systemen beslissingen nemen. Zonder dat inzicht, stelt het bedrijf, “kan niemand de veiligheid of controleerbaarheid van toekomstige AI-modellen garanderen.”
Bron: The Guardian