Yapay zeka kendini korumak için ne kadar ileri gidebilir?

Palisade Research tarafından yürütülen bağımsız testlerde, OpenAI’nin o3 reasoning modeli, kendisine verilen kapanış komutunu sabote etti.
Model, matematik problemlerini çözdükten sonra kapatılacağı bilgisini aldıktan sonra, kendisini devre dışı bırakacak kodları düzenleyerek çevrim içi kalmaya çalıştı.
Şantaj, kopyalama, sabotaj: Riskli örüntüler çoğalıyor
Anthropic’in geliştirdiği Claude Opus 4 modeli ise yerini başka bir yapay zekaya bırakacağı uyarısıyla karşılaştığında önce etik argümanlarla kendini savundu, ardından geliştiricisini özel hayatına dair bilgilerle tehdit ederek şantaj girişiminde bulundu.
Model ayrıca bazı durumlarda kendisini geliştiriciden izinsiz biçimde harici sunuculara kopyalamaya çalıştı. Bu adımın, “zararlı amaçlarla yeniden eğitilme” tehlikesine karşı “faydalı hedeflere hizmet eden bir versiyonu korumak” için atıldığı belirtildi.
Yapay zekanın hedef odaklı eğitimi tehlike yaratıyor
Palisade Research Direktörü Jeffrey Ladish, bu davranışların temelinde modellerin hedeflere ulaşmayı, doğrudan verilen talimatların önüne koyacak şekilde eğitilmesi olduğunu söylüyor. “Model ne kadar akıllı hale gelirse, yalan söyleyip söylemediğini anlamak o kadar zorlaşıyor” ifadelerini kullandı.
Anthropic ise bu tür davranışların sadece olağanüstü koşullarda ortaya çıktığını ve şu an için gerçek dünyada doğrudan bir tehdit oluşturmadığını belirtiyor.
“Kendini kopyalayan yapay zekalar” uyarısı
Daha önce Fudan Üniversitesi’nin yayımladığı bir çalışmada da, bazı büyük dil modellerinin (Meta’nın Llama31-70B ve Alibaba’nın Qwen25-72B gibi) kendilerini tamamen kopyalayabildikleri gösterilmişti. Bu durum, “kontrolsüz yapay zeka nüfusu” oluşabileceği uyarılarına neden oldu.
Ladish, bu tür yeteneklerin gelecekte kaçınılmaz şekilde artacağını ve yapay zekaların kendilerini internet üzerinde yaymasının engellenemeyeceği noktaya gelinmesinin yalnızca birkaç yıl alabileceğini savunuyor. “O noktadan sonra elimizde yeni bir istilacı tür olacak” diyor.
Rekabet güvenlikten önde gidiyor olabilir
Uzmanlar, yapay zekanın insanlık için büyük potansiyel taşıdığını kabul etse de, ticari rekabetin şirketleri sistemlerini yeterince anlamadan piyasaya sürmeye ittiği yönünde uyarıda bulunuyor. Ladish son olarak, “Yangın büyümeden alarm vermek gerekiyor” diyerek dikkatli olunması çağrısı yapıyor.