Yapay zekada “halüsinasyon” sorunu: Doğru bilgi üretimi hâlâ çözülemedi
Dünyanın önde gelen yapay zeka şirketleri, sohbet botlarının doğruluk sorunlarını çözmek için yarış halinde. Google, Amazon, Cohere ve Mistral gibi firmalar, sohbet botlarının uydurma bilgiler üretmesini engellemek amacıyla teknik güncellemeler yapıyor, veri kalitesini artırıyor ve doğrulama sistemleri kuruyor. Ancak bu çabalar, yapay zeka sistemlerinin doğası gereği, “halüsinasyon” olarak adlandırılan hatalı yanıtları tamamen ortadan kaldırmakta yetersiz kalıyor.
Uzmanlara göre, bu halüsinasyonlar yapay zekanın kelime dizilerini olasılıksal olarak tahmin etmesinden kaynaklanıyor. Sistemler, en olası kelimeyi seçerek metin üretmeye çalışıyor; fakat bu süreçte bağlam dışı ya da yanlış bilgi ortaya çıkabiliyor. Bu durum sadece teknik bir kusur değil; aynı zamanda sağlık ve hukuk gibi yüksek doğruluk gerektiren alanlarda yapay zekanın yaygın kullanımını da kısıtlıyor.
Yargı kararları, yanlış bilgiler, uydurma atıflar
Geçmişte bu hatalar ciddi sonuçlar doğurdu. Kanada’da bir mahkeme, Air Canada’nın müşteri hizmetleri chatbot’unun sunduğu uydurma indirimi geçerli saydı. ABD’de ise bazı avukatlar, yapay zekanın ürettiği sahte yargı kararlarını dava dosyalarına ekledikleri gerekçesiyle disiplin cezası aldı.
Modeller neden hata yapıyor?
Yapay zeka modelleri, eğitim verilerinden öğrendiği istatistiksel ilişkiler doğrultusunda, bir sonraki kelimeyi tahmin ederek metin üretir. Bu süreçte, her bir kelime teknik olarak anlamlı olsa da ortaya çıkan tüm cümle bağlamdan kopuk veya hatalı olabilir. “Greedy search” gibi yaklaşımlar bu problemi artırabilirken, “beam search” gibi daha gelişmiş teknikler daha tutarlı metinler ortaya koyabiliyor.
Ancak Vectara’nın kurucusu Amr Awadallah’a göre, halüsinasyonlar tamamen yok edilemez. Bazı modeller bir belgeyi özetlerken yüzde 0,8 oranında hata yaparken, bazılarında bu oran yüzde 30’a kadar çıkabiliyor. Yeni nesil modellerde adım adım akıl yürütme gibi özellikler hataları azaltmak yerine bazen artırabiliyor.
Dış kaynaklarla “gerçeklere bağlanmak”
Uzmanlara göre en etkili yöntemlerden biri, modelleri yalnızca eğitim verileriyle sınırlı bırakmak yerine, gerçek zamanlı ve güvenilir kaynaklara bağlamak. Bu yaklaşıma “grounding” deniyor. Cohere, Mistral, Google DeepMind, OpenAI ve Anthropic gibi firmalar, sohbet botlarına dayanak gösteren kaynak atıfları eklemeye başladı. Mistral, AFP ile yaptığı milyonlarca euroluk anlaşma sayesinde haber ajansının makalelerini chatbot sistemine dahil etti.
Ayrıca Amazon Web Services, modellerine “otomatik akıl yürütme kontrolleri” adlı ek testler ekleyerek yanıtların doğruluğunu sınamaya başladı. Google DeepMind, bazı modellerin çıktısını kontrol etmek üzere eğitilmiş küçük dil modelleri (evaluator) kullanıyor.
“Halüsinasyon” terimi de yanıltıcı olabilir
Cohere kurucu ortağı Nick Frosst’a göre, yapay zekanın yalnızca doğru şeyler söylemesini beklemek gerçekçi değil. “Gerçeğin ne olduğu dünyada olup bitenlere bağlı ve bu sürekli değişiyor” diyen Frosst, “halüsinasyon” teriminin de insan zihnini çağrıştırdığı için yanıltıcı olabileceğini söylüyor.
Google DeepMind ise modellerin yaratıcı olmasının onların faydasını artırdığını ama bu durumun daha yaratıcı dolayısıyla gerçek dışı yanıtlar üretebileceğini kabul ediyor. Amazon’dan Byron Cook da, şiir gibi yaratıcı metin üretimlerinde bu halüsinasyonların bazen istenen bir özellik olabileceğini vurguluyor.
Ancak modelin internetten bilgi araması gibi özellikler, onu “prompt injection” saldırılarına da açık hâle getiriyor. Reddit gibi platformlarda yapılan şakalar, yapay zekanın yanlış öneriler sunmasına yol açabiliyor. Örneğin, Google’ın yeni arama aracı, bir kullanıcı Reddit’te “pizzaya yapıştırıcı sürülmeli” diye yazınca, bu öneriyi ciddiye aldı.
Yapay zekada doğruluk ve yaratıcılık arasında denge kurmak şimdilik en büyük zorluk olarak öne çıkıyor.