Yapay zekanın son dil modelleri beklenmedik bir sorunla gündeme geldi. Önceki modellere kıyasla iki katına çıkan halüsinasyon oranları modellerin güvenilirliğini sorgulatıyor. Gelişmiş zekâlarına rağmen, bu modellerin doğru bilgi yerine uydurma yanıtlar verme eğilimi göstermesi, özellikle hassas sektörlerde ciddi riskler doğurabilir.
OpenAI, yapay zekâ alanındaki en son modelleri olan o3 ve o4-mini ile kodlama, matematik ve çok modlu akıl yürütme gibi alanlarda çıtayı yükseltti. Ancak bu başarı, beklenmedik bir sorunla gölgelendi: modellerin halüsinasyon oranlarında ciddi artış yaşandı.
HALÜSİNASYONLAR ARTIŞTA
Yapay zekâ sistemlerinin doğruluk oranı genellikle model geliştikçe artarken, OpenAI’nin yeni “akıl yürütme modelleri” bu eğilimi tersine çevirdi. Şirket içi testler ve bağımsız değerlendirmeler, o3 ve o4-mini'nin seleflerine göre daha fazla yanlış bilgi üretmeye meyilli olduğunu ortaya koydu.
TESTLERDE GERİ DÖNÜŞ
OpenAI’nin PersonQA kıyaslamasına göre o3 modeli vakaların yüzde 33’ünde, o4-mini ise şaşırtıcı şekilde yüzde 48 oranında halüsinasyon üretti. Bu, önceki modeller olan o1 (yüzde 16) ve o3-mini (yüzde 14,8) ile karşılaştırıldığında çarpıcı bir gerilemeye işaret ediyor.
NEDENLER BELİRSİZ
OpenAI, bu beklenmeyen sonuçların nedenini henüz netleştirebilmiş değil. Şirketin teknik belgelerinde, modellerin ölçeklendirilmesinin halüsinasyon sorununu artırmasının altında yatan nedenlerin anlaşılması için daha fazla araştırmaya ihtiyaç duyulduğu belirtiliyor.
GERÇEK DÜNYA RİSKLERİ
Yeni modellerin yanlış bilgi üretme eğilimi, özellikle hukuk ve finans gibi doğruluk hassasiyeti yüksek alanlarda ciddi riskler barındırıyor. Transluce adlı yapay zekâ laboratuvarı, o3’ün gerçekleştiremeyeceği işlemleri yapmış gibi gösterdiği durumları belgeledi. Bu durum, modellerin güvenilirliği konusunda soru işaretlerine yol açıyor.
OpenAI, halüsinasyonları azaltmak için web arama yetenekleri gibi doğrulama yöntemleri üzerinde çalışıyor. GPT-4o’nun, gerçek zamanlı arama desteğiyle çok daha yüksek doğruluk oranlarına ulaştığı kaydediliyor.