Araştırmacılar, büyük dil modellerinin adım adım planlama ve mantıksal akıl yürütme gerektiren görevlerde zayıf performans sergilediğini gözler önüne serdi. Apple’ın yayımladığı yeni araştırma, önde gelen yapay zekâ modellerinin Hanoi Kulesi gibi klasik bir mantık bulmacasında karmaşıklık arttıkça başarısız olduğunu ortaya koyuyor.
Araştırmada, modellerden doğrudan çözüm üretmeleri istenmedi. Bunun yerine, çözüm adımlarını açıklamaları beklendi. Ancak iki veya üç diskli basit versiyonlarda dahi pek çok model kuralları yanlış yorumladı, önceki adımlarla çelişti ya da geçersiz hamleleri kendinden emin biçimde sundu.
MANTIK DEĞİL, TAHMİN
Apple’ın çalışması, yapay zekâ sistemlerinin planlamaya dayalı görevlerde tahmine dayalı örüntü eşleştirme yoluyla cevap ürettiğini ortaya koydu. Bu durum, modellerin düşünme sürecini anlamadığı; yalnızca olası devamları kestirdiği yönündeki eleştirileri güçlendirdi.
Araştırmayı yürüten ekipten Iman Mirzadeh, “Bu sistemler süreci mantıklı biçimde takip etmiyor. Yalnızca akıcı tahminler yürütüyorlar” değerlendirmesinde bulundu.
OLİMPİYAT TESTİNDEN GEÇEMEDİLER
Apple'ın bulguları, ETH Zürih ve INSAIT araştırmacılarının 2025 ABD Matematik Olimpiyatı problemleri üzerinde yaptığı ayrı bir çalışmayı da destekliyor. Bu çalışmada önde gelen modellerden hiçbiri tam çözüm üretemedi. En iyi performans gösterenlerden biri olan Gemini 2.5 Pro, yalnızca kısmi kredilerle toplam puanın yüzde 24’üne ulaşabildi.
Modeller, yalnızca doğru cevapları bulmakta değil, aynı zamanda mantıklı akıl yürütme süreçlerini takip etmekte de zorlandı. Bazıları adım atladı, bazıları ise geçerli olmayan hamleleri gerekçelendirmeksizin sundu.
ZEKÂ İZLENİMİ YANILTICI
Uzun süredir yapay zekâ sistemlerinin yeteneklerinin abartıldığını savunan uzmanlar da araştırmaya dikkat çekti. Yapay zekâ uzmanı Gary Marcus, “1950’lerde çözülebilen bir bulmacayı bugün milyar dolarlık modellerin çözememesi, büyük dil modellerinin AGI hedefine ne kadar uzak olduğunu gösteriyor” değerlendirmesinde bulundu.
Uzman yazılım mühendisi Sean Goedecke ise başarısızlıkların sistem davranışlarının baskı altında nasıl değiştiğini gösterdiğini belirtti. Modellemenin belirli bir karmaşıklık seviyesinin ardından görevi terk ettiğini, çünkü binin üzerinde adımı manuel olarak üretmenin imkânsız olduğunu varsaydığını ifade etti.
HİBRİT YAKLAŞIM ÇAĞRISI
Apple makalesi doğrudan çözüm önermese de, büyük dil modellerinin sembolik mantık, doğrulayıcı sistemler veya göreve özgü kısıtlamalarla desteklenmesi yönündeki çağrılarla örtüşüyor. Bu hibrit yöntemler, yapay zekâyı daha akıllı hale getirmese de, yanlış sonuçların güvenle sunulmasını engellemeye yardımcı olabilir.
Giderek daha fazla şirket, modelleri karmaşık görevleri çözebilen rasyonel sistemler olarak tanıtırken, bu araştırmalar yapay zekâların gerçek içgörüden ziyade biçimsel akıcılıkla zekâ izlenimi yarattığını ortaya koyuyor.