Büyük dil modellerinin (LLM’ler) benzetme yoluyla akıl yürütüp yürütemeyeceği, son yıllarda hem yapay zeka araştırmacıları hem de bilişsel bilimciler arasında önemli bir tartışma konusu haline geldi. Bu alandaki bazı çıktıların, LLM'lerin gerçekten benzetme yoluyla akıl yürütme becerisine sahip olduğunu öne sürdüğü görülüyor. Ancak, bu tür sonuçların modellerin eğitim verilerindeki benzetme örneklerini taklit etmesinden kaynaklanabileceği de ileri sürülüyor.
KARŞIT OLGUSAL TESTLER
Bu iddiayı test etmek amacıyla araştırmacılar, büyük dil modellerinden eğitim verilerindeki örneklere benzemeyen, karşıt olgusal (counterfactual) bulmaca türü problemleri çözmelerini istedi. Bu sayede, modellerin benzetme yaparak akıl yürütüp yürütemeyeceği doğrudan değerlendirilmeye çalışıldı.
Buna örnek olarak, araştırmacılar tarafından verilen bir harf dizilimi probleminde, modelden şu örüntüyü çözmesi istendi:
Kurgusal bir alfabe:
[xylkwbfztnjrqahvgmuop dicse]
Problem şu şekilde verilmiştir:
[xylk] [xylw]
[jrqa] [?]
Beklenen cevap "jrqh" olacak, çünkü bu dizilimde "h", kurgusal alfabede "a" harfinden bir harf sonra gelir. Bu, aynı zamanda "w" harfinin "k" harfinden bir harf sonrasında yer almasıyla benzerlik gösteren bir örüntüyü takip etmekte. Ancak, yapılan testlerde birçok büyük dil modelinin bu tür problemleri başarıyla çözemediği görüldü.
SAYMA YETİSİ KRİTİK
2024 yılında PNAS Nexus’ta yayımlanan bir çalışmada, Taylor W. Webb ve araştırma ekibi, modellerin bu karşıt olgusal problemleri çözmedeki başarısızlığını, benzetme kapasitesinden çok temel sayma yetisinin eksikliğiyle ilişkilendi. Çünkü bu tür problemler, dizideki her harfin konumunu anlamak ve ilişkisel karşılaştırma yapabilmek için doğrudan saymayı gerektiriyor.
Araştırmacılar, bu sorunu daha derinlemesine irdelemek için kod yazabilen ve bu kodu çalıştırabilen GPT-4’ün son sürümünü değerlendirdi. GPT-4’e bu tür harf-dizi benzetmelerini içeren problemler verildiğinde, modelin bu görevleri insan düzeyine yakın bir başarıyla çözdüğü, ayrıca verdiği yanıtların doğruluğunu anlamlı ve tutarlı açıklamalarla desteklediği raporlandı.
YAPILANDIRILMIŞ İŞLEM DESTEĞİ
Araştırmaya göre, GPT-4’ün benzetme yoluyla akıl yürütme başarısı, modelin yapılandırılmış işlemler oluşturabilmesi ve bu işlemleri yürütme kapasitesi ile ilişkili. Bu kapasite sayesinde model, benzetme yapılacak iki unsur arasındaki ilişkisel örüntüleri temsil edebiliyor ve aralarındaki farkları mantıksal olarak çözümleyebiliyor.
İNSAN DÜZEYİ PERFORMANS
Webb ve meslektaşlarının bulguları, GPT-4’ün yalnızca geçmişteki örnekleri taklit etmekten ibaret bir yapı olmadığını, aynı zamanda eğitim verilerinden genelleme yaparak yeni durumlara ilişkin doğru çıkarımlar üretebildiğini gösteriyor. Bu da LLM’lerin akıl yürütme kapasitesi hakkındaki tartışmalara yeni bir boyut katıyor.
GELECEK ARAŞTIRMALAR AÇISINDAN
Bu bulgular, yapay zekânın bilişsel yeteneklerine dair beklentileri yeniden şekillendiriyor. Benzetme gibi karmaşık zihinsel işlemler, yalnızca insanlara özgü olmaktan çıkabilir. Bununla birlikte, benzetmeli akıl yürütmenin hangi koşullarda başarılı olduğu, hangi bilişsel destek mekanizmalarıyla mümkün hale geldiği gibi sorular, önümüzdeki dönemde yapay zekâ araştırmalarının temel gündem maddeleri arasında yer alacağa benziyor.