Bilim insanları şimdiye kadar yapılmış en zor yapay zeka testini geliştirdi

Mevcut testleri kolayca aşan yapay zeka devleri, 1000 bilim insanının hazırladığı ‘İnsanlığın Son Sınavı’nda (HLE) sınıfta kaldı! Sektörün en gelişmiş modellerini bile zorlayan 2.500 soruluk bu yeni nesil ölçüt, teknolojinin sınırlarını zorluyor.

Giriş: 13.03.2026 - 14:48
Güncelleme: 13.03.2026 - 14:48
Bilim insanları şimdiye kadar yapılmış en zor yapay zeka testini geliştirdi

Uzun süredir yapay zeka sistemlerinin kapasitesini ölçmek için kullanılan Massive Multitask Language Understanding (MMLU) gibi geleneksel sınavlar, gelişmiş modellerin gerisinde kalmaya başladı. Sistemler bu testleri kolayca geçerken, araştırmacılar yapay zekanın gerçek anlama kapasitesini ölçebilecek çok daha karmaşık bir yapıya ihtiyaç duydu. Texas A&M Üniversitesi'nin de aralarında bulunduğu uluslararası bir ekip, bu ihtiyaca yanıt olarak ‘İnsanlığın Son Sınavı’ (Humanity's Last Exam - HLE) adını verdikleri projeyi hayata geçirdi.


YAPAY ZEKA TESTLERİNDE YENİ BİR DÖNEM

Nature dergisinde yayımlanan detaylara göre HLE; matematik, doğa bilimleri, beşeri bilimler ve hatta eski diller gibi uzmanlık gerektiren çok geniş bir akademik yelpazeyi kapsıyor. Projenin mimarlarından Dr. Tung Nguyen, yapay zekanın mevcut başarısının yanıltıcı olabileceği konusunda uyararak durumu şu sözlerle özetliyor: "Yapay zeka sistemleri insan ölçütlerinde son derece iyi performans göstermeye başladığında, insan düzeyinde anlama yaklaştıklarını düşünmek caziptir. Ancak HLE bize zekanın sadece kalıp tanıma ile ilgili olmadığını; derinlik, bağlam ve uzmanlık gerektirdiğini hatırlatıyor."


İNTERNETTE BULUNAMAYAN 2.500 ZORLU SORU

Sınavın amacı yapay zekayı kandırmak değil, sistemlerin hala yetersiz kaldığı ‘gri alanları’ dikkatlice belirlemek. Bu doğrultuda, dünyanın dört bir yanından uzmanlar tarafından hazırlanan sorular, basit bir internet aramasıyla çözülemeyecek şekilde tasarlandı. Sorular arasında eski Palmira yazıtlarının çevirisinden, İncil İbranicesi telaffuzunun analizine kadar son derece spesifik akademik görevler yer alıyor.


Araştırma ekibi, testin geçerliliğini korumak için sıkı bir filtreleme yöntemi uyguladı: Eğer mevcut herhangi bir yapay zeka modeli bir soruyu doğru yanıtlayabiliyorsa, o soru final sınavından çıkarıldı.


GÜNCEL YAPAY ZEKA MODELLERİNİN BAŞARI ORANLARI

İlk test sonuçları, geliştirilen stratejinin başarılı olduğunu ve sektördeki devlerin bu yeni sınavda ciddi şekilde zorlandığını gösterdi:

  • GPT-4o: %2,7
  • Claude 3.5 Sonnet: %4,1
  • OpenAI o1: %8,0
  • Gemini 3.1 Pro ve Claude Opus 4.6: ~%40 - %50 (Şu ana kadarki en yüksek seviye)


İNSAN UZMANLIĞININ VAZGEÇİLMEZ ROLÜ

Testte yer alan matematik ve bilgisayar bilimleri sorularının büyük bölümünü bizzat hazırlayan Dr. Nguyen, bu kıyaslama ölçütlerinin politika yapıcılar ve geliştiriciler için kritik olduğunu vurguluyor. Doğru değerlendirme araçları olmadan teknolojinin risklerinin anlaşılamayacağını belirten araştırmacılar, bu projenin bir ‘yapay zekaya karşı yarış’ olmadığını belirtiyor.


HLE projesi, yapay zekanın cevapları ezberlemesini önlemek için soruların büyük bir kısmını gizli tutarken, insanlığın kolektif bilgi birikiminin ve disiplinler arası iş birliğinin ne kadar eşsiz olduğunu bir kez daha kanıtlıyor.