istanbul-ticaret-gazetesi
istanbul-ticaret-gazetesi

Araştırmacılar büyük şirketlere meydan okuyor: 50 dolara dil modeli!

Stanford ve Washington Üniversitesi’nden araştırmacılar, büyük teknoloji şirketlerinin dev bütçelerle geliştirdiği yapay zeka modellerini sadece 50 dolara eğitti. Bu yöntem, yapay zeka geliştirme maliyetlerinde çığır açabilir.

Giriş: 10.02.2025 - 12:42
Güncelleme: 10.02.2025 - 12:42

Stanford Üniversitesi ve Washington Üniversitesi'nden bir grup yapay zeka araştırmacısı, büyük teknoloji şirketlerinin devasa bütçelerle geliştirdiği yapay zeka modellerini çok daha düşük maliyetlerle eğitmenin bir yolunu buldu. Ekip, yapay zeka sohbet botları ve diğer muhakeme modellerini ucuza eğitme yöntemlerini anlatan makalelerini arXiv ön baskı sunucusunda yayınladı.


YAPAY ZEKA GELİŞTİRME MALİYETİ

Google ve Microsoft gibi devler, sürekli gelişen ve giderek daha karmaşık hale gelen yapay zeka modellerinin geliştirilmesinde lider olmayı hedefliyor. Ancak bu süreç, son derece pahalı ve enerji yoğun sunucu çiftliklerinin kullanımını gerektiriyor. Bu alanda daha düşük maliyetli çözümler geliştirme girişimleri ise dikkat çekiyor. Geçtiğimiz dönemde Çinli bir şirket olan DeepSeek, Batı’daki şirketlerin devasa bütçelerle geliştirdiği modellerle rekabet edebilecek yeteneklere sahip bir büyük dil modeli (LLM) duyurmuş ve bu haber, birçok teknoloji şirketinin hisse senedi fiyatlarında düşüşe yol açmıştı.


50 DOLARA DİL MODELİ

Bu yeni çalışmada araştırmacılar, OpenAI veya DeepSeek tarafından üretilen modellere benzer bir LLM'yi yalnızca 50 dolardan daha az bir maliyetle eğitebileceklerini kanıtladı. Çözüm, başka bir yapay zeka modelinden yetenekleri “damıtma” adı verilen bir yöntemle çıkarmak üzerine kurulu. Bu süreçte ekip, Çinli Alibaba tarafından ücretsiz sunulan bir yapay zeka modelini temel aldı. Bu hazır modeli modifiye ederek “s1” adını verdikleri kendi modellerini geliştirdiler.


Eğitim sürecinde ekip, dikkatle hazırlanmış 1.000 soru-cevap çiftini kullandı. Ayrıca, modele Google'ın deneysel yapay zeka modeli Gemini 2.0’ın “düşünme süreci”ni aktardılar. Eğitim işlemi için 16 Nvidia H100 GPU kullanıldı ve bu süreç sadece 26 dakika sürdü. Bununla birlikte ekip, modele bir ‘düşünme’ adımı ekledi. Bu adım, modelin cevaplarını vermeden önce iki kez kontrol etmesine olanak tanıdı ve performansını artırdı.


Araştırmacıların geliştirdiği bu yöntem, maliyetlerin dramatik bir şekilde düşmesini sağladı. Ortaya çıkan model, çok daha yüksek bütçelerle üretilmiş yapay zeka modelleriyle aynı seviyede bir performans sergiliyor. Araştırmacılar, bu çalışmanın, büyük teknoloji şirketlerinin yapay zeka yarışında karşılaştığı yüksek maliyet bariyerlerini aşmaya yönelik bir çözüm sunabileceğini ifade ediyor.