Microsoft robotların mekansal akıl yürütme sorununu çözdü: 'GroundedPlanBench'

Robotların karmaşık görevleri yerine getirirken yaşadığı ‘ne yapacağını, nerede yapacağını karıştırma’ sorunu, Microsoft’un geliştirdiği yeni kıyaslama testi GroundedPlanBench ile aşılıyor. Eylem ve konumu tek bir süreçte birleştiren bu teknoloji, makinelerin fiziksel dünyayı insanlar gibi bütünsel bir şekilde algılamasını sağlayacak.

Giriş: 31.03.2026 - 09:16
Güncelleme: 31.03.2026 - 09:16
Microsoft robotların mekansal akıl yürütme sorununu çözdü: 'GroundedPlanBench'

Robotik dünyasında bugüne kadar uygulanan sistemler, ‘karar verme’ sürecini ikiye ayırıyordu: Önce görsel-dil modeli bir plan oluşturuyor, ardından başka bir model bu planı eyleme döküyordu. Ancak bu kopukluk; karmaşık ortamlarda robotun yanlış nesneyi seçmesine veya hayali adımlar uydurmasına neden oluyordu. Microsoft, bu yapısal sorunu ‘GroundedPlanBench’ adını verdiği binin üzerinde gerçek dünya görevi içeren testiyle çözmeyi hedefliyor.


MEKANSAL AKIL YÜRÜTMEDE 'TEK SÜREÇ' DÖNEMİ

Yeni yaklaşım, sadece metin tabanlı komutlara güvenmek yerine, her eylemi görüntüdeki belirli bir konuma (grounding) bağlıyor. Kavrama, yerleştirme, açma ve kapatma gibi temel eylemler nesnelere doğrudan endekslenerek, sistemin kararları fiziksel dünya ile ilişkilendirmesi sağlanıyor. Bu sayede, ‘masayı düzenle’ gibi açık uçlu ve belirsiz talimatlarda robotun hata yapma riski minimize ediliyor.


V2GP: VİDEODAN ÖĞRENEN ROBOTİK ZEKA

Ekip, performansı artırmak için Video-to-Spatially Grounded Planning (V2GP) adı verilen bir eğitim metodu geliştirdi. Bu sistemin özellikleri şunlardır:

  • Görsel eğitim: Robotlar, insanların veya diğer robotların görevleri yerine getirdiği videoları izleyerek öğreniyor.
  • Nesne takibi: Sistem, nesnelerle etkileşimi algılıyor, tanımlıyor ve konumlarını anlık olarak takip ediyor.
  • Geniş veri havuzu: 40.000’den fazla ‘temellendirilmiş plan’ üretilerek, robotların tek adımlık işlerden 26 adımlık karmaşık dizilere kadar tutarlı kalması sağlandı.

Microsoft robotların mekansal akıl yürütme sorununu çözdü: 'GroundedPlanBench'


ENDÜSTRİYEL VERİMLİLİKTE YENİ STANDART

Microsoft’un araştırması, planlama ve temellendirmeyi ayıran geleneksel sistemlerin belirsizliklerle boğuştuğunu ortaya koyuyor. Yeni yöntemle eğitilen modellerde ise doğru eylemi doğru nesneyle eşleştirme başarısı radikal şekilde arttı. Özellikle aynı öğeye birden fazla kez müdahale etmek gibi tekrarlanan hataların azalması, endüstriyel montaj hatlarında büyük bir zaman kazancı vadediyor.


Gelecek projeksiyonunda bu yöntemin, eylemlerin sonuçlarını önceden tahmin eden öngörücü modellerle birleştirilmesi planlanıyor. Bu, robotların sadece komutları yerine getirmesini değil, gerçek zamanlı olarak olası hatalardan kaçınmasını da sağlayacak. Robotik el becerisi ve akıl yürütmedeki bu ilerleme, önümüzdeki 5 yıl içinde ‘akıllı fabrikaların’ omurgasını oluşturacak.