Robotik dünyasında bugüne kadar uygulanan sistemler, ‘karar verme’ sürecini ikiye ayırıyordu: Önce görsel-dil modeli bir plan oluşturuyor, ardından başka bir model bu planı eyleme döküyordu. Ancak bu kopukluk; karmaşık ortamlarda robotun yanlış nesneyi seçmesine veya hayali adımlar uydurmasına neden oluyordu. Microsoft, bu yapısal sorunu ‘GroundedPlanBench’ adını verdiği binin üzerinde gerçek dünya görevi içeren testiyle çözmeyi hedefliyor.
MEKANSAL AKIL YÜRÜTMEDE 'TEK SÜREÇ' DÖNEMİ
Yeni yaklaşım, sadece metin tabanlı komutlara güvenmek yerine, her eylemi görüntüdeki belirli bir konuma (grounding) bağlıyor. Kavrama, yerleştirme, açma ve kapatma gibi temel eylemler nesnelere doğrudan endekslenerek, sistemin kararları fiziksel dünya ile ilişkilendirmesi sağlanıyor. Bu sayede, ‘masayı düzenle’ gibi açık uçlu ve belirsiz talimatlarda robotun hata yapma riski minimize ediliyor.
V2GP: VİDEODAN ÖĞRENEN ROBOTİK ZEKA
Ekip, performansı artırmak için Video-to-Spatially Grounded Planning (V2GP) adı verilen bir eğitim metodu geliştirdi. Bu sistemin özellikleri şunlardır:

ENDÜSTRİYEL VERİMLİLİKTE YENİ STANDART
Microsoft’un araştırması, planlama ve temellendirmeyi ayıran geleneksel sistemlerin belirsizliklerle boğuştuğunu ortaya koyuyor. Yeni yöntemle eğitilen modellerde ise doğru eylemi doğru nesneyle eşleştirme başarısı radikal şekilde arttı. Özellikle aynı öğeye birden fazla kez müdahale etmek gibi tekrarlanan hataların azalması, endüstriyel montaj hatlarında büyük bir zaman kazancı vadediyor.
Gelecek projeksiyonunda bu yöntemin, eylemlerin sonuçlarını önceden tahmin eden öngörücü modellerle birleştirilmesi planlanıyor. Bu, robotların sadece komutları yerine getirmesini değil, gerçek zamanlı olarak olası hatalardan kaçınmasını da sağlayacak. Robotik el becerisi ve akıl yürütmedeki bu ilerleme, önümüzdeki 5 yıl içinde ‘akıllı fabrikaların’ omurgasını oluşturacak.