Görme ve ses arasında doğal bir bağ kurarak öğrenen insanlar gibi, yapay zeka da artık benzer bir anlayış geliştirme yolunda ilerliyor. Örneğin, çello çalan birini izleyen biri, çellistin hareketlerinin duyduğu müziği ürettiğini kolaylıkla fark edebilir. Bu ilhamla, MIT ve çeşitli üniversitelerden araştırmacılar, bir yapay zeka modelinin görsel ve işitsel verilerden birlikte öğrenmesini sağlayan yeni bir yöntem geliştirdi.
Bu yaklaşım, gazetecilik ve film prodüksiyonu gibi alanlarda otomatik video ve ses alma süreçlerine destek sağlayarak çok modlu içerik düzenlemeyi kolaylaştırabilir. Uzun vadede ise, bu çalışma, sesli ve görsel bilgilerin iç içe geçtiği gerçek dünya ortamlarını yapay zekanın daha etkili anlayabilmesi için kullanılabilecek potansiyele sahip.
ETİKETSİZ VERİYLE ÖĞRENME
Araştırma ekibi, daha önce geliştirdikleri çalışmaları temel alarak, makine öğrenimi modellerinin insan etiketlerine ihtiyaç duymadan videolardaki ses ve görüntü verilerini hizalamasına imkân tanıyan bir yöntem ortaya koydu. Mevcut modellerini, belirli bir video karesi ile o anda oluşan ses arasında daha hassas ilişkiler kurabilecek şekilde eğittiler. Ayrıca, sistemin iki farklı öğrenme hedefini dengeli biçimde işlemesine yardımcı olan bazı mimari iyileştirmeler de gerçekleştirdiler. Bu sayede hem video alma görevlerinde hem de görsel-işitsel sahnelerdeki eylemleri sınıflandırma süreçlerinde doğruluk oranı artırıldı.
Yeni yöntem, örneğin bir video klipteki kapı çarpma sesini, bu sese ait görsel sahneyle otomatik ve isabetli biçimde eşleştirebiliyor. Araştırmacılar, sistemin tıpkı insanlar gibi dünyayı işleyebilen ve ses ile görsel bilgileri aynı anda alıp değerlendirebilen bir yapay zeka sistemi oluşturma amacına hizmet ettiğini belirtiyor.
CAV-MAE MODELİNE YENİLİK
Araştırma, 11-15 Haziran 2025 tarihlerinde Nashville’de gerçekleştirilecek olan Bilgisayar Görüntüsü ve Desen Tanıma Konferansı’nda (CVPR 2025) sunulacak. Söz konusu model, araştırmacıların birkaç yıl önce geliştirdiği, etiketlenmemiş videolarla çalışan ve görsel-işitsel verileri aynı anda işleyebilen CAV-MAE adlı bir makine öğrenimi yöntemine dayanıyor. Bu yöntemde, model videolardan alınan görüntü ve sesleri ayrı ayrı “belirteç” adı verilen temsillere dönüştürüyor ve daha sonra doğal ses sinyallerini kullanarak, birbirine yakın ses ve görsel belirteç çiftlerini eşlemeyi öğreniyor.
Ancak önceki model, video ve sesi tek bir birim olarak değerlendiriyordu. Örneğin, 10 saniyelik bir video boyunca yer alan kapı çarpma sesi, sadece 1 saniyelik kısmı kapsasa da, tüm kliple eşleştiriliyordu. Bu eksikliği gidermek isteyen araştırmacılar, CAV-MAE Sync adını verdikleri yeni bir modeli geliştirdiler. Bu modelde, ses daha küçük pencerelere bölünüyor ve her pencere için ayrı bir gösterim üretiliyor. Böylece model, bir video karesini yalnızca o anla ilgili sesle eşleştirmeyi öğrenebiliyor.
YENİ BELİRTEÇ TEKNİĞİ
Ayrıntılı ilişki öğrenimine katkı sağlamak için modelin mimarisi yeniden yapılandırıldı. İki öğrenme hedefini aynı anda optimize edebilmek amacıyla “karşılaştırmalı öğrenme” ve “yeniden yapılandırma” hedefleri birlikte kullanıldı. Araştırmacılar bu süreci daha da geliştirmek için iki yeni tür belirteç tanıttılar: “küresel belirteçler” ve “kayıt belirteçleri.” Küresel belirteçler, karşılaştırmalı öğrenmeye; kayıt belirteçleri ise yeniden yapılandırmaya katkı sağlıyor. Bu sayede model, her iki öğrenme görevini daha bağımsız şekilde yürütüp genel performansını artırabiliyor.
YENİ UYGULAMA ALANLARI
Araştırma ekibi, tüm bu geliştirmelerin modelin ses temelli video alma ve görsel-işitsel sahne sınıflandırma becerilerini artırdığını belirtiyor. Yeni modelin, önceki çalışmalara göre daha isabetli sonuçlar verdiği ve daha fazla eğitim verisi gerektiren karmaşık yöntemlere kıyasla daha iyi performans gösterdiği vurgulanıyor. Araştırmacılar, bazen verideki küçük desenlerin ve basit fikirlerin, modele uygulandığında önemli gelişmelere yol açabileceğini ifade ediyor.
Gelecekte ise bu yaklaşımın, daha iyi veri temsilleri sunan yeni modellerle desteklenerek CAV-MAE Sync’e entegre edilmesi ve metin verilerinin de işlenebilmesi planlanıyor. Bu yönüyle araştırmacılar, görsel-işitsel çok modlu büyük dil modeli üretme hedefine bir adım daha yaklaşıyor.