Google, robotlara Gemini sinir ağını kullanarak komutları yerine getirmeyi ve ofiste dolaşmayı öğretti. İşte detaylar..
Google DeepMind Robotics ekibi, Google Gemini 1.5 Pro adlı yapay zeka destekli robotlarıyla bu hafta ofis içinde doğal dilde verilen komutları yerine getirebildiklerini gösterdi. Robot, ofis ortamında hareket edebilme yeteneğini sergiledi.
Robotun Görevleri Başarıyla Gerçekleştirdiği Video Örnekleri
DeepMind Robotics tarafından yayımlanan "Mobility VLA: VLM ile Uzun Konteks ve Topolojik Grafikler Kullanarak Çok Modlu Navigasyon" başlıklı makalede, 9000 metrekarelik bir ofis alanında robotun farklı görevleri nasıl yerine getirdiği videolarla gösterildi.
Robotun Yönlendirilmesi ve İşbirliği Örnekleri
Bir video örneğinde, bir Google çalışanı robotun kendisini bir çizim için bir yere götürmesini istiyor. Robot, "Tabii, bir dakika verin. Gemini ile düşünüyoruz..." cevabını veriyor ve ardından çalışanı duvar boyutunda bir yazı tahtasına götürüyor.
İkinci Video Örneği ve Robotun Yönergeleri Başarıyla İzlemesi
Başka bir video örneğinde ise başka bir çalışan, robotun tahtadaki yönergeleri izlemesini istiyor. Robot, "Mavi Alan" adlı bir yere nasıl ulaşılacağını gösteren basit bir harita çiziyor. Robot, belirtilen rotayı takip etmeden önce bir an düşünüyor ve sonunda robotik teknoloji test alanına kadar olan yolculuğu başarıyla tamamlıyor.
MULTI: Multimodal Instruction Navigation with Tours (MINT) Çözümü ile Alan Tanıma
Videolar öncesinde robotlar, "MULTI: Multimodal Instruction Navigation with Tours (MINT)" çözümü kullanılarak ofis alanıyla tanıştırıldı. Bu sayede robotlar, konuşma ile belirtilen farklı noktalara göre ofiste hareket edebilme yetisine sahip oldular.
Görüntü-Dil-Eylem Hiyerarşisi (VLA) ile Entegrasyon
DeepMind Robotics, "Görüntü-Dil-Eylem" (VLA) hiyerarşik sistemini kullanarak çevre anlayışı ve sağduyu gücünü birleştirdi. Bu entegrasyon sayesinde robotlar, yazılı ve çizili komutlara, jestlere ve arazi oryantasyonuna tepki verebilecek yetiye sahip oldular.
Google'nin İddiaları ve Başarı Oranları
Google'a göre, robotlar çalışanlarla yaptıkları 50 etkileşimin yaklaşık %90'ında başarıyla verilen talimatları yerine getirdiler.