Makine öğrenimi modeli, robotların dünyadaki etkileşimleri insanların yaptığı gibi anlamasını sağlayabilir.

MIT araştırmacıları, bir sahnedeki nesneler arasındaki temel ilişkileri anlayan ve metin açıklamalarından sahnelerin doğru görüntülerini üretebilen bir makine öğrenimi modeli geliştirdi. Kredi: Jose-Luis Olivares, MIT ve iStockphoto

İnsanlar bir sahneye baktığında nesneleri ve aralarındaki ilişkileri görürler. Masanızın üstünde, bilgisayar monitörünün önündeki bir telefonun solunda oturan bir dizüstü bilgisayar olabilir.

Birçok derin öğrenme modeli, tek tek nesneler arasındaki karmaşık ilişkileri anlamadıkları için dünyayı bu şekilde görmekte zorlanır. Bu ilişkilerden haberdar olmadan, mutfakta birine yardım etmek için tasarlanmış bir robot, “sobanın solundaki spatulayı alıp kesme tahtasının üzerine koy” gibi bir komutu yerine getirmekte zorlanırdı.

Bu sorunu çözmek için MIT araştırmacıları, bir sahnedeki nesneler arasındaki temel ilişkileri anlayan bir model geliştirdiler. Modelleri, bireysel ilişkileri birer birer temsil eder, ardından genel sahneyi tanımlamak için bu temsilleri birleştirir. Bu, sahne birbiriyle farklı ilişkiler içinde düzenlenmiş birkaç nesneyi içerdiğinde bile, modelin metin açıklamalarından daha doğru görüntüler oluşturmasını sağlar.

Bu çalışma, endüstriyel robotların, bir depodaki öğeleri istiflemek veya aletleri monte etmek gibi karmaşık, çok adımlı manipülasyon görevlerini gerçekleştirmesi gereken durumlarda uygulanabilir. Ayrıca, alanı, çevrelerinden öğrenebilen ve çevreleriyle insanlar gibi etkileşime girebilen makineleri etkinleştirmeye bir adım daha yaklaştırıyor.

“Bir masaya baktığımda XYZ konumunda bir nesne olduğunu söyleyemem. Zihnimiz böyle çalışmıyor. Zihnimizde, bir sahneyi anladığımızda, onu gerçekten de aralarındaki ilişkilere göre anlıyoruz. Nesneler arasındaki ilişkileri anlayabilen bir sistem kurarak, bu sistemi çevremizi daha etkili bir şekilde manipüle etmek ve değiştirmek için kullanabileceğimizi düşünüyoruz” diyor Ph.D. Yilun Du. Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) öğrenci ve makalenin ortak yazarı.

Du, makaleyi CSAIL Ph.D.’si olan yardımcı yazarlar Shuang Li ile birlikte yazdı. öğrenci ve Urbana-Champaign’deki Illinois Üniversitesi’nde yüksek lisans öğrencisi olan Nan Liu; ayrıca Beyin ve Bilişsel Bilimler Bölümü’nde Bilişsel Bilim ve Hesaplama alanında Kariyer Geliştirme Profesörü ve CSAIL üyesi Joshua B. Tenenbaum; ve kıdemli yazar Antonio Torralba, Delta Elektronik Elektrik Mühendisliği ve Bilgisayar Bilimleri Profesörü ve CSAIL üyesi. Araştırma, Aralık ayında Nöral Bilgi İşleme Sistemleri Konferansı’nda sunulacak.

Bir seferde bir ilişki

Araştırmacıların geliştirdiği çerçeve, “Mavi bir taburenin solunda ahşap bir masa. Mavi bir taburenin sağında kırmızı bir kanepe” gibi nesnelerin metin açıklamasına ve ilişkilerine dayalı bir sahne görüntüsü oluşturabilir.

Makine öğrenimi modeli, robotların dünyadaki etkileşimleri insanların yaptığı gibi anlamasını sağlayabilir.

Araştırmacıların geliştirdiği çerçeve, nesnelerin metin açıklamasına ve ilişkilerine dayalı olarak bir sahnenin görüntüsünü oluşturabilir. Bu şekilde, araştırmacıların son görüntüsü sağdadır ve metin açıklamasını doğru bir şekilde takip eder. Kredi: Massachusetts Teknoloji Enstitüsü

Sistemleri, bu cümleleri her bir ilişkiyi tanımlayan (“mavi bir taburenin solundaki ahşap bir masa” ve “mavi bir taburenin sağındaki kırmızı bir kanepe”) iki küçük parçaya böler ve sonra her bir parçayı ayrı ayrı modeller. . Bu parçalar daha sonra sahnenin bir görüntüsünü oluşturan bir optimizasyon süreci ile birleştirilir.

Araştırmacılar, bir sahne açıklamasında bireysel nesne ilişkilerini temsil etmek için enerji tabanlı modeller adı verilen bir makine öğrenimi tekniği kullandılar. Bu teknik, her bir ilişkisel açıklamayı kodlamak için enerji tabanlı bir model kullanmalarını ve daha sonra bunları tüm nesneleri ve ilişkileri çıkaracak şekilde bir araya getirmelerini sağlar.

Li, cümleleri her ilişki için daha kısa parçalara bölerek, onları çeşitli şekillerde yeniden birleştirebilir, böylece daha önce görmediği sahne açıklamalarına daha iyi uyum sağlayabilir, diye açıklıyor Li.

“Diğer sistemler tüm ilişkileri bütünsel olarak alır ve açıklamadan tek seferde görüntüyü oluşturur. Bununla birlikte, bu tür yaklaşımlar, daha fazla ilişki içeren açıklamalar gibi dağıtım dışı açıklamalara sahip olduğumuzda başarısız olur, çünkü bu modeller gerçekten uyarlanamaz. daha fazla ilişki içeren görüntüler oluşturmak için tek çekim. Ancak, bu ayrı, daha küçük modelleri birlikte oluşturduğumuzda, daha fazla sayıda ilişkiyi modelleyebilir ve yeni kombinasyonlara uyum sağlayabiliriz” diyor.

Sistem aynı zamanda tersine çalışır; bir görüntü verildiğinde, sahnedeki nesneler arasındaki ilişkilerle eşleşen metin açıklamaları bulabilir. Ek olarak, onların modelleri, sahnedeki nesneleri yeni bir tanımla eşleşecek şekilde yeniden düzenleyerek bir görüntüyü düzenlemek için kullanılabilir.

Karmaşık sahneleri anlama

Araştırmacılar, modellerini, metin açıklamaları verilen ve ilgili nesneleri ve ilişkilerini gösteren görüntüler oluşturmakla görevlendirilen diğer derin öğrenme yöntemleriyle karşılaştırdılar. Her durumda, modelleri taban çizgilerinden daha iyi performans gösterdi.

Ayrıca insanlardan, oluşturulan görüntülerin orijinal sahne tanımıyla eşleşip eşleşmediğini değerlendirmelerini istediler. Açıklamaların üç ilişki içerdiği en karmaşık örneklerde, katılımcıların yüzde 91’i yeni modelin daha iyi performans gösterdiği sonucuna vardı.

Makine öğrenimi modeli, robotların dünyadaki etkileşimleri insanların yaptığı gibi anlamasını sağlayabilir.

Bu şekilde, araştırmacının son görüntüleri “bizim” olarak etiketlenmiştir. Kredi: Massachusetts Teknoloji Enstitüsü

“Bulduğumuz ilginç bir şey, modelimiz için, cümlemizi bir ilişki açıklamasından iki, üç, hatta dört açıklamaya yükseltebiliriz ve yaklaşımımız, bunlar tarafından doğru bir şekilde tanımlanan görüntüler üretmeye devam eder. açıklamalar, diğer yöntemler başarısız olurken,” diyor Du.

Araştırmacılar ayrıca, daha önce görmediği sahnelerin model görüntülerini ve her görüntünün birkaç farklı metin açıklamasını gösterdi ve görüntüdeki nesne ilişkilerine en uygun açıklamayı başarılı bir şekilde belirleyebildi.

Ve araştırmacılar sisteme aynı görüntüyü ancak farklı şekillerde tanımlayan iki ilişkisel sahne tanımı verdiğinde, model açıklamaların eşdeğer olduğunu anlayabildi.

Araştırmacılar, özellikle daha önce karşılaşmadığı açıklamalarla çalışırken, modellerinin sağlamlığından etkilendiler.

“Bu çok umut verici çünkü bu, insanların çalışma şekline daha yakın. İnsanlar sadece birkaç örnek görebilir, ancak sadece bu birkaç örnekten faydalı bilgiler çıkarabilir ve onları sonsuz kombinasyonlar oluşturmak için bir araya getirebiliriz. Ve modelimizin öyle bir özelliği var ki, daha az veriden öğrenmek, ancak daha karmaşık sahnelere veya görüntü nesillerine genellemek için” diyor Li.

Bu erken sonuçlar cesaret verici olsa da, araştırmacılar, modellerinin daha karmaşık, gürültülü arka planlar ve birbirini engelleyen nesnelerle gerçek dünya görüntüleri üzerinde nasıl performans gösterdiğini görmek istiyorlar.

Ayrıca, nihayetinde modellerini robotik sistemlere dahil etmekle, bir robotun videolardan nesne ilişkileri çıkarmasını ve ardından bu bilgiyi dünyadaki nesneleri manipüle etmek için kullanmasını sağlamakla ilgileniyorlar.

“Çevremizdeki dünyanın bileşimsel doğasıyla başa çıkabilen görsel temsiller geliştirmek, bilgisayarla görü alanındaki kilit açık sorunlardan biridir. Bu makale, nesneler arasındaki çoklu ilişkileri açıkça modelleyen enerji tabanlı bir model önererek bu sorun üzerinde önemli ilerleme kaydetmektedir. Resimde tasvir edilmiştir. Sonuçlar gerçekten etkileyici,” diyor Çek Teknik Üniversitesi’ndeki Çek Bilişim, Robotik ve Sibernetik Enstitüsü’nde bu araştırmaya dahil olmayan seçkin bir araştırmacı olan Josef Sivic.


Yeni makine öğrenimi yaklaşımı, dijital fotoğrafları hayata döndürüyor


Daha fazla bilgi:
Görsel İlişkiler Oluşturmayı Öğrenmek. composevisualrelations.github.io/

Massachusetts Teknoloji Enstitüsü tarafından sağlanmıştır

Bu hikaye, MIT araştırmaları, inovasyonları ve öğretimi ile ilgili haberleri kapsayan popüler bir site olan MIT News’in (web.mit.edu/newsoffice/) izniyle yeniden yayınlanmıştır.

Alıntı: Makine öğrenimi modeli, robotların etkileşimleri insanlar gibi anlamasını sağlayabilir (2021, 29 Kasım) 29 Kasım 2021 tarihinde https://techxplore.com/news/2021-11-machine-learning-enable-robots-interactions adresinden alınmıştır. -insanlar.html

Bu belge telif haklarına tabidir. Özel çalışma veya araştırma amaçlı herhangi bir adil işlem dışında, yazılı izin alınmadan hiçbir bölüm çoğaltılamaz. İçerik yalnızca bilgi amaçlı sağlanmıştır.





#Makine #öğrenimi #modeli #robotların #etkileşimleri #insanların #yaptığı #gibi #anlamasını #sağlayabilir