Nesne İlişkilerini Anlayan Makine Öğrenimi Modeli

MIT araştırmacıları, bir sahnedeki nesneler arasındaki temel ilişkileri anlayan ve metin açıklamalarından sahnelerin doğru görüntülerini üretebilen bir makine öğrenimi modeli geliştirdi. Kredi: Jose-Luis Olivares, MIT ve iStockphoto

Yeni bir makine öğrenimi modeli, robotların dünyadaki etkileşimleri insanların yaptığı gibi anlamasını sağlayabilir.

İnsanlar bir sahneye baktığında nesneleri ve aralarındaki ilişkileri görürler. Masanızın üstünde, bilgisayar monitörünün önündeki bir telefonun solunda oturan bir dizüstü bilgisayar olabilir.

Birçok derin öğrenme modeli, tek tek nesneler arasındaki karmaşık ilişkileri anlamadıkları için dünyayı bu şekilde görmekte zorlanır. Bu ilişkilerden haberdar olmadan, mutfakta birine yardım etmek için tasarlanmış bir robot, “ocağın solundaki spatulayı alıp kesme tahtasının üzerine koy” gibi bir komutu yerine getirmekte zorlanırdı.

Bu sorunu çözme çabası içinde, İLE BİRLİKTE araştırmacılar, bir sahnedeki nesneler arasındaki temel ilişkileri anlayan bir model geliştirdiler. Modelleri, bireysel ilişkileri birer birer temsil eder, ardından genel sahneyi tanımlamak için bu temsilleri birleştirir. Bu, sahne birbiriyle farklı ilişkiler içinde düzenlenmiş birkaç nesneyi içerdiğinde bile, modelin metin açıklamalarından daha doğru görüntüler oluşturmasını sağlar.

Bu çalışma, endüstriyel robotların, bir depodaki öğeleri istiflemek veya aletleri monte etmek gibi karmaşık, çok adımlı manipülasyon görevlerini gerçekleştirmesi gereken durumlarda uygulanabilir. Ayrıca, alanı, çevrelerinden öğrenebilen ve çevreleriyle insanlar gibi etkileşime girebilen makineleri etkinleştirmeye bir adım daha yaklaştırıyor.

Nesne İlişkilerini Anlayan Yapay Zeka

Araştırmacıların geliştirdiği çerçeve, nesnelerin metin açıklamasına ve ilişkilerine dayalı olarak bir sahnenin görüntüsünü oluşturabilir. Bu şekilde, araştırmacıların son görüntüsü sağdadır ve metin açıklamasını doğru bir şekilde takip eder. Kredi: Araştırmacıların izniyle

“Bir masaya baktığımda XYZ konumunda bir nesne olduğunu söyleyemem. Aklımız böyle çalışmıyor. Zihnimizde, bir sahneyi anladığımızda, onu gerçekten nesneler arasındaki ilişkilere dayanarak anlarız. Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) doktora öğrencisi Yilun Du, nesneler arasındaki ilişkileri anlayabilen bir sistem kurarak, bu sistemi çevremizi daha etkili bir şekilde manipüle etmek ve değiştirmek için kullanabileceğimizi düşünüyoruz” diyor. – makalenin baş yazarı.

Du makaleyi, CSAIL doktora öğrencisi olan yardımcı yazarlar Shuang Li ve Urbana-Champaign’deki Illinois Üniversitesi’nde yüksek lisans öğrencisi olan Nan Liu ile birlikte yazdı; ayrıca Beyin ve Bilişsel Bilimler Bölümü’nde Bilişsel Bilim ve Hesaplama alanında Kariyer Geliştirme Profesörü ve CSAIL üyesi Joshua B. Tenenbaum; ve kıdemli yazar Antonio Torralba, Delta Elektronik Elektrik Mühendisliği ve Bilgisayar Bilimleri Profesörü ve CSAIL üyesi. Araştırma, Aralık ayında Nöral Bilgi İşleme Sistemleri Konferansı’nda sunulacak.

Bir seferde bir ilişki

Araştırmacıların geliştirdiği çerçeve, nesnelerin metin açıklamasına ve “Mavi bir taburenin solundaki ahşap bir masa” gibi ilişkilerine dayalı bir sahne görüntüsü oluşturabilir. Mavi bir taburenin sağında kırmızı bir kanepe.”

Sistemleri, bu cümleleri her bir ilişkiyi tanımlayan iki küçük parçaya böler (“mavi bir taburenin solunda ahşap bir masa” ve “mavi bir taburenin sağında kırmızı bir kanepe”) ve sonra her bir parçayı ayrı ayrı modelleyecektir. . Bu parçalar daha sonra sahnenin bir görüntüsünü oluşturan bir optimizasyon süreci ile birleştirilir.

Nesne İlişkilerini Anlayan Yapay Zeka

Bu şekilde, araştırmacının son görüntüleri “bizim” olarak etiketlenmiştir. Kredi: Araştırmacıların izniyle

Araştırmacılar, bir sahne açıklamasında bireysel nesne ilişkilerini temsil etmek için enerji tabanlı modeller adı verilen bir makine öğrenimi tekniği kullandılar. Bu teknik, her bir ilişkisel açıklamayı kodlamak için enerji tabanlı bir model kullanmalarını ve daha sonra bunları tüm nesneleri ve ilişkileri çıkaracak şekilde bir araya getirmelerini sağlar.

Li, cümleleri her ilişki için daha kısa parçalara bölerek, onları çeşitli şekillerde yeniden birleştirebilir, böylece daha önce görmediği sahne açıklamalarına daha iyi uyum sağlayabilir, diye açıklıyor Li.

“Diğer sistemler tüm ilişkileri bütünsel olarak alacak ve açıklamadan tek seferde görüntüyü oluşturacaktır. Bununla birlikte, daha fazla ilişki içeren açıklamalar gibi dağıtım dışı açıklamalarımız olduğunda bu tür yaklaşımlar başarısız olur, çünkü bu modeller daha fazla ilişki içeren görüntüler oluşturmak için tek bir çekimi gerçekten uyarlayamaz. Ancak, bu ayrı, daha küçük modelleri birlikte oluşturduğumuzda, daha fazla sayıda ilişkiyi modelleyebilir ve yeni kombinasyonlara uyum sağlayabiliriz” diyor Du.

Sistem aynı zamanda tersine çalışır – bir görüntü verildiğinde, sahnedeki nesneler arasındaki ilişkilerle eşleşen metin açıklamaları bulabilir. Ek olarak, onların modelleri, sahnedeki nesneleri yeni bir tanımla eşleşecek şekilde yeniden düzenleyerek bir görüntüyü düzenlemek için kullanılabilir.

Karmaşık sahneleri anlama

Araştırmacılar, modellerini, metin açıklamaları verilen ve ilgili nesneleri ve ilişkilerini gösteren görüntüler oluşturmakla görevlendirilen diğer derin öğrenme yöntemleriyle karşılaştırdılar. Her durumda, modelleri taban çizgilerinden daha iyi performans gösterdi.

Ayrıca insanlardan, oluşturulan görüntülerin orijinal sahne tanımıyla eşleşip eşleşmediğini değerlendirmelerini istediler. Açıklamaların üç ilişki içerdiği en karmaşık örneklerde, katılımcıların yüzde 91’i yeni modelin daha iyi performans gösterdiği sonucuna vardı.

“Bulduğumuz ilginç bir şey, modelimiz için, cümlemizi bir ilişki tanımından iki, üç, hatta dört açıklamaya yükseltebiliriz ve yaklaşımımız, bunlar tarafından doğru şekilde tanımlanan görüntüler üretmeye devam eder. açıklamalar, diğer yöntemler başarısız olurken, ”diyor Du.

Araştırmacılar ayrıca, daha önce görmediği sahnelerin model görüntülerini ve her görüntünün birkaç farklı metin açıklamasını gösterdi ve görüntüdeki nesne ilişkilerine en uygun açıklamayı başarılı bir şekilde belirleyebildi.

Ve araştırmacılar sisteme aynı görüntüyü ancak farklı şekillerde tanımlayan iki ilişkisel sahne tanımı verdiğinde, model açıklamaların eşdeğer olduğunu anlayabildi.

Araştırmacılar, özellikle daha önce karşılaşmadığı açıklamalarla çalışırken, modellerinin sağlamlığından etkilendiler.

“Bu çok umut verici çünkü bu, insanların çalışma şekline daha yakın. İnsanlar yalnızca birkaç örnek görebilir, ancak yalnızca bu birkaç örnekten yararlı bilgiler çıkarabilir ve sonsuz kombinasyonlar oluşturmak için bunları bir araya getirebiliriz. Ve modelimiz, daha az veriden öğrenmesine, ancak daha karmaşık sahnelere veya görüntü nesillerine genellenmesine izin veren bir özelliğe sahip,” diyor Li.

Bu erken sonuçlar cesaret verici olsa da, araştırmacılar, modellerinin daha karmaşık, gürültülü arka planlar ve birbirini engelleyen nesnelerle gerçek dünya görüntüleri üzerinde nasıl performans gösterdiğini görmek istiyorlar.

Ayrıca, nihayetinde modellerini robotik sistemlere dahil etmekle, bir robotun videolardan nesne ilişkileri çıkarmasını ve ardından bu bilgiyi dünyadaki nesneleri manipüle etmek için kullanmasını sağlamakla ilgileniyorlar.

“Çevremizdeki dünyanın bileşimsel doğasıyla başa çıkabilen görsel temsiller geliştirmek, bilgisayarla görü alanındaki en önemli açık sorunlardan biridir. Bu makale, görüntüde gösterilen nesneler arasındaki çoklu ilişkileri açıkça modelleyen enerji tabanlı bir model önererek bu sorun üzerinde önemli ilerlemeler sağlıyor. Sonuçlar gerçekten etkileyici” diyor Çek Teknik Üniversitesi’ndeki Çek Bilişim, Robotik ve Sibernetik Enstitüsü’nde bu araştırmaya dahil olmayan seçkin bir araştırmacı olan Josef Sivic.

Referans: Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum ve Antonio Torralba, “Learning to Compose Visual Relations”, NeurIPS 2021 (Spotlight).
GitHub

Bu araştırma kısmen Raytheon BBN Technologies Corp., Mitsubishi Electric Araştırma Laboratuvarı, Ulusal Bilim Vakfı, Deniz Araştırmaları Ofisi ve IBM Thomas J. Watson Araştırma Merkezi tarafından desteklenmektedir.





#Nesne #İlişkilerini #Anlayan #Yapay #Zeka #Makinelerin #İnsanlar #Gibi #Daha #Fazla #Öğrenmesini #Sağlar