Dünyayı daha çok insan gibi gören makineler

Bu görüntü, 3DP3’ün (alt sıra), girdi görüntülerinden (üst sıra) nesnelerin derin öğrenme sistemlerine (orta sıra) kıyasla nasıl daha doğru poz tahminleri çıkardığını gösterir. Kredi: Massachusetts Teknoloji Enstitüsü

Bilgisayarlı görme sistemleri bazen sağduyu karşısında uçuşan bir sahne hakkında çıkarımlarda bulunur. Örneğin, bir robot bir yemek masası sahnesini işliyorsa, herhangi bir insan gözlemcinin görebildiği bir kaseyi tamamen görmezden gelebilir, bir tabağın masanın üzerinde yüzdüğünü tahmin edebilir veya bir çatalın bir kaseye girdiğini yanlış algılayabilir. buna yaslanarak.

Bu bilgisayarlı görüş sistemini sürücüsüz bir araca taşıdığınızda risk çok daha yüksek olur; örneğin, bu tür sistemler acil durum araçlarını ve karşıdan karşıya geçen yayaları tespit etmekte başarısız oldu.

Bu hataların üstesinden gelmek için MIT araştırmacıları, makinelerin dünyayı insanlar gibi görmesine yardımcı olan bir çerçeve geliştirdi. Sahneleri analiz etmeye yönelik yeni yapay zeka sistemleri, gerçek dünyadaki nesneleri sadece birkaç görüntüden algılamayı öğrenir ve sahneleri bu öğrenilen nesneler açısından algılar.

Araştırmacılar, çerçeveyi, bir kameradan kaydedilen görüntülerin herhangi bir aday sahneyle olası bir eşleşme olup olmadığını görmek için sistemin algılanan nesneleri giriş verilerine karşı kontrol etmesini sağlayan bir AI yaklaşımı olan olasılıksal programlamayı kullanarak oluşturdu. Olasılıksal çıkarım, sistemin, uyumsuzlukların olası gürültüden mi yoksa daha sonraki işlemlerle düzeltilmesi gereken sahne yorumundaki hatalardan mı kaynaklandığını çıkarmasına olanak tanır.

Bu sağduyulu koruma, sistemin, bilgisayar görüşü için de kullanılmış olan “derin öğrenme” yaklaşımlarını rahatsız eden birçok hatayı algılamasına ve düzeltmesine olanak tanır. Olasılıksal programlama, aynı zamanda, sahnedeki nesneler arasındaki olası temas ilişkilerini ortaya çıkarmayı ve nesneler için daha doğru konumlar elde etmek için bu temaslar hakkında sağduyulu akıl yürütmeyi kullanmayı mümkün kılar.

“Temas ilişkilerini bilmiyorsanız, o zaman bir nesnenin masanın üzerinde yüzdüğünü söyleyebilirsiniz – bu geçerli bir açıklama olacaktır. İnsanlar olarak, bunun fiziksel olarak gerçekçi olmadığı ve nesnenin üzerinde durduğu bizim için açıktır. tablonun üst kısmı, nesnenin daha olası bir pozudur. Akıl yürütme sistemimiz bu tür bilgilerin farkında olduğundan, daha doğru pozlar çıkarabilir. mühendislik ve bilgisayar bilimi (EECS) Ph.D. Olasılıksal Hesaplama Projesi ile öğrenci.

Bu çalışma, sürücüsüz arabaların güvenliğini artırmanın yanı sıra, karmaşık bir mutfağı temizlemekle görevli bir robot gibi nesnelerin karmaşık düzenlemelerini yorumlaması gereken bilgisayar algılama sistemlerinin performansını artırabilir.

Gothoskar’ın ortak yazarları arasında yakın zamanda EECS Ph.D. mezun Marco Cusumano-Town; araştırma mühendisi Ben Zinberg; misafir öğrenci Matin Ghavamizadeh; MIT-IBM Watson AI Lab’de yazılım mühendisi olan Falk Pollok; yakın zamanda EECS yüksek lisans mezunu Austin Garrett; MIT-IBM Watson Yapay Zeka Laboratuvarında baş araştırmacı olan Dan Gutfreund; Joshua B. Tenenbaum, Beyin ve Bilişsel Bilimler (BCS) Bölümünde Bilişsel Bilim ve Hesaplama alanında Kariyer Geliştirme Profesörü ve Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı üyesi Paul E. Newton; ve kıdemli yazar Vikash K. Mansinghka, baş araştırma bilimcisi ve BCS’deki Olasılıksal Hesaplama Projesinin lideri. Araştırma, Aralık ayında Nöral Bilgi İşleme Sistemleri Konferansı’nda sunuluyor.

Geçmişten bir patlama

“Olasılıksal Programlama ile 3D Sahne Algısı (3DP3)” adı verilen sistemi geliştirmek için araştırmacılar, yapay zeka araştırmasının ilk günlerinden kalma bir kavramdan yararlandılar; bu, bilgisayarla görmenin bilgisayar grafiklerinin “tersi” olarak düşünülebileceğidir.

Bilgisayar grafikleri, bir sahnenin temsiline dayalı olarak görüntüler oluşturmaya odaklanır; bilgisayarla görme bu sürecin tersi olarak görülebilir. Gothoskar ve işbirlikçileri, olasılıksal programlama kullanılarak oluşturulmuş bir çerçeveye dahil ederek bu tekniği daha öğrenilebilir ve ölçeklenebilir hale getirdiler.

“Olasılıksal programlama, dünyanın bazı yönleriyle ilgili bilgilerimizi bir bilgisayarın yorumlayabileceği şekilde yazmamıza izin verir, ancak aynı zamanda bilmediğimizi, belirsizliği ifade etmemize de olanak tanır. Yani, sistem verilerden otomatik olarak öğrenebilir ve ayrıca kuralların ne zaman geçerli olmadığını otomatik olarak algılayabilir,” diye açıklıyor Cusumano-Town.

Bu durumda model, 3B sahneler hakkında ön bilgi ile kodlanır. Örneğin, 3DP3, sahnelerin farklı nesnelerden oluştuğunu ve bu nesnelerin genellikle üst üste düz durduğunu “bilir” – ancak bunlar her zaman bu kadar basit ilişkiler içinde olmayabilirler. Bu, modelin daha sağduyulu bir sahne hakkında akıl yürütmesini sağlar.

Şekilleri ve sahneleri öğrenme

Bir sahnenin görüntüsünü analiz etmek için, 3DP3 önce o sahnedeki nesneleri öğrenir. 3DP3, bir nesnenin her biri farklı bir açıdan çekilmiş yalnızca beş görüntüsü gösterildikten sonra, nesnenin şeklini öğrenir ve uzayda kaplayacağı hacmi tahmin eder.

Gothoskar, “Size bir nesneyi beş farklı perspektiften gösterirsem, o nesnenin oldukça iyi bir temsilini oluşturabilirsiniz. Rengini, şeklini anlarsınız ve o nesneyi birçok farklı sahnede tanıyabilirsiniz.” diyor.

Mansinghka, “Bu, derin öğrenme yaklaşımlarından çok daha az veridir. Örneğin, Yoğun Füzyon sinirsel nesne algılama sistemi, her nesne türü için binlerce eğitim örneği gerektirir. Buna karşılık, 3DP3, nesne başına yalnızca birkaç görüntü gerektirir ve belirsizliği bildirir. her nesnenin şeklinin bilmediği kısımları hakkında.”

3DP3 sistemi, her nesnenin bir düğüm olduğu ve düğümleri birbirine bağlayan çizgilerin hangi nesnelerin birbiriyle temas halinde olduğunu gösterdiği sahneyi temsil etmek için bir grafik oluşturur. Bu, 3DP3’ün nesnelerin nasıl düzenlendiğine dair daha doğru bir tahmin üretmesini sağlar. (Derin öğrenme yaklaşımları, nesne pozlarını tahmin etmek için derinlik görüntülerine dayanır, ancak bu yöntemler temas ilişkilerinin bir grafik yapısını üretmez, bu nedenle tahminleri daha az doğrudur.)

Daha iyi performans gösteren temel modeller

Araştırmacılar, 3DP3’ü, hepsi bir sahnedeki 3B nesnelerin pozlarını tahmin etmekle görevli birkaç derin öğrenme sistemiyle karşılaştırdı.

Neredeyse tüm durumlarda, 3DP3 diğer modellerden daha doğru pozlar üretti ve bazı nesneler diğerlerini kısmen engellediğinde çok daha iyi performans gösterdi. Ve 3DP3’ün her nesnenin yalnızca beş görüntüsünü görmesi gerekirken, daha iyi performans gösterdiği temel modellerin her biri eğitim için binlerce görüntüye ihtiyaç duyuyordu.

3DP3, başka bir modelle birlikte kullanıldığında doğruluğunu artırmayı başardı. Örneğin, bir derin öğrenme modeli, bir kasenin bir masanın biraz üzerinde yüzdüğünü tahmin edebilir, ancak 3DP3 temas ilişkileri hakkında bilgi sahibi olduğundan ve bunun olası bir konfigürasyon olmadığını görebildiğinden, kaseyi hizalayarak bir düzeltme yapabilir. masa ile.

“Derin öğrenmeden kaynaklanan hataların bazen ne kadar büyük olabileceğini görmek şaşırtıcı buldum – nesnelerin gerçekten insanların algılayacağıyla eşleşmediği sahne temsilleri üretiyor. nedensel olasılık programımız bu hataları tespit etmek ve düzeltmek için yeterliydi.Elbette, onu gerçek zamanlı görüş sistemlerine meydan okumak için yeterince hızlı ve sağlam hale getirmek için hala gidilecek uzun bir yol var-ancak ilk kez olasılıksal olanı görüyoruz. Mansinghka, programlama ve yapılandırılmış nedensel modellerin, zorlu 3B vizyon kıyaslamalarında derin öğrenmeye göre sağlamlığı artırdığını söylüyor.

Gelecekte araştırmacılar, tek bir görüntüden bir nesneyi veya bir filmdeki tek bir kareyi öğrenebilmesi ve ardından bu nesneyi farklı sahnelerde sağlam bir şekilde tespit edebilmesi için sistemi daha da ileriye taşımak istiyor. Ayrıca, bir sinir ağı için eğitim verilerini toplamak için 3DP3’ün kullanımını araştırmak istiyorlar. İnsanların görüntüleri 3B geometriyle manuel olarak etiketlemesi genellikle zordur, bu nedenle 3DP3 daha karmaşık görüntü etiketleri oluşturmak için kullanılabilir.

3DP3 sistemi, “derin öğrenme sinir ağları tarafından yapılan büyük sahne yorumlama hatalarını düzeltmek için düşük kaliteli grafik modellemeyi sağduyulu akıl yürütme ile birleştirir. Bu tür bir yaklaşım, derin öğrenmenin önemli başarısızlık modlarını ele aldığı için geniş bir uygulanabilirliğe sahip olabilir. MIT araştırmacıları” başarı aynı zamanda daha önce DARPA’nın Gelişmiş Makine Öğrenimi için Olasılıksal Programlama (PPAML) programı kapsamında geliştirilen olasılıksal programlama teknolojisinin, DARPA’nın mevcut Machine Common Sense (MCS) programı kapsamında sağduyulu AI’nın merkezi sorunlarını çözmek için nasıl uygulanabileceğini de gösteriyor” diyor DARPA’dan Matt Turek Program, çalışmayı kısmen finanse etmesine rağmen, bu araştırmaya dahil olmayan Machine Common Sense Programı Program Yöneticisi.


Nesne ilişkilerini anlayan yapay zeka


Daha fazla bilgi:
Nishad Gothoskar ve diğerleri, 3DP3: Olasılıksal Programlama ile 3B Sahne Algısı. arXiv:2111.00312v1 [cs.CV], arxiv.org/abs/2111.00312

Massachusetts Teknoloji Enstitüsü tarafından sağlanmıştır

Bu hikaye, MIT araştırmaları, inovasyonları ve öğretimi ile ilgili haberleri kapsayan popüler bir site olan MIT News’in (web.mit.edu/newsoffice/) izniyle yeniden yayınlanmıştır.

Alıntı: Dünyayı daha çok insanlar gibi gören makineler (2021, 8 Aralık) 8 Aralık 2021’de https://techxplore.com/news/2021-12-machines-world-humans.html adresinden alınmıştır.

Bu belge telif haklarına tabidir. Özel çalışma veya araştırma amaçlı herhangi bir adil işlem dışında, yazılı izin alınmadan hiçbir bölüm çoğaltılamaz. İçerik yalnızca bilgi amaçlı sağlanmıştır.





#Dünyayı #daha #çok #insan #gibi #gören #makineler