3B Sahneyi 2B Görüntüyle Temsil Etme

Bir 2B görüntüden bir 3B sahneyi temsil etmek için, bir ışık alanı ağı, 3B sahnenin 360 derecelik ışık alanını, her kamera ışınını doğrudan o ışın tarafından gözlemlenen renge eşleyen bir sinir ağına kodlar. Kredi: Araştırmacıların izniyle

Yeni makine öğrenimi sistemi, diğer yöntemlerden yaklaşık 15.000 kat daha hızlı bir görüntüden 3B sahne üretebilir.

İnsanlar, tek bir iki boyutlu görüntüye bakmakta ve yakaladığı üç boyutlu sahneyi anlamakta oldukça iyidir. Yapay zeka ajanları değildir.

Yine de dünyadaki nesnelerle etkileşime girmesi gereken bir makine – mahsulleri hasat etmek veya ameliyata yardımcı olmak için tasarlanmış bir robot gibi – üzerinde eğitim aldığı 2B görüntülerin gözlemlerinden 3B bir sahne hakkında özellikler çıkarabilmelidir.

Bilim adamları, görüntülerden 3B sahnelerin temsillerini çıkarmak için sinir ağlarını kullanma konusunda başarılı olsa da, bu makine öğrenimi yöntemleri, onları birçok gerçek dünya uygulaması için uygulanabilir kılmak için yeterince hızlı değil.

Araştırmacılar tarafından gösterilen yeni bir teknik İLE ve başka yerlerde, mevcut bazı modellerden yaklaşık 15.000 kat daha hızlı görüntülerden 3D sahneleri temsil edebilmektedir.

Yöntem, bir sahneyi 360 derecelik bir ışık alanı olarak temsil eder; bu, 3 boyutlu bir uzaydaki tüm ışık ışınlarını tanımlayan, her noktadan ve her yöne akan bir fonksiyondur. Işık alanı, bir görüntüden alttaki 3B sahnenin daha hızlı oluşturulmasını sağlayan bir sinir ağına kodlanmıştır.

Araştırmacıların geliştirdiği ışık alanı ağları (LFN’ler), bir görüntünün yalnızca tek bir gözleminden sonra bir ışık alanını yeniden oluşturabilir ve gerçek zamanlı kare hızlarında 3B sahneler oluşturabilirler.

3D Sahne Görüntüsü Işık Işını

Bir 3B sahne ve bir ışık ışını görüntüsü verildiğinde, bir ışık alan ağı, temeldeki 3B sahnenin geometrisi hakkında zengin bilgiler hesaplayabilir. Kredi: Resim: Araştırmacıların izniyle

“Günün sonunda bu sinirsel sahne temsillerinin büyük vaadi, onları görme görevlerinde kullanmaktır. Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda doktora sonrası doktora yapan Vincent Sitzmann, size bir görüntü veriyorum ve bu görüntüden sahnenin bir temsilini yaratıyorsunuz ve ardından bu 3B sahnenin alanında yapmak istediğiniz her şeyi yapıyorsunuz” diyor. (CSAIL) ve makalenin ortak baş yazarı.

Sitzmann makaleyi Harvard Üniversitesi’nde doktora sonrası araştırmacı olan ortak yazar Semon Rezchikov ile birlikte yazdı; William T. Freeman, Thomas ve Gerd Perkins Elektrik Mühendisliği ve Bilgisayar Bilimleri Profesörü ve CSAIL üyesi; Beyin ve Bilişsel Bilimler Bölümü’nde hesaplamalı bilişsel bilim profesörü ve CSAIL üyesi Joshua B. Tenenbaum; ve elektrik mühendisliği ve bilgisayar bilimi profesörü ve CSAIL üyesi kıdemli yazar Frédo Durand. Araştırma, bu ay Nöral Bilgi İşleme Sistemleri Konferansı’nda sunulacak.

Işınları haritalamak

Bilgisayarla görü ve bilgisayar grafiklerinde, bir görüntüden bir 3B sahnenin oluşturulması, binlerce veya muhtemelen milyonlarca kamera ışınının haritalanmasını içerir. Kamera ışınlarını, bir kamera merceğinden çıkan ve bir görüntüdeki her piksele piksel başına bir ışın olacak şekilde vuran lazer ışınları gibi düşünün. Bu bilgisayar modelleri, her kamera ışınının çarptığı pikselin rengini belirlemelidir.

Mevcut birçok yöntem, uzayda hareket ederken her kamera ışınının uzunluğu boyunca yüzlerce örnek alarak bunu başarır; bu, yavaş işlemeye yol açabilecek, hesaplama açısından pahalı bir işlemdir.

Bunun yerine, bir LFN, bir 3B sahnenin ışık alanını temsil etmeyi öğrenir ve ardından ışık alanındaki her kamera ışınını, o ışın tarafından gözlemlenen renge doğrudan eşler. Bir LFN, yalnızca tek bir değerlendirmeden sonra bir ışının oluşturulmasını sağlayan ışık alanlarının benzersiz özelliklerinden yararlanır, böylece LFN’nin hesaplamaları yapmak için bir ışının uzunluğu boyunca durmasına gerek kalmaz.

“Diğer yöntemlerle, bu render işlemini yaparken yüzeyi bulana kadar ışını takip etmeniz gerekiyor. Binlerce örnek yapmak zorundasınız çünkü bir yüzey bulmak bu demektir. Ve henüz işiniz bitmedi çünkü şeffaflık veya yansımalar gibi karmaşık şeyler olabilir. Bir ışık alanıyla, karmaşık bir problem olan ışık alanını yeniden oluşturduktan sonra, tek bir ışını oluşturmak, temsilin yalnızca tek bir örneğini alır, çünkü temsil, bir ışını doğrudan rengine eşler, “diyor Sitzmann.

LFN, yönüne ve başlangıç ​​noktasından ne kadar uzak olduğuna bağlı olarak 3 boyutlu uzayda bir çizgiyi temsil eden “Plücker koordinatlarını” kullanarak her kamera ışınını sınıflandırır. Sistem, bir görüntü oluşturmak için bir piksele çarptığı noktada her kamera ışınının Plücker koordinatlarını hesaplar.

LFN, her bir ışını Plücker koordinatlarını kullanarak eşleyerek, paralaks etkisinden dolayı sahnenin geometrisini de hesaplayabilir. Paralaks, iki farklı görüş hattından bakıldığında bir nesnenin görünen pozisyonundaki farktır. Örneğin, başınızı hareket ettirirseniz, uzaktaki nesneler yakındaki nesnelere göre daha az hareket ediyormuş gibi görünür. LFN, paralaks nedeniyle bir sahnedeki nesnelerin derinliğini söyleyebilir ve bu bilgiyi bir sahnenin geometrisini ve görünümünü kodlamak için kullanır.

Ancak ışık alanlarını yeniden yapılandırmak için, sinir ağının önce ışık alanlarının yapıları hakkında bilgi sahibi olması gerekiyor, bu nedenle araştırmacılar modellerini basit araba ve sandalye sahnelerinin birçok görüntüsüyle eğitti.

“Modelimizin öğrenmeye çalıştığı şey, ışık alanlarının içsel bir geometrisi var. Arabaların ve sandalyelerin hafif alanlarının çok farklı olduğundan, aralarındaki bazı ortak noktaları öğrenemeyeceğinizden endişe duyabilirsiniz. Ancak, daha fazla türde nesne eklerseniz, biraz homojenlik olduğu sürece, genel nesnelerin hafif alanlarının nasıl göründüğüne dair daha iyi ve daha iyi bir fikir edinirsiniz, böylece sınıflar hakkında genelleme yapabilirsiniz, ”diyor Rezchikov.

Model bir ışık alanının yapısını öğrendiğinde, girdi olarak yalnızca bir görüntüden bir 3D sahne oluşturabilir.

Hızlı oluşturma

Araştırmacılar, birkaç basit sahnenin 360 derecelik ışık alanlarını yeniden oluşturarak modellerini test ettiler. LFN’lerin sahneleri saniyede 500 kareden fazla, diğer yöntemlerden yaklaşık üç büyüklük sırası daha hızlı oluşturabildiğini buldular. Ek olarak, LFN’ler tarafından oluşturulan 3B nesneler genellikle diğer modeller tarafından oluşturulanlardan daha netti.

Bir LFN, popüler bir temel yöntem için 146 megabaytın aksine, yalnızca yaklaşık 1,6 megabayt depolama gerektiren daha az bellek yoğundur.

“Işık alanları daha önce önerildi, ancak o zamanlar zorluydu. Şimdi, bu yazıda kullandığımız bu tekniklerle, ilk defa hem bu ışık alanlarını temsil edebilir hem de bu ışık alanlarıyla çalışabilirsiniz. Bu, sahneleri temsil eden bu uygulamada bir araya gelerek geliştirdiğimiz matematiksel modellerin ve sinir ağı modellerinin ilginç bir yakınsamasıdır, böylece makineler onlar hakkında akıl yürütebilir, ”diyor Sitzmann.

Gelecekte, araştırmacılar, karmaşık, gerçek dünya sahneleri için etkin bir şekilde kullanılabilecek şekilde modellerini daha sağlam hale getirmek istiyorlar. Sitzmann, LFN’leri ileriye götürmenin bir yolunun, yalnızca modelin daha hızlı çalışmasını ve gerçek dünya ortamlarında daha iyi performans göstermesini sağlayabilecek olan ışık alanının belirli parçalarını yeniden oluşturmaya odaklanmak olduğunu söylüyor.

“Sinirsel işleme, son zamanlarda, yalnızca seyrek bir girdi görünümü kümesinden görüntülerin fotogerçekçi bir şekilde oluşturulmasını ve düzenlenmesini mümkün kıldı. Ne yazık ki, mevcut tüm teknikler hesaplama açısından çok pahalıdır ve video konferans gibi gerçek zamanlı işleme gerektiren uygulamaları engeller. Bu proje, hesaplama açısından verimli ve matematiksel olarak zarif yeni nesil sinirsel işleme algoritmalarına doğru büyük bir adım atıyor” diyor, Stanford Üniversitesi’nde bu araştırmaya dahil olmayan elektrik mühendisliği doçenti Gordon Wetzstein. “Bilgisayar grafikleri, bilgisayar görüşü ve ötesinde yaygın uygulamalara sahip olacağını tahmin ediyorum.”

Referans: Vincent Sitzmann, Semon Rezchikov, William T. Freeman, Joshua B. Tenenbaum ve Fredo Durand, “Işık Alanı Ağları: Tekli Değerlendirme Oluşturma ile Sinirsel Sahne Temsilleri”, 4 Haziran 2021, Bilgisayar Bilimi > Bilgisayarla Görme ve Örüntü Tanıma.
arXiv:2106.02634

Bu çalışma Ulusal Bilim Vakfı, Deniz Araştırmaları Ofisi, Mitsubishi, Savunma İleri Araştırma Projeleri Ajansı ve Singapur Savunma Bilim ve Teknoloji Ajansı tarafından desteklenmektedir.





#Çığır #Açan #Yapay #Zeka #Tekniği #Sahnelerin #Görüntülerden #Olarak #Gerçek #Zamanlı #Oluşturulmasını #Sağlar