Daha gelişmiş yapay zekalar oluşturmaya yönelik baskın yaklaşım, basitçe bilgi işlem güçlerini artırmaktır, ancak AI firması DeepMind, azalan bir getiri noktasına ulaştığımızı söylüyor.

teknoloji


8 Aralık 2021

Sunucu odası

Büyük yapay zekaları eğitmek çok fazla bilgi işlem gücü gerektirir

sefa özel/Getty Images

DeepMind, makinelere insan dilini gerçekçi bir şekilde taklit etmeyi öğretmenin, bu alandaki baskın strateji olmasına rağmen, soruna artan miktarda bilgi işlem gücü atmaktan daha karmaşık olduğunu söylüyor.

Son yıllarda, yapay zeka (AI) oluşturma konusundaki ilerlemelerin çoğu, boyutlarını büyütmekten ve onları mevcut en büyük bilgisayarda her zamankinden daha fazla veriyle eğitmekten geldi. Ancak bu, AI’ları pahalı, hantal ve kaynaklara aç yapar. Microsoft ve Nvidia tarafından oluşturulan yeni bir sistem, milyonlarca dolarlık bir maliyetle eğitmek için bir aydan fazla süper bilgisayar erişimi ve neredeyse 4500 yüksek güçlü grafik kartı gerektiriyordu.

Alternatifleri bulmak amacıyla, AI firması DeepMind, bir insanın bir arama motorunu kullanmasına benzer şekilde, geniş bir veritabanında bilgi arayabilen bir model yarattı. Bu, eğitim sırasında tüm bilgilerinin pişirilmesi ihtiyacını ortadan kaldırır. Şirketteki araştırmacılar, bu stratejinin çok daha az karmaşık olmakla birlikte son teknoloji araçlara rakip olan modeller yaratabileceğini iddia ediyor.

ABD firması OpenAI tarafından geliştirilen ve akıcı metin akışları oluşturma yeteneğiyle araştırmacıları şaşırtan bir model olan GPT-3’ün piyasaya sürülmesiyle geçen yıl Dil AI’ları büyük bir sıçrama yaptı. O zamandan beri modeller daha da büyüdü: GPT-3, sinir ağı için 175 milyar parametre kullanırken, Microsoft ve Nvidia’nın son modeli Megatron-Turing Natural Language Generation, 530 milyar parametreye sahip.

Ancak ölçeklendirmenin sınırları var – Megatron, parametrelerdeki büyük artışına rağmen performans kriterlerini GPT-3’ten yalnızca biraz daha yükseğe çıkarmayı başardı. Cümlelerin son kelimesini tahmin etmek için bir yapay zekanın gerekli olduğu bir kıyaslamada, GPT-3 yüzde 86,4’e varan bir doğruluğa sahipken, Megatron yüzde 87,2’ye ulaştı.

DeepMind’deki araştırmacılar, başlangıçta, 44 milyon parametreden 280 milyara kadar değişen altı dil modeli oluşturarak ölçeğin benzer sistemler üzerindeki etkilerini araştırdı. Daha sonra yeteneklerini 152 farklı görevden oluşan bir grup üzerinde değerlendirdi ve ölçeğin gelişmiş yeteneklere yol açtığını keşfetti. En büyük model, testlerin yaklaşık yüzde 82’sinde GPT-3’ü geçti. Ortak bir karşılaştırmalı okuma anlama testinde, GPT-3’ün 46.8’inden ve Megatron’un 47.9’undan daha yüksek olan 71.6 puan aldı.

Ancak DeepMind ekibi, bazı alanlarda ölçekten önemli kazanımlar elde edilirken, mantıksal ve matematiksel akıl yürütme gibi diğerlerinin çok daha az fayda gördüğünü buldu. Şirket, karmaşık mantıksal ifadeleri anlayabilen gerçekçi bir dil modeli oluşturma hedefine ulaşmanın tek başına ölçeğin tek başına olmadığını söylüyor ve bilgileri ezberlemek yerine araştıran Alma-Geliştirilmiş Transformer (RETRO) adlı bir model yayınladı. .

RETRO, GPT-3’ten 25 kat daha az olan 7 milyar parametreye sahiptir, ancak yaklaşık 2 trilyon bilgiden oluşan harici bir veritabanına erişebilir. DeepMind, daha küçük modelin eğitilmesi için daha az zaman, enerji ve bilgi işlem gücü gerektirdiğini, ancak yine de GPT-3’ün performansına rakip olabileceğini iddia ediyor.

Benzer sayıda parametreye sahip, ancak bilgi arama yeteneği olmayan standart bir dil modeline karşı yapılan bir testte, RETRO, doğal dil sorularını doğru yanıtlama konusundaki bir kıyaslama testinde 45,5 puan alırken, kontrol modeli yalnızca 30,4 puan aldı.

“Geniş bir bilgi tabanından bir şeylere anında bakabilmek, her şeyi ezberlemek yerine genellikle yararlı olabilir” diyor. Jack Rae DeepMind’da. “Amaç sadece insan davranışını internette görebileceklerinden taklit etmeye çalışmaktır.”

Bu yaklaşımın başka faydaları da vardır. AI modelleri tipik olarak iç işleyişi bir gizem olan kara kutular olsa da, RETRO’nun hangi harici veri parçalarına atıfta bulunduğunu görmek mümkündür. Bu, alıntı yapılmasına ve belirli sonuçlara nasıl ulaştığına dair bazı temel açıklamalara izin verebilir.

Ayrıca, dış verilere basitçe ekleyerek modelin daha kolay güncellenmesini sağlar; örneğin, 2020’de eğitilmiş geleneksel bir model, Wimbledon’ı kimin kazandığına dair bir soruya “Simona Halep” diyerek yanıt verebilir, ancak RETRO yeni belgeleri araştırabilir ve “Ahleigh Barty”nin daha çağdaş bir yanıt olduğunu bilebilir.

New York Üniversitesi’nden Samuel Bowman, RETRO’nun arkasındaki fikirlerin mutlaka yeni olmadığını, ancak DeepMind’in AI alanındaki etkisi nedeniyle önemli olduğunu söylüyor. “Modelleri mevcut ölçeklerde nasıl güvenli ve verimli bir şekilde yöneteceğimiz konusunda hâlâ bilmediğimiz çok şey var ve bu, bazılarında kolaylaşsa da, ölçekle birçok yönden daha da zorlaşacak.”

Bir endişe, büyük ölçekli yapay zekanın yüksek maliyetinin onu büyük şirketlerin korumasına bırakabilmesidir. Bowman, “Silah yarışı dinamiğini güçlendirebileceğinden, burada sınırları zorlamaya çalışmamaları düşünceli görünüyor” diyor.

Bu konular hakkında daha fazlası:





#DeepMind #deneyi #AInın #sadece #daha #büyük #değil #daha #akıllı #büyümesi #gerektiğini #gösteriyor