Microsoft, yeni nesil yapay zeka deneyimlerini mümkün kılmak için yüksek bir hırsla Ölçekli Yapay Zeka arayışında. Microsoft Translator ZCode ekibi, bu girişimin merkezinde dil ve çok dilli desteği geliştirmek için Microsoft Project Turing ve Microsoft Research Asia ile birlikte çalışıyor. Microsoft genelinde çeşitli dil senaryolarını desteklemek için Çok Dilli modellerle sınırları zorlamaya devam ediyoruz. Geçen yaz, bireysel büyük ölçekli iki dilli modellerden daha iyi performans gösterebilen DeepSpeed ​​ile büyük ölçekli Çok Dilli Uzman Karışımı modelimizi duyurduk. Son zamanlarda, Microsoft tarafından oluşturulan bir model olan en son Turing evrensel dil temsil modeli (T-ULRv5) bir kez daha son teknoloji ürünü ve o zamanlar Google XTREME genel lider panosunun en üstünde yer alıyor. Daha yakın zamanda Microsoft, en büyük Megatron-Turing NLG 530B parametre modelini duyurdu.

Yıllık Makine Çevirisi Konferansı (aka WMT 2021) geçen hafta Dominik Cumhuriyeti’nin güzel Punta Cana kentinde sona erdi. WMT, hem endüstri hem de akademi olmak üzere tüm Makine Çevirisi alanından araştırmacıları bir araya getirerek, her biri makine çevirisinin önemli bir alanında bir ölçüt tanımlayan ve alanı yeni sınırlara iten bir dizi paylaşılan göreve katılır.

Turing ekibi ve Microsoft Research Asia ile birlikte çalışan Microsoft Translator ZCode ekibi, 101 dilde 10.000 yönün tamamı arasında çeviri yapmak için Tam Görev ve iki Küçük görevden oluşan “Büyük Ölçekli Çok Dilde Çeviri” parkurunda yarıştı: Bir 5 orta ve güney Avrupa diline ve bir tanesi 5 güneydoğu Asya diline odaklanmıştır. Microsoft ZCode-DeltaLM modeli, 10.000 dil çiftinde değerlendirilen büyük görevde M2M100 modeline göre 10+ puanlık inanılmaz bir kazanç da dahil olmak üzere üç görevi de büyük farklarla kazandı. (WMT 2021 Büyük Ölçekli Çok Dilli Makine Çevirisine İlişkin Paylaşılan Görevin Bulguları, Wenzek ve diğerleri, WMT 2021).

Şekil 1: WMT 2021 Büyük Ölçekli Çok Dilli Çeviri paylaşılan görevinde Tam Görev ve Küçük Görev1 ile ilgili Resmi Sonuçlar (BLEU puanları)

ZCode-DeltaLM yaklaşımı

Bu blog yazısında, kazanan Microsoft ZCode-DeltaLM modeline bir göz atalım. Başlangıç ​​noktamız DeltaLM (DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders), Microsoft’un giderek daha güçlü, çok dilli önceden eğitilmiş dil modellerinin en sonuncusuydu.


DeltaLM bir kodlayıcı-kod çözücü modelidir, ancak sıfırdan eğitim yerine, daha önce önceden eğitilmiş son teknoloji yalnızca kodlayıcı modelinden, özellikle (TULRv3) başlatılır. Kodlayıcıyı başlatmak basit olsa da kod çözücü, kodlayıcının kendi kendine dikkatine çapraz dikkat eklediğinden daha azdır. DeltaLM bu sorunu, öz-dikkat ve çapraz-dikkatin katmanlar arasında değiştiği, tek katmanlarda kullanılan öz-dikkat ve çift katmanlarda kullanılan çapraz-dikkat ile yeni bir serpiştirilmiş mimari ile çözmektedir. Bu serpiştirme ile kod çözücü yapısı kodlayıcı ile eşleşir ve böylece aynı şekilde TULRv3’ten de başlatılabilir.

DeltaLM, ZCode’un güçlü çoklu görev öğrenimi ile güçlendirilmiştir: Çok Dilde Sinirsel Makine Çevirisi için Çok Görevli Öğrenme. Modellerimiz, çoklu görev ve çok dilli öğrenmeyi birleştirmenin, büyük ölçekli önceden eğitilmiş dil modelleri için eğitimi önemli ölçüde iyileştirebileceğini göstermektedir. Bu tür çok görevli çok dilli öğrenme paradigması, çeşitli alt görevlerde daha iyi performans göstermek için aynı anda birkaç görev ve dilden endüktif önyargı ve düzenlemeden yararlanıyor. Aşağıdaki şekilde gösterildiği gibi çeviri görevi, otomatik kodlayıcı görevi ve çeviri yayılma bozulması görevini kullanıyoruz.

Çok dilli çeviri yolunu kazanmak

Kazanan çok dilli çeviri sistemimizi (WMT21 Paylaşılan Görev için Microsoft’tan Çok Dilli Makine Çevirisi Sistemleri) oluşturmak için zCode-DeltaLM ile başladık ve birkaç numara ekledik.

Aşamalı öğrenmeyi uygularız, önce 24 kodlayıcı katmanı ve 12 kod çözücü katmanı olan bir modeli eğitiriz, ardından 12 eklenen kodlayıcı katmanıyla eğitime devam ederiz ve sonuçta 36 katmanlı derin kodlayıcı elde ederiz. Tüm dil çiftlerini kapsamak için, paralel verilerin her iki tarafının da sentetik olduğu, model tarafından İngilizce’den çevrilmiş ikili sözde paralel veriler üretiyoruz. Sentetik veriler oluşturmak için yinelemeli geri çeviri de uygularız. Müfredat öğrenimini, tüm gürültülü eğitim verileriyle başlayıp ardından onu temiz bir alt kümeye indirgeyerek uygularız. Geri çeviri ve çift sahte paralel veriler üzerinde paralel verileri tercih etmek için çeviri hedefini yeniden ağırlıklandırıyoruz. Dil çiftlerini dengelemek için sıcaklık örneklemesi uyguluyoruz. Her dil çifti için, geliştirme setine bağlı olarak, doğrudan çeviriyi mi yoksa İngilizce üzerinden özet çeviriyi mi tercih edeceğimizi seçiyoruz.

Hepsini bir araya getirdiğimizde, inanılmaz derecede çok dilli bir sistemimiz olduğunu biliyorduk, ancak kör test setindeki resmi sonuçlar beklentilerimizi aştı. Bir sonraki rakibin 2,5 ila 9 BLEU önünde ve temel M2M-175 modelinin önünde 10 ila 21 BLEU puanı aldık. Geliştirme testinde, 10 ila 18 puan arasında yendiğimiz daha büyük M2M-615 modeliyle karşılaştırdık.

Çeviri Ötesi: Evrensel Dil Üretimi

WMT 2021’deki büyük galibiyetten heyecan duysak da, daha da heyecan verici olan şey, diğer rakiplerin aksine, ZCode-DeltaLM modelimizin sadece bir çeviri modeli değil, daha ziyade genel olarak önceden eğitilmiş bir kodlayıcı-kod çözücü dil modeli olması ve her türlü kullanılabilir çevirinin ötesinde üretim görevleri. Bu, modellerimizin çeşitli çok dilli doğal dil oluşturma görevlerinde oldukça iyi performans göstermesini gerçekten sağlar.

Wikilingua (özetleme), Metin basitleştirme (WikiAuto) ve yapıdan metne (WebNLG) dahil olmak üzere GEM Benchmark’tan birçok popüler nesil görevde yeni bir SOTA’ya ulaştık. DeltaLM-ZCode modeli, aynı zamanda çok daha büyük veriler üzerinde eğitilmiş olan mT5 XL (3.7B) gibi çok daha büyük modellerden geniş ölçüde daha iyi performans gösterir. Bu, birçok görevde güçlü performansa yol açan modellerin verimliliğini ve çok yönlülüğünü gösterdi.

Şekil 2. GEM karşılaştırmasında Özetleme ve Metin Basitleştirme görevlerinde ZCode-DeltaLM’nin performansı (RL puanları)

İleriye bakmak

Çok Dilli Makine Çevirisi, hem düşük hem de yüksek kaynak dillerinde iki dilli sistemleri aşarak çok iyi performans gösterdiği bir noktaya ulaştı. Uzmanlar Karışımı (MoE) modellerinin, GShard’da gösterildiği gibi bu tür modelleri büyütmek için çok uygun olduğu gösterilmiştir. Bu tür modellerin Uzmanlar Karması ile nasıl verimli bir şekilde ölçeklendirileceğini araştırıyoruz: Çok Görevli Çok Dilli Modeller için Ölçeklenebilir ve Verimli MoE Eğitimi. Muazzam çok dilli verilere ve denetimsiz çoklu görev eğitimine sahip MoE modelleri, Microsoft Translator ekibinin dünya çapındaki dil engellerini ortadan kaldırmasının yanı sıra çeşitli doğal dil oluşturma görevlerini desteklemesini daha da sağlayabilecek gerçekten evrensel sistemler sağlamak için bu tür modeller için emsalsiz bir fırsat sunar.

Teşekkür

Çok dilli FLORES test setini toplayan ve bu WMT parkurunu böylesine geniş ölçekli bir değerlendirmeyle organize eden Francisco Guzman ve ekibine teşekkürlerimizi ve teşekkürlerimizi sunarız.



#Geniş #ölçekte #çok #dilli #çeviri #dil #çifti #ötesi