erkekler

Kredi: CC0 Kamu Malı

“Eksik kelimeyi girin: ____’me kapıyı kapattım.” Birçoğunun okul günlerinden hatırladığı bir egzersiz. Bazı toplumsal gruplar alanı “tatil evi” kelimesiyle doldururken, diğerlerinin “yurt odası” veya “garaj” eklemesi daha olası olabilir. Kelime seçimimiz büyük ölçüde yaşımıza, hangi ülkede olduğumuza ve sosyal ve kültürel geçmişimize bağlıdır.

Ancak günlük hayatımızda arama motorlarını kullanırken, makine çevirisi yaparken, chatbotlarla etkileşim kurarken ve Siri’yi yönetirken kullandığımız dil modelleri bazı grupların dilini diğerlerinden daha iyi konuşuyor. Bu, dil modellerinin bazı demografik grupların dilsel tercihlerini diğerlerine göre tercih edip etmediğini ilk kez inceleyen Kopenhag Üniversitesi Bilgisayar Bilimleri Bölümü’nden yapılan bir araştırmayla kanıtlanmıştır – jargonda sosyolektal önyargılar olarak adlandırılır. Cevap? Evet.

“Dil modelleri arasında, sistematik önyargı gözlemleyebiliyoruz. 40 yaşın altındaki daha kısa eğitimli beyaz erkekler, dil modellerinin en iyi uyum sağladığı grup iken, en kötü uyum, genç, beyaz olmayan erkekler tarafından kullanılan dil ile.” UCPH Bilgisayar Bilimleri Bölümü’nde profesör ve çalışmanın baş yazarı Anders Søgaard diyor.

Sorun ne?

Analiz, modellerin tahminlerinin onda birinin genç beyaz erkeklere kıyasla beyaz olmayan genç erkekler için önemli ölçüde daha kötü olduğunu gösteriyor. Søgaard için bu bir sorun teşkil etmeye yeter:

“Herhangi bir farklılık sorunludur çünkü farklılıklar geniş bir teknoloji yelpazesine sızar. Dil modelleri günlük hayatımızda önemli amaçlar için kullanılır – çevrimiçi bilgi aramak gibi. dil, modellerin eğitildiği dille uyumludur, bu, başkalarının kullanımına açık olan bilgilerin sizin için mevcut olmayabileceği anlamına gelir.”

Profesör Søgaard, modellerdeki hafif bir yanlılığın bile kesinliğin önemli olduğu bağlamlarda daha ciddi sonuçlara yol açabileceğini ekliyor:

“Dil modellerinin vakaları gruplandırmak ve müşteri risk değerlendirmeleri yapmak için kullanıldığı sigorta sektöründe olabilir. Ayrıca, modellerin bazen emsal yerine benzer vakaları bulmak için kullanıldığı kamuya açık vaka çalışmaları gibi yasal bağlamlarda da olabilir. Bu koşullar altında, küçük bir fark belirleyici olabilir” diyor.

Çoğu veri sosyal medyadan geliyor

Dil modelleri, belirli bağlamlarda kelimelerin ortaya çıkma olasılığını modellere öğretmek için çok büyük miktarda metin besleyerek eğitilir. Yukarıdaki okul alıştırmasında olduğu gibi, modeller bir dizideki eksik kelimeleri tahmin etmelidir. Metinler, çoğu sosyal medyadan ve Wikipedia’dan indirilen çevrimiçi olarak mevcut olanlardan gelmektedir.

“Ancak, web’de bulunan veriler bizi teknoloji kullanıcıları olarak temsil etmiyor. Wikipedia, içeriğinin öncelikle genç beyaz adamlar tarafından yazılması bakımından iyi bir örnek. Bu, modellerin öğrendiği dilin türü açısından önemlidir, “diyor Sogaard.

Araştırmacılar, genç beyaz erkeklerin sosyolektal özelliklerinin neden dil modelleri tarafından en iyi şekilde temsil edildiği konusunda belirsizliğini koruyor. Ancak eğitimli bir tahminleri var:

“Bu, genç beyaz erkeklerin modellerin eğitildiği verilere en çok katkıda bulunan grup olduğu gerçeğiyle bağlantılı. Verilerin büyük bir çoğunluğu sosyal medyadan geliyor. Ve diğer çalışmalardan biliyoruz ki en çok katkıyı bu demografi yapıyor. bu tür açık, halka açık forumlarda yazılı olarak” diye açıklıyor Anders Søgaard.

Hiçbir şey yapmazsak, sorun büyüyecek

Profesör Søgaard, sorunun dijital gelişmelerle birlikte büyüdüğünü söylüyor:

“Bilgisayarlar daha verimli hale geldikçe, daha fazla veri mevcut hale geldikçe, dil modelleri büyüme ve daha fazla veri üzerinde eğitilme eğilimindedir. Şu anda kullanılan en yaygın dil türü için, öyle görünüyor ki – nedenini bilmeden – modeller ne kadar büyükse, daha fazla önyargıları var. Dolayısıyla, bir şeyler yapılmazsa, belirli sosyal gruplar arasındaki uçurum genişleyecek.”

Neyse ki, sorunu düzeltmek için bir şeyler yapılabilir:

“Eğer çarpıklığın üstesinden geleceksek, daha fazla veriye sahip besleme makineleri yeterli olmayacaktır. Bunun yerine, açık bir çözüm modelleri daha iyi eğitmektir. Bu, algoritmaları değiştirerek yapılabilir, böylece tüm verileri eşit derecede önemli olarak ele almak yerine, daha dengeli bir nüfus ortalamasından elde edilen verilere özellikle dikkat ediyorlar,” diye sözlerini bitiriyor Anders Søgaard.

“Önceden Eğitilmiş Dil Modellerinin Sosyolektal Analizi” araştırma makalesi, Doğal Dil İşleme (EMNLP) 2021’de Ampirik Yöntemler Konferansı’nda yer almaktadır.


Yeni AI, doğal dil işlemenin gücünü Afrika dillerine getiriyor


Daha fazla bilgi:
Makale: aclanthology.org/2021.emnlp-main.375/

Kopenhag Üniversitesi tarafından sağlanan

Alıntı: Yapay zeka, 40 yaşın altındaki beyaz erkekleri tercih ediyor (2021, 18 Kasım) 19 Kasım 2021’de https://techxplore.com/news/2021-11-artificial-intelligence-favors-white-men.html adresinden alındı.

Bu belge telif haklarına tabidir. Özel çalışma veya araştırma amaçlı herhangi bir adil işlem dışında, yazılı izin alınmadan hiçbir bölüm çoğaltılamaz. İçerik yalnızca bilgi amaçlı sağlanmıştır.





#Yapay #zeka #yaşın #altındaki #beyaz #erkekleri #destekliyor