Meta, Ağustos 2023’te yaklaşık 100 farklı dil anlayabilen ‘her şeyi bir arada’ AI çeviri modelini tanıttı. SeamlessM4T adı verilen bu model, Douglas Adams’ın klasik bilim kurgu serisi Otostopçunun Galaksi Rehberi’nde Babel Fish’e benzeyen bir ‘evrensel çevirmen’ oluşturma çabasıdır. SeamlessM4T aracının arkasındaki ekip şimdi, Nature dergisinde yayımlanan bir yazıda çalışmalarını detaylandırmış ve gelişmiş sistemlerinin metinden metne, konuşmadan metne, konuşmadan konuşmaya ve metinden sese çeviriler için etkileyici ve genişleyen bir dil yelpazesiyle tümü bir arada bir çözüm sunduğunu açıklamıştır.
SeamlessM4T, Facebook ve Instagram’da videoları otomatik olarak dublaj yapmak için kullanılan bir model olmasının yanı sıra şu anda 101’den 36 dile konuşmadan konuşmaya, 101’den 96 dile konuşmadan metne, 96 dile metinden metne ve 96’dan 36 dileyse metinden sese çeviri desteği sunmaktadır. Meta, bu birleşik yaklaşımın geleneksel kademeli sistemlerin sınırlamalarını aşarak ayrı alt sistemler gerektiren konuşma tanıma, çeviri ve metinden sese sentez için ayrı ayrı alt sistemler gerektiren kademeli sistemlerin sınırlamalarını aşarak, SeamlessM4T’nin mevcut modelleri geride bıraktığını ve çeviri doğruluğunda BLEU (Çift Dilli Değerlendirme Çalışması) puanlarında %23’e kadar daha yüksek başarı elde ettiğini ve arka plan gürültüsüne ve konuşmacı değişikliklerine karşı etkileyici dayanıklılık sergilediğini belirtiyor. SeamlessM4T’nin oluşturulması için Meta, kamuya açık bir web veri havuzundan elde edilen yaklaşık 4 milyon saat (400 yıldan fazla) çok dilli ham ses verisinden başladı. Ekip, 470.000 saatten fazla hizalanmış konuşmayı içeren multimodal bir veri kümesi olan SeamlessAlign’i geliştirdi ve bu veri kümesini metin ve konuşma için çok dilli ve modalite bağımsız kodlama sağlayan SONAR (Cümle Düzeyinde Multimodal ve Dil Bağımsız Temsiller) gömme gibi son teknoloji makine öğrenme teknikleriyle birleştirdi. Meta, korumalar aracılığıyla sosyal ve etik zorlukları ele alarak, SeamlessM4T’nin küresel iletişim için değerli bir araç olabileceğini belirtiyor. Bu korumalar, cinsiyet yanlılığını azaltır – dilbilgisel cinsiyet belirleme hataları – ve eklenen toksisite sorununu azaltır – çevirilerde hakaret içeren kelimelerin orijinal kaynakta bulunmaması durumuyla mücadele eder.