Meta Voicebox’ı tanıttı: Konuşma İçin Üretken Bir Yapay Zeka Modeli!

Meta’nın yeni bir yapay zeka modeli daha var ve bu model, eğer ütopik gelecek deepfake’ler ve değiştirilmiş seslerden başka bir şeyle dolu değilse, yarının ülkesi için mükemmel bir şekilde tasarlanmış görünüyor. Yapay zeka görüntü oluşturucuları gibi, Voicebox da sıfırdan basit bir metin komutuna dayalı sentetik sesler üretiyor ya da gerçekte binlerce sesli kitaptan ses üretiyor.

16 Haziran Cuma günü Meta, basit metin komutlarını kullanarak ses klipleri oluşturabilen yeni Voicebox yapay zekasını duyurdu. CEO Mark Zuckerberg, Facebook ve Instagram’da paylaştığı bir videoda, Voicebox AI modelinin bir metin istemini alabileceğini ve bunu biraz dijital olsa da çeşitli insan sesleriyle okuyabileceğini söyledi. Bunun dışında Voicebox, arka planda havlayan bir köpek gibi istenmeyen sesleri ses kliplerinden çıkarmak için sesi de değiştirebiliyor. Diğer birçok yapay zeka ses sentezleme modelinin aksine, Meta’nın yapay zekası Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce dahil olmak üzere İngilizce dışındaki dillerde ses oluşturabilir ve şirket, yapay zekanın aynı ses stilini korurken herhangi bir pasajı bir dilden diğerine etkili bir şekilde çevirebileceğini söyledi.

Meta’ya göre Voicebox, iki saniye kadar kısa bir ses örneği alabiliyor ve ardından bu ses stilini metinden konuşmaya üretim için eşleştirebiliyor. Eğer bu doğruysa, Speechify ya da ElevenLabs gibi kaliteli bir sentetik ses üretmeden önce normalde biraz daha fazla veri gerektiren diğer sentezleme modellerinden daha sofistike.

Meta’nın tanıtım klibinde, modifiye edilen seslerden biri esrarengiz bir şekilde Zuckerberg’in kendisine benziyor. Modelin gerçekten ne kadar yetenekli olduğuna bağlı olarak, Zuck’ı duymak, Meta CEO’sundan sonra modellenen bazı deepfake’leri akla getiriyor.

Şirketin son zamanlarda piyasaya sürdüğü diğer pek çok yapay zeka programının aksine Voicebox ilk çıkışında açık kaynak kodlu olmayacak; bu da Meta’nın son yapay zeka programını potansiyel zararlar nedeniyle kısıtlıyor olabileceğini akla getiriyor. İnternetteki bazı kişiler benzer programları medyadaki favori karakterlerinin sentezlenmiş ses kliplerini eğlence amaçlı oluşturmak için kullanırken, diğerleri bunları seslendirme sanatçılarına karşı taciz kampanyalarında kullandı. Dolayısıyla, zararları önlemeye çalışıyor olabilir ya da bu potansiyel olarak kazançlı modeli gelecekteki bir girişim için saklıyor olabilir.

Voicebox araştırma makalesine göre, sistem İngilizce sesli kitaplardan 50.000 saatten fazla filtrelenmemiş, geliştirilmemiş konuşma ve çok dilli sesli kitaplardan 60.000 saat daha dinleme üzerinde eğitildi. Bu nedenle Meta’nın videosunda, sentetik konuşma daha az konuşkan ve daha çok bir çocuğa masal okuyan biri gibi geliyor. Araştırmacılar sonunda modeli daha gündelik konuşmaları da içerecek şekilde ölçeklendireceklerini söylediler.

Model, kullanıcıların yapay zekanın ne tür bir ses taklit ettiğini ve farklı bir konuşma örneğinin duygusallığını bağımsız olarak kontrol edememesi nedeniyle de sınırlıdır.

Ancak en endişe verici olan şey, Meta’nın son makalesinde odadaki fili ele almıyor gibi görünmesidir. Araştırmacılar, yapay zekayı eğitmek için hangi sesli kitapların kullanıldığını ve bunların nereden geldiğini söylemedi. On binlerce saatlik sesli kitabın binlerce sesli kitaba eşdeğer olup olmadığı belli değil.

Gizmodo, eğitim verilerinde hangi sesli kitapların kullanıldığı hakkında daha fazla bilgi almak için Meta’ya ulaştı. Bir Meta sözcüsü bunların “kamu malı” sesli kitaplar olduğunu söyledi, ancak şirket bu kitapları nereden indirdiğini açıklamayı reddetti.

Seslendirme sanatçıları özellikle yapay zekanın yaygınlaşmasından memnun değiller ve özellikle şirketlerin seslerini tazminat ödemeden sentezlemesine izin veren sözleşmelerden endişe duyuyorlar. Apple, yapay zeka tarafından üretilen seslerle anlatılan bir dizi kitabı sessizce piyasaya sürdüğü için zaten tepki çekmişti. Teknoloji devinin, bu yeni yapay zeka anlatımlı hikayeleri oluşturmak için birkaç büyük sesli kitap yayıncısına başvurduğu bildirildi.

Sesli kitap pazarının gelirinin her yıl çift haneli rakamlarla büyüdüğü ve yaratıcı endüstrilerin işgücü maliyetlerini düşürmek için nasıl can attığı düşünüldüğünde, bu son model ses profesyonelleri için bir başka baş ağrısı olabilir.

İlgili haberler

NVIDIA, RTX 5060 VE 5060 Ti Ne Zaman Tanıtılacak?

iPhone’larda Arayan İşletmelerin Logoları Görünecek: Yeni Özellik!

Lenovo, Yeni Akıllı Ev Asistanı AI Buddy’yi Duyurdu