Audiobox, Meta'nın Yapay Zeka Destekli Ses Klonlama Aracı

Meta, ses odaklı yapay zeka aracı Audiobox’u tanıtarak yapay zeka alanındaki çalışmalarına bir yenisini ekledi. Facebook AI Research (FAIR) laboratuvarında görev yapan araştırmacılar tarafından geliştirilen Audiobox, Meta’nın önceki çalışması Voicebox’un üzerine inşa edilen yeni bir temel araştırma modeli olarak öne çıkıyor.

Audiobox, ses girdileri ve doğal dil metin istemlerinin kombinasyonunu kullanarak sesler ve ses efektleri üretebiliyor. Bu özellik, özel ses oluşturmayı farklı kullanım durumları için kolaylaştırıyor.

Kullanıcılar, klonlanmış bir sesin belirli bir cümleyi söylemesini veya oluşturmak istedikleri sesin açıklamasını yazarak Audiobox’u kullanabiliyorlar. Geri kalan işlemler Audiobox tarafından otomatik olarak gerçekleştiriliyor. Ayrıca, kullanıcılar kendi seslerini kaydedebilir ve Audiobox tarafından klonlanmasını sağlayabilirler.

Meta, siren sesi veya çocukların oyun sesleri gibi daha fazla ortam sesi ve ses efekti üretmek için bir model ailesi oluşturduğunu belirtiyor. Bu modellerin tamamının, etiketlenmemiş veriler için kendi etiketlerini oluşturan kendi kendini denetleyen bir model olan Audiobox SSL üzerine inşa edildiği ifade ediliyor. SSL, verilerin önceden etiketlenmiş olmadığı durumlarda kullanılan bir derin öğrenme tekniğini temsil eder.

Meta, Audiobox’un interaktif demolarında araştırma amaçlı bir demo olduğunu ve ticari amaçlar için kullanılamayacağını belirtti. Ayrıca, geçtiğimiz hafta tanıtılan yeni Imagine by Meta AI görüntü oluşturma web uygulaması gibi, Audiobox’un da açık kaynak kodlu olmadığını vurgulamıştı.