Google, Yapay Zeka Videolarını Yapay Zeka ile Seslendirecek

Google’ın yapay zeka araştırma birimi DeepMind, yeni bir yapay zeka aracını duyurdu. Bu araç, yapay zeka tarafından üretilen videolara ses ekleyebiliyor. V2A (videodan sese) adı verilen bu araç, videoları seslendirme görevini üstleniyor. Ancak sonuçlar şu an için mükemmel değil.

DeepMind’ın açıklamasına göre, V2A aracı sesleri oluştururken yazılı açıklamalardan ve videonun piksel piksel analizinden yararlanıyor. Bu yöntem, açıklama yazılmasa bile ses oluşturulmasına imkan tanıyor.

Videoları seslendiren yapay zeka araçlarının önemi büyük. Günümüzde metin ya da görüntülerden video oluşturabilen birçok yapay zeka aracı bulunuyor, ancak bu araçlar genellikle sessiz videolar üretiyor. Video, görsel olduğu kadar işitsel de bir medya türüdür. Örneğin, hızla ilerleyen bir tren videosunda rayların, vagonların ve lokomotifin seslerini duyamadığımızda videonun etkisi azalır.

DeepMind’ın V2A aracı, bu eksikliği gidermeyi hedefliyor. Ancak şu an için geliştirilen seslerin kalitesi mükemmel seviyede değil ve bu teknolojinin tam potansiyeline ulaşması için daha fazla geliştirme yapılması gerekiyor.

V2A’nın yapay zeka tarafından üretilen bir gitar çalma videosunu seslendirdiği örnek

DeepMind, V2A’nın görüntüye uygun ses üretme ve bu sesi otomatik olarak görüntüyle senkronize etme konusunda benzersiz olduğunu iddia ediyor. Ancak, paylaşılan örnekler göz önüne alındığında bu iddiadan etkilenmek zor. V2A, görüntüye uygun ses üretiyor ancak bu sesler daha çok görüntüyle uyumlu stok sesler gibi duruyor.

Aşağıdaki örnekler, V2A’nın videoları seslendirme konusundaki sınırlı yeteneklerini gösterebilir. Ancak, bir zamanlar Dall-E’nin “kanarya çiz” komutuna karşılık tüylü bir sarı top çizdiğini hatırlamakta fayda var. Yapay zeka araçları zamanla ve kullanım arttıkça gelişim gösteriyor.

Etiket: