ChatGPT, sohbet robotunun sesli komutlar ve görüntü tabanlı sorgularla başa çıkmasını sağlayacak bazı önemli güncellemeler alıyor. Kullanıcılar Android ve iOS’ta ChatGPT ile sesli görüşme yapabilecek ve tüm platformlarda görüntüleri ChatGPT’ye aktarabilecekler. OpenAI bu özellikleri kullanıma sunmaya başladı. Bu özellikler ilk etapta Plus ve Enterprise kullanıcıları tarafından kullanılabilecek, diğer kullanıcılar ise görüntü tabanlı özelliklere daha sonra erişebilecek.
OpenAI, ileri geri sesli konuşmaların “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebilen yeni bir metinden sese modeli tarafından desteklendiğini söylüyor. Şirket beş sesi profesyonel aktörlerin yardımıyla yarattı. Diğer taraftan, şirketin Whisper konuşma tanıma sistemi kullanıcının konuştuğu kelimeleri metne dönüştürüyor.
Görüntü tabanlı işlevler de ilgi çekici. OpenAI, örneğin sohbet robotuna ızgaranızın bir fotoğrafını gösterebileceğinizi ve neden çalışmadığını sorabileceğinizi, buzdolabınızdakilerin bir fotoğrafına dayanarak bir yemek planlamasına yardımcı olmasını sağlayabileceğinizi veya fotoğrafını çektiğiniz bir matematik problemini çözmesini isteyebileceğinizi söylüyor. Microsoft, geçen hafta Surface etkinliği sırasında Copilot yapay zekasının Windows’ta matematik problemlerini çözme yeteneğini vurguladı.
OpenAI, görüntü tanıma özelliklerini güçlendirmek için GPT-3.5 ve GPT-4 kullanıyor. ChatGPT’nin görüntü tabanlı işlevlerini kullanmak için fotoğraf düğmesine dokunarak bir fotoğraf çekin veya cihazınızdaki mevcut bir görüntüyü seçin. ChatGPT’ye birden fazla fotoğraf hakkında soru sorabilir ve görüntünün belirli bir kısmına odaklanmak için bir çizim aracı kullanabileceksiniz.
Görüntüler konusunda ise OpenAI, görme engelli ve az gören kişilerin, kendileriyle görüntülü görüşme yapan gönüllüler sayesinde çevrelerini daha iyi anlamalarına yardımcı olmak için kullanabilecekleri ücretsiz bir uygulama olan Be My Eyes ile çalıştı. Şirket ayrıca, ChatGPT’nin görüntülerde görünen kişiler hakkında nasıl analiz yapabileceğini ve doğrudan ifadelerde bulunabileceğini de sınırladığını belirtti, “çünkü ChatGPT her zaman doğru değildir ve bu sistemler bireylerin mahremiyetine saygı duymalıdır.” GPT-4 with vision adını verdiği görüntü tabanlı işlevselliğin güvenlik özellikleri üzerine bir makale yayınladı.
ChatGPT, görüntülerdeki İngilizce metinleri anlamada diğer dillere göre daha etkili. OpenAI, sohbet robotunun şimdilik diğer dillerde, özellikle de Romence olmayan alfabelerin kullanıldığı dillerde “kötü performans gösterdiğini” söylüyor. Bu nedenle, İngilizce bilmeyen kullanıcıların şimdilik görsellerdeki metinlerle başa çıkmak için ChatGPT’yi kullanmaktan kaçınmalarını öneriyor.