Amazon, insan konuşmasına yakın AI ses modeli Nova Sonic'i geliştirdi

HANDE BERKTAN

Amazon, doğal konuşmaları anlayıp hızla yazıya dökebilen ve insan konuşmasına yüksek kalitede benzer konuşma yetenekleri gösteren ve OpenAI’nin GPT 4.0 modelinden yaklaşık yüzde 80 daha ucuz olduğunu belirttiği yeni yapay zekâ ses modeli Nova Sonic’i tanıttı.

Teknoloji devi, Nova Sonic’in performansının hız, konuşma tanıma ve konuşma kalitesini ölçen kıyaslamalarda OpenAI ve Google’ın öncü ses modelleriyle rekabet ettiğini belirtiyor. Nova Sonic, ortalama yanıt süresi 1,09 saniye ile Amazon’un önceki sesli yapay zekalarına göre çok daha hızlı yanıt verebiliyor.

Nova Sonic , farklı aksanlardaki konuşmaları tanıma ve kalabalık ortamlarda birden fazla konuşmacıyı ayırt etme testlerini başarıyla tamamladı. Şirket, bu modelin kullanıcı komutu olmadan internetten bilgi arayabildiğini, veri tabanlarını tarayabildiğini ve gerekli durumlarda harici uygulamaları kendi başına açabildiğini ifade etti.

“Amazon’un yeni yapay zeka ses modeli, insan konuşmasına yüksek kalitede benzer konuşma yetenekleri gösteriyor”

Amazon Yapay Genel Zeka Kıdemli Başkan Yardımcısı Rohit Prasad, Amazon’un ses destekli teknoloji aracılığıyla müşteri deneyimlerini iyileştirme taahhüdünü vurguladı. Prasad “Nova Sonic, birden fazla işlevi tek bir modelde birleştirerek, daha doğru, doğal ve ilgi çekici müşteri etkileşimleri sağlıyor. Nova Sonic kapsamlı testlerden geçmiş ve yüksek kaliteli, insana benzer konuşma yetenekleri göstermiştir. Doğal diyalog işleme ve konuşma tanıma doğruluğunda güçlü performans sergilemiştir.” açıklamasını yaptı.

Nova Sonic, diğer AI ses modellerine kıyasla konuşma tanıma hatalarına daha az eğilimli, bu da modelin, mırıldansalar, yanlış konuşsalar veya gürültülü bir ortamda olsalar bile bir kullanıcının niyetini anlamada nispeten iyi olduğu anlamına gelir. Amazon, Multilingual LibriSpeech adlı diller ve lehçeler arasında konuşma tanımayı ölçen bir kıyaslamada Nova Sonic’in İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolcada ortalama alındığında yalnızca yüzde 4,2’lik bir kelime hata oranına (WER) ulaştığını söylüyor. Bu, modeldeki her 100 kelimeden yaklaşık dördünün bu dillerdeki insan transkripsiyonundan farklı olduğu anlamına geliyor.

Amazon, sesin ötesine geçerek görüntü ve fiziksel dünyadan alınan verileri işleyebilen daha gelişmiş yapay zeka modelleri üzerinde çalışmalar yürüttüğünü de açıkladı.