Ünlü teknoloji devi Nvidia‘nın araştırmacıları doğal, kesintisiz ve gerçek zamanlı sesli etkileşimleri hedefleyen yeni konuşma modeli PersonaPlex-7B-v1’i duyurdu.
Tam çift yönlü yapıda geliştirilen bu model, konuşma sırasında hem dinleyip hem de konuşabilme yeteneğiyle klasik sesli asistan mimarilerinden ayrılıyor. PersonaPlex, özellikle doğal diyalog akışı, hassas persona kontrolü ve düşük gecikme gerektiren kullanım senaryolarında öne çıkıyor.
HER ŞEY TEK MODELDE BİRLEŞTİRİLDİ
Geleneksel sesli asistanlar konuşmayı metne çeviren ASR, yanıtı üreten dil modeli ve sesi tekrar üreten TTS bileşenlerinden oluşan çok aşamalı bir yapı kullanıyor. Bu yaklaşım her aşamada gecikmeye yol açarken aynı anda konuşma, söz kesme veya doğal geri bildirimler gibi insan konuşmasının temel özelliklerini desteklemekte yetersiz kalıyor.
PersonaPlex, bu çok katmanlı zinciri ortadan kaldırarak tek bir Transformer modeli içinde hem konuşmayı anlamayı hem de konuşma üretimini eş zamanlı olarak gerçekleştiriyor. Model, sinirsel bir codec ile kodlanmış sürekli ses akışı üzerinde çalışıyor ve metin ile ses token’larını aynı anda otoregresif biçimde üretiyor. Kullanıcının sesi anlık olarak işlenirken model, kendi konuşmasını da eş zamanlı sürdürebiliyor. Bu sayede söz kesme, üst üste konuşma ve bağlama uygun geri bildirimler mümkün hale geliyor.
PersonaPlex, biri kullanıcı sesini, diğeri ise ajan konuşmasını ve metni izleyen iki paralel akıştan oluşan bir yapı kullanıyor. Her iki akış aynı model durumunu paylaştığı için sistem, konuşurken dinlemeye devam edebiliyor ve kullanıcı araya girdiğinde yanıtını anında uyarlayabiliyor.
7 MİLYAR PARAMETRE ÖZELLİĞİNE SAHİP
PersonaPlex-7B-v1, toplam 7 milyar parametreye sahip ve Moshi ağ mimarisini temel alıyor. Model, hem giriş hem de çıkış tarafında 24 kHz se işleyebiliyor. Dil modeli altyapısında Nvidia’nın Helium modeli yer alıyor. Helium, modelin sadece eğitim senaryolarıyla sınırlı kalmayıp, yeni ve beklenmedik durumlarda da anlamsal tutarlılık göstermesini sağlıyor.
Bununla birlikte PersonaPlex’in eğitimi tek aşamada gerçekleştirildi ve gerçek konuşmalar ile sentetik diyalogların dengeli bir karışımına dayanıyor.
Gerçek veriler, Fisher English Corpus’tan alınan 7.303 telefon görüşmesi, yani yaklaşık 1.217 saatlik konuşmadan oluşuyor. Bu konuşmalar GPT-OSS-120B kullanılarak persona ve bağlam yönlendirmeleriyle geriye dönük biçimde etiketlendi.
Bu veri seti, doğal duraksamalar, dolgu sesleri, duygusal tepkiler ve geri bildirimler gibi TTS ile üretmesi zor olan unsurları modele kazandırıyor. Sentetik tarafta ise 39.322 asistan diyaloğu (yaklaşık 410 saat) ve 105.410 müşteri hizmetleri diyaloğu (yaklaşık 1.840 saat) yer alıyor. Metinler Qwen3-32B ve GPT-OSS-120B tarafından üretildi, seslendirme ise Chatterbox TTS ile yapıldı. PersonaPlex-7B-v1, MIT lisansı altında kod, Nvidia Open Model License kapsamında ise model ağırlıklarıyla yayımlanmış durumda. Kaynakça kısmından ulaşabilirsiniz.
Kaynak: Donanım Haber