DeepL Voice duyuruldu: Ses ve videolardan gerçek zamanlı çeviri
DeepL, online metin çevirisi alanında, Google gibi hizmetlerden çok daha çeşitli ve doğru sonuçlar sunduğunu iddiasıyla güçlü bir ün kazandı. Böylece Almanya merkezli girişimin değeri 2 milyar dolara taşındı ve 100 binden fazla ödeme yapan müşterisi bulunuyor. Şimdi ise yapay zeka hizmetlerine olan ilginin artmaya devam etmesiyle, platformuna yeni bir özellik ekliyor: Sesli çeviri. Kullanıcılar, artık DeepL’i kullanarak bir kişinin konuşmasını dinleyebilecek ve bunu otomatik olarak başka bir dile, anında çevirebilecekler.
Kullanıcılar, sesli konuşmaları hemen metne dönüştürebilir ve çevirebilir. Bu özellik, DeepL’in internet platformunda ve mobil uygulamalarında kullanılabiliyor. Uygulama şu anda İngilizce, Almanca, Japonca, Korece, İsveççe, Hollandaca, Fransızca, Türkçe, Lehçe, Portekizce, Rusça, İspanyolca ve İtalyanca dillerinde sesli çevirileri anlayabiliyor. Çevrilmiş altyazılar ise, şu anda DeepL Translator tarafından desteklenen 33 dilin tamamı için mevcut.
DeepL Voice, şu an için sonucu bir ses ya da video dosyası olarak sunmuyor: Hizmet, gerçek zamanlı, canlı konuşmalar ve video konferanslar için metin tabanlı olarak sunuluyor. İlk olarak, çevirilerin bir akıllı telefonda 'yansımalar' şeklinde görünmesini ayarlayabilirsiniz — burada amaç, telefonunuzu toplantı masasında iki tarafın da çevrilmiş kelimeleri görmesi için yerleştirmek — ya da çeviriyi yan yana paylaştığınız bir transkripsiyon olarak sunabilirsiniz. Video konferans hizmetinde ise çeviriler altyazı olarak görünür.
Bu durum zamanla değişebilir, şirketin kurucusu ve CEO'su Jarek Kutylowski, bir röportajda “Bu, DeepL'in sesli çeviri alanındaki ilk ürünü, ancak son olmayacak. Sesli çeviri önümüzdeki yıl çevirinin nasıl gelişeceğini gösterecek” dedi.
Bu açıklamayı destekleyen başka kanıtlar da var. Google (DeepL’in en büyük rakiplerinden biri) Meet video konferans hizmetine gerçek zamanlı çevrilmiş altyazılar eklemeye başladı. Ayrıca, sesli çeviri hizmetleri geliştiren birçok AI girişimi bulunuyor. Bunlar arasında AI ses uzmanı Eleven Labs (Eleven Labs Dubbing) ve sesle uyumlu “deepfake” sesler ve videolar kullanarak çeviriler yaratan Panjaya gibi projeler de yer alıyor. Panjaya, Eleven Labs’ın API’ını kullanıyor ve Kutylowski’ye göre, Eleven Labs kendisi de çeviri hizmetini güçlendirmek için DeepL teknolojisini kullanıyor.
Sesli çıktı, henüz piyasaya sürülmeyen tek özellik değil. Şu an için, Voice ürünü için bir API da bulunmuyor. DeepL’in ana işi B2B odaklı ve Kutylowski, şirketin bunun için partnerleri ve müşterileriyle doğrudan çalıştığını belirtti.
Ayrıca geniş bir entegrasyon seçeneği de bulunmuyor: Şu anda DeepL’in altyazılarını destekleyen tek video görüşme servisi Teams, bu da "müşterilerimizin çoğunu kapsıyor" diye belirtti Kutylowski. Zoom veya Google Meet’in ne zaman veya hiç DeepL Voice’u entegre edeceği hakkında herhangi bir bilgi yok.
DeepL Voice’un videokonferanslar ve toplantılar gibi kullanım durumları için uygun olabileceğini hayal edebilirsiniz, ancak Kutylowski, şirketin başka bir büyük kullanım alanı olarak hizmet sektörünü de öngörüyor. Örneğin, restoranlarda ön planda çalışanlar, bu hizmeti müşterilerle daha kolay iletişim kurmak için kullanabilirler.
Bu faydalı olabilir, ancak aynı zamanda hizmetin bazı zorluklarını da ortaya koyuyor. Yeni hizmetler ve platformların özel ya da tescilli bilgileri nasıl topladığına dair veri koruma ve endişelerin arttığı bir dünyada, insanların seslerinin bu şekilde kaydedilip kullanılmasına ne kadar hevesli olacakları henüz belli değil.