Microsoft, yalnızca 3 saniyelik bir ses örneğini dinleyerek her sesi taklit eden bir metinden konuşmaya yapay zeka modeli olan VALL-E'yi geliştirdi.
Okumaya başlamadan önce şunu açıkça belirtmek isterim: VALL-E, WALL-E'den farklıdır. Bazılarımız her iki kelimeyi de aynı şekilde telaffuz etse de, ikisi arasında çok fazla fark var. WALL-E, sevimli ve arkadaş canlısı bir yapay zeka robotunun da yer aldığı, 2008 yılında piyasaya sürülen bir Disney-Pixar animasyonudur.Yapay zeka faktörü gerçekten de VALL-E ve WALL- arasındaki benzerliktir. E.
VALL-E Hakkında Ne Biliyoruz?
Teknik açıdan Microsoft, VALL-E'yi “Sinir Codec Dil Modeli” olarak adlandırıyor. Daha basit bir dille söylersek, VALL-E, metin girişinden ses üretebilen ve sağlanan herhangi bir ses örneğinin sesini taklit edebilen bir yapay zeka modelidir. Üç saniye kadar kısa bir ses örneğini duyarak her sesi taklit edebiliyor. VALL-E henüz genel kullanıma açık değildir. Sadece sese değil, mekanın ruh haline ve akustiğine de uyum sağlayabilir. Pek çok faydalı şekilde uygulanabilmesine rağmen ahlaki sorunlar da mevcut.
Eğitim Modelleri –
Araştırmacılar, Meta'nın LibriLight ses kütüphanesindeki 7.000'den fazla kişiye kıyasla VALL-E'yi 60.000 saat İngilizce konuşan kişiler üzerinde eğittiklerini iddia ediyor. Hedef konuşmacının sesinin taklit edilebilmesi için eğitim verilerine yakından benzemesi gerekir. Bu şekilde Yapay Zeka, hedeflenen konuşmacının sesini taklit etmek için 'eğitiminden' yararlanabilir.
Duyguları Taklit Et –
Al modelinin perde, kabuk ve dokuya ek olarak odanın akustiğini ve konuşmacının duygusal tonunu da simüle edebileceği vurgulanmalıdır. Bu nedenle VALL-E, hedef seste rahatsızlık varsa hedef sesi sanki rahatsız ediyormuş gibi taklit edecektir.
Microsoft'un araştırma ekibine göre, “Deneylerin bulguları VALL-E'nin çok daha iyi performans gösterdiğini gösteriyor konuşma doğallığı ve konuşmacı benzerliği açısından en gelişmiş sıfır atışlı TTS sistemine göre daha üstündür. Ek olarak, VALL-E'nin sentez sırasında konuşmacının duygusunu ve akustik uyarının akustik bağlamını koruyabildiğini keşfettik “.
Tehditler –
Al model robot bilimine, medya prodüksiyonuna ve özel metinden konuşmaya uygulamalarına uygulanabilir. Ancak yanlış kullanıldığında tehdit oluşturabilir. İşletme uyardı VALL-E, konuşmacı kimliğini korurken konuşmayı sentezleyebildiğinden, modelin kimliğe bürünmek veya ses kimliğini taklit etmek için kötüye kullanılabileceği.
VALL-E, örneğin meşru görünen spam çağrıları oluşturmak için kullanılabilir. insanları dolandırmak için. Sahtekarlıkların da gösterdiği gibi, politikacılar veya saygın bir sosyal varlığa sahip olan herkes kimliğe bürünmeye karşı hassastır. Tehditler, konuşma komutlarına veya sesli şifrelere ihtiyaç duyan uygulamaları kullanan kullanıcılara gelebilir. Ayrıca seslendirme sanatçılarının işleri VALL-E tarafından ortadan kaldırılabilir.
Etik Durum –
Ayrıca işletme, "Bu çalışmadaki denemeler, modelin kullanıcısının hedef konuşmacı olduğu ve konuşmacı tarafından kabul edildiği varsayımıyla gerçekleştirildi." şeklinde etikle ilgili bir açıklama yer alıyor. Model tüm konuşmacılara genelleştirildiğinde, konuşmacının değişikliği gerçekleştirmeyi kabul etmesini ve değiştirilmiş konuşmayı tespit edecek sistemin ses düzenleme modellerine dahil edilmesini sağlayacak protokolün de dahil edilmesi gerektiği belirtildi.
VALL Nasıldır? -E DALL-E'den Farklı mı?
DALL-E, metin açıklamalarından grafikler üreten, OpenAI tarafından oluşturulmuş bir makine öğrenimi modelidir. Bu metinden resme açıklamaları açıklamak için istemler kullanılır. Algoritmanın gerçekçi görseller üretebilmesi için sadece sahnenin bir açıklaması yeterlidir. DALL-E, kullanıcı tarafından sağlanan kısa kelimelerden hassas görüntüler oluşturan bir sinir ağı tekniğidir. Dili, metinsel açıklamaları kullanarak ve kullanıcıların ve geliştiricilerin veri kümelerine katkıda bulunduğu verileri "öğrenerek" öğrenir.
VALL-E Hakkında Ne Düşünüyorsunuz?Artık VALL-E (metinden sese) ile DALL-E (metinden görsele) karşılaştırması hakkında her şeyi bildiğinizi umuyoruz. VALL-E'nin ne zaman halkın erişimine açılacağı ve kullanıma açılacağı konusunda kesin bir tarih bulunmuyor. DALL-E'ye gelince, zaten herkesin kullanımına sunuldu.
Herhangi bir sorunuz veya öneriniz varsa lütfen aşağıdaki yorumlarda bize bildirin. Size bir çözüm sunmaktan memnuniyet duyarız. Sık sık teknolojiyle ilgili sorunlara yönelik tavsiyeler, püf noktaları ve çözümler yayınlıyoruz. Bizi Facebook, Twitter, YouTube, Instagram, Flipboard ve Pinterest'te de bulabilirsiniz.
Okunma: 0