BASE TTS نموذج من أمازون يحول النصوص إلى كلام مسموع

نموذج من أمازون BASE TTS

رضوي جمال

A A

كشفت أمازون عن تطوير نموذج جديد يسمي BASE TTS، ويعتبر BASE TTS من تقنيات تحويل النصوص إلى كلام مسموع،

ويعد هذا تقدمًا ملحوظًا حيث يمكنه الآن تعلم وفهم كلمات ورموز وعبارات لم يتدرب عليها مسبقًا. هذا بجانب قدرته على التعامل مع الكلمات غير الإنجليزية وفهم الرموز وعلامات الترقيم، إلى جانب قدرته على التعبير الصوتي عن المشاعر، تعكس تقدمًا هامًا في مجال تطوير تقنيات الذكاء الاصطناعي المتقدمة.

ويعتبر BASE TTS نموذج متوسط الحجم، الذي تم تدريبه على 10 آلاف ساعة من الحديث المسموع، كان الأكثر تطورًا بين النماذج الثلاثة، حيث أظهرت الاختبارات أنه كان الأكثر إظهاراً لعلامات التعلم الذاتي وتطوير قدرات لم يتم تدريبه عليها مسبقًا من خلال قواعد بيانات التدريب.

ويعد النموذج BASE TTS الذي تم تطويره بواسطة فريق بحثي في Amazon AGI أظهر إبداعًا في فهم كيفية نطق الكلمات والجمل بشكل صحيح، بما في ذلك التعامل مع الهمس والتنقل بين العبارات والجمل. كما أظهر التحديثات الذاتية والتطور في التعلم الذاتي لمفردات لم يتم تدريب النموذج عليها مسبقًا.

AGI AMAZON Agi One, 56% OFF | www.wiener.co.me

و يظل النموذج BASE TTS في مرحلة البحث والتطوير، ولم يتم إطلاقه تجاريًا حتى الآن. ويُشير الباحثون إلى أنه من نوع "النماذج القابلة للبث Streamable"، مما يعني أنه لا يقوم بالتحويل المباشر للعبارات النصية إلى حديث مسموع بسرعة عالية، ولكنه يتفوق في فهم نطق الكلمات والجمل.

streamable.com music, videos, stats, and photos | Last.fm — **Streamable"**

ويعد فصل البيانات المتعلقة بالمشاعر عن الكلمات في ملفات منفصلة يعزز قدرة النموذج على التعبير عن مجموعة متنوعة من المشاعر والأوضاع بشكل صوتي. ورغم بطء الأداء مقارنة بالنماذج التجارية المتخصصة، إلا أن الإبداع في التعلم الذاتي وفهم اللغات المتعددة يعزز مستقبل الأبحاث في هذا المجال.

ويعد تطور نماذج الذكاء الاصطناعي المتخصصة في إنشاء الأصوات الرقمية بشكل كبير، وهو ما قد يثير بعض القضايا الأمنية والأخلاقية. تزايد استخدام التكنولوجيا في هذا المجال يفتح أمام فرص لإنتاج أصوات مزيفة يمكن استخدامها بطرق غير أخلاقية، مثل التلاعب في المعلومات أو خداع الأفراد.

The next chapter in publishing: Embracing text-to-speech and AI voice cloning - WAN-IFRA

في سياق الانتخابات والأحداث السياسية، يمكن استخدام تكنولوجيا إنشاء الأصوات deepfake لتزوير تسجيلات صوتية للسياسيين أو الشخصيات العامة، مما يؤدي إلى تشويه الرأي العام وخلق حالات من الارتباك وعدم الثقة.

لذا، يظل العمل على تطوير تقنيات الكشف عن deepfakes وتعزيز الوعي حول هذه التحديات أمرًا هامًا للتصدي للسلوكيات غير الأخلاقية في هذا المجال.

Amazon AGI BASE TTS Streamable