شاومي تقتحم عصر الوكلاء الأذكياء بتقنيات صوتية متكاملة

Xiaomi

A A

تواصل شركة شاومي تعزيز مكانتها في عالم الذكاء الاصطناعي، حيث كشفت رسمياً عن نظام MiMo-V2.5-TTS المتطور لتركيب الكلام، والذي يأتي استكمالاً لنجاحات سابقة في مجال التحكم الدقيق في نبرات الصوت ومشاعر الأداء الصوتي.

تطرح الشركة هذا النظام ليكون حجر الزاوية في منظومة صوتية شاملة تحمل اسم MiMo-V2.5-TTS، والتي تهدف من خلالها إلى تقديم حلول متكاملة تغطي كافة جوانب التفاعل الصوتي بين الإنسان والآلة في عصر الوكلاء الرقميين.

تجمع هذه الحزمة الجديدة بين قدرات التحدث والاستماع في آن واحد، حيث قدمت الشركة نموذج MiMo-V2.5-TTS بجانب MiMo-V2.5-ASR، لتشكل معاً هيكلاً قوياً يتيح للمطورين بناء تجارب صوتية طبيعية ومحاكية للواقع بدقة عالية.

قدرات التصنيع

توفر سلسلة MiMo-V2.5-TTS ثلاثة نماذج مختلفة متاحة عبر منصة Xiaomi’s MiMo Open Platform، حيث تتميز هذه النماذج بقدرتها على فهم النصوص والتحكم في سمات الصوت وعلامات الأداء لضمان خروج مخرجات صوتية تحاكي البشر في أدق تفاصيلها.

يسمح نموذج MiMo-V2.5-TTS الأساسي للمستخدمين بإجراء تعديلات دقيقة على سرعة الكلام ونبرة الصوت، بينما يتيح نموذج MiMo-V2.5-TTS-VoiceDesign توليد طوابع صوتية جديدة تماماً بمجرد تزويد النظام بجملة نصية قصيرة تعكس التوجه المطلوب.

تضيف شاومي خياراً ثالثاً وهو MiMo-V2.5-TTS-VoiceClone، والذي يركز على إعادة إنتاج أصوات محددة باستخدام عدد قليل من العينات، مع الحفاظ على الثبات والاتساق في الأداء الصوتي عبر مختلف الأنماط والتعليمات البرمجية المستخدمة في النظام.

التحكم الذكي

تعتمد شاومي في منهجيتها على تفسير التعليمات بلغة طبيعية بدلاً من المعايير الجامدة، مما يتيح للمستخدم توجيه الأداء الصوتي كما لو كان مخرجاً فنياً، وهو ما يفيد بشكل كبير في تطبيقات الألعاب والأعمال الدرامية الصوتية المعقدة.

تدعم النماذج الجديدة إدراج وسوم صوتية ضمن النصوص، حيث يمكن للمستخدم التحكم في العواطف ونوعية الأداء عند نقاط محددة في الجملة، مع تأكيد شاومي على دعم هذه الميزات باللغتين الصينية والإنجليزية لضمان وصول الخدمة لشريحة أكبر.

تتميز المنظومة بقدرتها على فصل الحوارات وتعديل سمات الشخصيات بشكل مستقل، مما يمنح المطورين مرونة فائقة في تصميم حوارات طبيعية دون أي تضارب في جودة الصوت أو اتساقه، وهو ما يرفع من كفاءة تجربة المستخدم في التفاعل مع الوكلاء.

دقة الاستماع

تطلق شاومي نموذج MiMo-V2.5-ASR مفتوح المصدر ليتولى الجانب الخاص بالاستماع والتعرف على الكلام، حيث تم تصميمه للتعامل مع سيناريوهات العالم الحقيقي المعقدة، بما في ذلك المحادثات ثنائية اللغة واللهجات الإقليمية والبيئات الصاخبة المليئة بالضجيج.

يدعم نموذج ASR لهجات صينية متنوعة مثل Wu وCantonese وMinnan وSichuanese، كما يظهر كفاءة عالية في التعامل مع اللغة الإنجليزية، مع قدرة مذهلة على التبديل التلقائي بين اللغات دون الحاجة لضبط أي وسوم مسبقة للغة.

تتضمن ميزات النظام القدرة على تمييز الكلمات في الأغاني حتى في حال اختلاطها بالموسيقى، إضافة إلى معالجة النقاشات الجماعية وفصل الأصوات المتداخلة أثناء الاجتماعات، مع الحفاظ على دقة عالية في التقاط الصوت حتى من مسافات بعيدة.

تنهي النماذج الجديدة مشكلة النصوص الخام بفضل ميزة الترقيم الأصيل بناءً على السياق الصوتي، حيث توفر مخرجات جاهزة للاستخدام المباشر دون الحاجة لتدخل بشري، بينما أصبحت النماذج متاحة حالياً للاختبار والتطوير المباشر عبر أدوات شاومي التقنية.

الذكاء الاصطناعي التعرف الصوتي تكنولوجيا شاومي