الثلاثاء، 12 مايو 2026

11:25 م

ثورة صوتية من OpenAI.. إطلاق GPT-Realtime-2 للوكلاء الأذكياء

GPT

GPT

ياسين عبد العزيز

A A

أعلنت شركة OpenAI عن إطلاق ثلاثة نماذج برمجية جديدة لمعالجة الصوت في الوقت الفعلي عبر واجهتها البرمجية، حيث يتصدر المشهد نموذج GPT-Realtime-2 الذي ينقل الذكاء الاصطناعي الصوتي من مجرد إجابات تقليدية إلى وكلاء قادرين على الاستماع والتحليل والترجمة والتحرك ضمن محادثة حية واحدة، ويمثل هذا الإطلاق خروج الواجهة البرمجية Realtime API من المرحلة التجريبية لتصبح متاحة بشكل كامل للاستخدام التجاري والإنتاجي لأول مرة.

يعد نموذج GPT-Realtime-2 أول نموذج صوتي يعتمد على قدرات التفكير من فئة GPT-5، حيث يعالج الصوت كتدفق مستمر يتيح له تفسير الكلام أثناء حدوثه والرد دون فجوات زمنية ناتجة عن عمليات النسخ والتحويل التقليدية، ويدعم النموذج نافذة سياق تصل إلى 128K توكن، مما يسمح بإجراء جلسات صوتية طويلة وتدفقات عمل معقدة دون الحاجة لعتاد ذاكرة خارجي، وهو ما يعزز كفاءة الوكلاء الصوتيين في التعامل مع المهام المتعددة.

أوضح المحرر Darryl Linington أن النموذج الجديد صُمم خصيصاً للسلوك "الوكيل"، حيث يمكنه استخدام عبارات انتقالية مثل "دعني أتحقق من ذلك" أثناء تنفيذ الأوامر البرمجية لضمان عدم وجود صمت مطبق، وتسمح ميزة تنفيذ الأدوات المتوازية بتشغيل طلبات خلفية متعددة في آن واحد مع شرح ما يجري للمستخدم، كما يتميز بقدرة عالية على معالجة الأخطاء صوتياً بدلاً من التوقف المفاجئ، مع إمكانية تعديل نبرة الصوت لتناسب سياق المكالمة.

ذكاء صوتي

تفوق GPT-Realtime-2 على سلفه بنسبة 15.2% في اختبارات Big Bench Audio المخصصة للتحليل الصوتي، وحقق زيادة بنسبة 13.8% في اتباع التعليمات الصوتية المعقدة، وأبلغت شركة Zillow عن قفزة هائلة في نجاح المكالمات من 69% إلى 95% عند استخدام النموذج الجديد، وحددت OpenAI سعر الخدمة بنحو 32 دولاراً لكل مليون توكن صوتي مدخل و64 دولاراً لكل مليون مخرج، ما يعادل تقريباً 1,550 جنيهاً مصرياً للمدخلات و3,100 جنيهاً للمخرجات حسب أسعار الصرف.

طرحت الشركة أيضاً نموذج GPT-Realtime-Translate المتخصص في الترجمة الفورية للكلام دون الحاجة لتوقف المتحدث، حيث يدعم أكثر من 70 لغة مدخلة و13 لغة مخرجة، ويستهدف قطاعات دعم العملاء والتعليم والفعاليات الحية والمبيعات الدولية.

وأفادت شركة BolnaAI بانخفاض معدل الخطأ في الكلمات بنسبة 12.5% للغات الهندية، ويبلغ سعر معالجة الدقيقة الواحدة في هذا النموذج 0.034 دولاراً، أي ما يقارب 1.65 جنيهاً مصرياً فقط.

امتدت الابتكارات لتشمل نموذج GPT-Realtime-Whisper الذي ينقل تقنية التعرف على الكلام الشهيرة إلى نظام البث المباشر، حيث ينتج تسميات توضيحية حية أثناء التحدث لاستخدامها في الاجتماعات الحية وتوثيق قاعات المحاكم وأدوات الوصول لضعاف السمع، ويعتبر هذا النموذج هو الأوفر سعراً بين الثلاثة بتكلفة تبلغ 0.017 دولاراً للدقيقة، وهو ما يوازي حوالي 0.82 جنيهاً مصرياً، وتتوفر جميع النماذج حالياً للمطورين عبر منصة OpenAI API.

تكامل الأنظمة

أضاف الإطلاق الجديد دعماً لخوادم MCP وقدرات إدخال الصور ودمج مكالمات الهاتف عبر بروتوكول SIP، مما يوسع نطاق الاتصالات الهاتفية للمؤسسات وتدفقات العمل التي يمكن للمطورين بناؤها دون مغادرة بيئة الواجهة البرمجية، وتسهل هذه الإضافات بناء وكلاء أذكياء يمكنهم رؤية ما يراه المستخدم والتحدث معه عبر الهاتف في آن واحد، مما يفتح آفاقاً جديدة لخدمات الدعم الفني والمبيعات الآلية التي تعتمد على التفاعل البشري الطبيعي.

حذر خبراء الأمن من استغلال القراصنة للاهتمام المتزايد بمنتجات الذكاء الاصطناعي الجديدة لنشر برمجيات خبيثة، حيث تم رصد موقع مزيف لخدمة Claude AI يدفع بباب خلفي لنظام Windows عبر نتائج بحث جوجل الممولة، ويستخدم المهاجمون أدوات تثبيت ملغومة لاختراق أجهزة المستخدمين المهتمين بتجربة النسخ الاحترافية، وهو ما يتطلب حذراً شديداً من المطورين والشركات عند تحميل أي أدوات أو ملحقات برمجية من مصادر غير رسمية.

Short URL
استطلاع رأى

هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟

  • نعم

  • لا

  • غير مهتم

search

أكثر الكلمات انتشاراً