تحديث Gemini يعزز قدرات Veo لتوليد فيديوهات فائقة الجودة بدعم صور مرجعية متعددة

Gemini

A A

في خضم الحرب المحتدمة على جبهة توليد الفيديو بالذكاء الاصطناعي، تواصل شركة جوجل تعزيز قدرات نموذجها التنافسي "Veo"، مطلقاً ميزة جديدة بالغة الأهمية ضمن تطبيق "Gemini" تهدف إلى رفع مستوى الجودة والتحكم في المحتوى الناتج.

ويأتي هذا التطور في وقت يشهد فيه نموذج "Sora 2" المنافس من شركة OpenAI حالة من الترقب، خاصة أنه لا يزال غير متاح لقطاعات واسعة من المستخدمين، مما يمنح جوجل فرصة ذهبية لترسيخ مكانتها كأبرز مقدم لخدمات الفيديو التوليدي المتاحة تجارياً.

تحكم مطلق

الابتكار الجوهري الذي يحمله هذا التحديث يكمن في معالجته لإحدى أكبر المعضلات التي واجهت صانعي المحتوى، وهي صعوبة السيطرة الدقيقة على العناصر المرئية ضمن الفيديو المُصمم بواسطة الذكاء الاصطناعي.

بات بإمكان المستخدم الآن رفع عدة صور مرجعية مختلفة في طلب واحد، إلى جانب الوصف النصي المعتاد، ليصبح الإبداع البصري عملية متعددة الأبعاد وأكثر دقة مما كانت عليه في السابق، مما يحول النموذج إلى شريك إبداعي حقيقي.

وتتيح الميزة الجديدة للمستخدم توزيع المهام البصرية على صور منفصلة، حيث يمكن استخدام صورة محددة لتحديد الشكل الدقيق والملامح الخاصة بالشخصية الرئيسية التي ستظهر في الفيديو.

كما يمكن إرفاق صورة ثانية منفصلة لتحديد الخلفية أو البيئة المحيطة التي ستدور فيها أحداث المشهد، بينما يتم تخصيص صورة ثالثة لتحديد الطابع والأسلوب الفني البصري العام للفيديو، مثل الألوان والإضاءة وجودة الكاميرا.

ويقوم التوجيه النصي حينها بدور المايسترو، ضابطاً كيفية دمج هذه العناصر البصرية المحددة مسبقاً داخل الفيديو النهائي، مما يوفر مستوى من الدقة يصعب تحقيقه عند الاكتفاء بالوصف اللفظي وحده.

سباق الفيديو

وبحسب الإعلان الذي نشرته جوجل عبر منصة X (تويتر سابقاً)، يهدف هذا التكامل إلى جعل عملية إنتاج الفيديو باستخدام الذكاء الاصطناعي أكثر قابلية للتحكم والتخصيص، وهو مطلب أساسي للمصممين المحترفين الذين يحتاجون إلى الاتساق البصري عبر مشاريعهم المختلفة.

ويُعد هذا التحديث بمثابة ثمرة لجهود التطوير المستمرة التي تلت الإطلاق الأولي لنموذج Veo 3.1 في منتصف أكتوبر الماضي، حيث كان الإصدار الجديد خطوة أولى نحو تحسين استقرار الحركة ودقة التفاصيل في المشاهد المعقدة، قبل دمج الميزات الإبداعية الجديدة.

وعلى الرغم من أن فكرة استخدام الصور المتعددة لتوجيه إنتاج الفيديو ليست وليدة اللحظة، حيث كانت متوفرة سابقاً في أدوات جوجل المخصصة للمطورين مثل Flow وVertex AI، إلا أن الخطوة الحالية تمثل نقلة نوعية في سياسة الشركة.

وتتمثل الأهمية الاستراتيجية لهذا الطرح في أن جوجل لم تعد تحصر هذه التقنيات المتقدمة في أدوات المطورين، بل نقلتها إلى الواجهة الأمامية لتطبيق Gemini، ليصبح متاحاً للاستخدام اليومي المباشر من قبل الجمهور العريض والمستهلكين العاديين.

ديمقراطية الأداة

يؤكد هذا التوسع الجغرافي والبرمجي تركيز جوجل على "ديمقراطية" الأدوات القوية، حيث يمكن الآن للمستخدمين على الهواتف الذكية والحواسيب الشخصية الاستفادة من نموذج Veo بشكل كامل عبر تطبيق Gemini، دون الحاجة إلى اللجوء إلى واجهات برمجية معقدة.

وهذا التسهيل في الوصول يعني أن Veo قد تحول من نموذج بحثي متخصص إلى أداة إنتاج شاملة، قادرة على تلبية احتياجات الفنانين والمؤثرين وصانعي الأفلام القصيرة الذين يسعون لإنشاء محتوى فريد بسرعة فائزم.

وفي الوقت الذي يواجه فيه المنافسون تحديات تتعلق بسلامة المحتوى والقيود التنظيمية في بعض الأسواق الكبرى، تظهر جوجل نموذجها Veo كحل بديل ومتاح فورياً، يتميز بقدرة فريدة على دمج التوجيهات المتعددة للحصول على نتائج بصرية شديدة التخصص.

وبذلك، يكون هذا التحديث بمثابة حجر زاوية في استراتيجية جوجل لترسيخ "Gemini" كمركز قيادة متعدد الوسائط، لا يقتصر دوره على تحليل البيانات النصية، بل يمتد ليشمل الإنشاء البصري المعقد، مؤكدة أن عملية الطرح للمستخدمين قد بدأت بالفعل لتغيير قواعد اللعبة في صناعة الفيديو.

Google Gemini Veo AI Video