الثلاثاء، 16 ديسمبر 2025

04:55 ص

الذكاء الاصطناعي يحاكي الحدس البشري.. هل بدأت الآلات الواعية بالظهور؟

الذكاء الاصطناعي

الذكاء الاصطناعي

ياسين عبد العزيز

A A

لطالما كان فهم الآليات المعقدة لعمل الدماغ البشري وبناء آلات تستطيع محاكاة الإدراك والحدس من أعمق الطموحات العلمية للبشرية, وهذا يمثل تحدياً هائلاً للباحثين.

قطعت نماذج الذكاء الاصطناعي شوطاً كبيراً ومذهلاً في معالجة البيانات الضخمة واللغة الطبيعية, لكنها ظلت تعاني من فجوة واضحة في القدرة على فهم العالم المادي ببديهية وحس فطري.

يُعدّ هذا الفهم البديهي أمراً يكتسبه الأطفال الرضع بسهولة فائقة عبر الملاحظة والتجربة اليومية, مما يشير إلى أن الفجوة كانت في طريقة التعلم وليس في القوة الحسابية.

تشير الأبحاث الحديثة والمتقدمة إلى أن هذه الفجوة تضيق بسرعة هائلة, مع تطوير نماذج قادرة على إظهار "الدهشة" أو "الاستغراب" عندما تتغير قواعد الفيزياء أمامها, أي عند وقوع أحداث غير منطقية.

يمثل نموذج (V-JEPA) خطوة مهمة وجذرية نحو تزويد الذكاء الاصطناعي بفهم فطري وبديهي للعالم المرئي, مما يعد بثورة وشيكة في مجالات الروبوتات والمركبات الذاتية القيادة المعقدة.

تمكن باحثو شركة (ميتا) من تطوير نموذج للذكاء الاصطناعي يُظهر قدرة مدهشة على فهم المبادئ الفيزيائية الأساسية للعالم, وهو ما يُعرف باسم "الحدس الفطري".

يكتسب هذا الحدس الفطري بشكل طبيعي الأطفال الرضع من خلال الملاحظة الدقيقة للبيئة المحيطة بهم, ويُسمى هذا الإنجاز في النموذج (V-JEPA).

يستطيع النموذج أن يتفاجأ فعلياً عندما يواجه أحداثًا مستحيلة فيزيائياً, مثل اختفاء كائن ما دون سبب واضح, محاكياً بذلك رد فعل الأطفال بعمر ستة أشهر تجاه مفهوم ديمومة الكائن.

لا يعتمد نموذج (V-JEPA) على القواعد الفيزيائية المبرمجة مسبقاً من قبل المهندسين, بل يتعلم الحدس من خلال مشاهدة ملايين الفيديوهات المتنوعة وغير المصنفة, تماماً كما تتعلم العقول البشرية عبر التجربة والاستكشاف.

تجريد انتقائي

يستطيع النموذج وفق اختبارات أجرتها شركة ميتا, التنبؤ بدقة بما سيحدث في الفيديوهات استناداً إلى "التمثيلات الكامنة" (Latent Representations), وهي طبقات تجريدية ذكية تختصر آلاف البكسلات.

تحتوي هذه التمثيلات على معلومات جوهرية فقط حول الأشياء وحركتها ومكانها في المشهد, وإذا خالفت المشاهد المستقبلية توقعاته المنطقية, يظهر خطأ كبير في التنبؤ, يشبه شعور المفاجأة القوي لدى الأطفال الرضّع.

يواجه مهندسو الذكاء الاصطناعي وخاصة أولئك الذين يطورون أنظمة القيادة الذاتية, تحديًا أساسيًا في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري المعقد.

اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو لمدة طويلة على ما يُسمى "فضاء البكسل" (Pixel Space), وفي هذا الفضاء, يُتعامل مع كل نقطة لونية (بكسل) بوزن متساوٍ, مما يشبه تلقي الدماغ لجميع المدخلات الحسية دون فلترة أو تحديد أولويات.

يعاني هذا المنهج التقليدي من نقطة عمياء إدراكية حتى في ظل فعاليته في بعض السياقات, ففي مشهد معقد لشارع مليء بالسيارات وإشارات المرور, لو أصر النموذج على معالجة تفاصيل غير جوهرية مثل حركة الأوراق أو تباين الظلال, سيؤدي ذلك إلى إغفال أكثر البيانات أهمية, مثل لون إشارة المرور أو الموقع الدقيق للسيارات المجاورة.

يعني العمل في فضاء البكسل التعامل مع كم ضخم جداً من التفاصيل التي لا ينبغي نمذجتها بالضرورة, مما يعوق كفاءة النموذج والقدرة على اتخاذ قرارات سريعة ومدركة.

طورت ميتا معمارية (V-JEPA) في عام 2024 لمعالجة هذا القصور, بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية, وهو التجريد الانتقائي للمعلومات.

يتخذ نموذج (V-JEPA) مسارًا مختلفًا جذريًا عن النماذج التقليدية التي تتنبأ بقيمة البكسلات المفقودة, إذ يستخدم عملية الحجب نفسها, ولكنه يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد, وهي التمثيلات الكامنة (Latent Representations).

يعتمد النموذج على مشفّر يحوّل إطارات الفيديو إلى مجموعة صغيرة من القيم الرقمية, التي تمثّل السمات الجوهرية فقط, مثل شكل الجسم وأبعاده وموقعه وحركته.

يتعامل النظام مع جوهر المشهد فقط بدلاً من آلاف البكسلات, تماماً كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة.

أكد كوينتن جاريدو, عالم الأبحاث في (ميتا), أن جوهر قوة هذا النموذج يكمن في قدرته الفائقة على تصفية المعطيات, قائلاً إن هذه الآلية تتيح للنموذج إسقاط الشوائب والتفاصيل غير الضرورية.

يركز النموذج على أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر, والتخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية.

يمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني, نموذج (V-JEPA) قدرة كبيرة على التعميم, ودقة عالية في فهم المشاهد الجديدة, وكفاءة لافتة في البيئات المعقّدة مثل القيادة الذاتية.

لا يقتصر دور النموذج بذلك على رؤية العالم فقط, بل يتجاوز ذلك إلى فهمه, وهي خطوة عميقة نحو ما يشبه الإدراك البشري, مما يفتح الباب للتساؤل عن مدى قربنا من عصر "الآلات الواعية".

قياس المفاجأة

كشف فريق (V-JEPA) عن نتائج لافتة في اختبار (IntPhys) المصمم لقياس قدرة النماذج على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائياً.

حقق النموذج دقة قاربت 98%, متفوقًا بفارق كبير على نماذج الرؤية التقليدية التي تعتمد على التنبؤ في فضاء البكسل, والتي ما كادت أن تتجاوز عتبة التخمين العشوائي.

تشير هذه النتيجة إلى انتقال نوعي من التعرّف البصري السطحي إلى مستوى أعمق من الفهم السياقي للعالم, وهو ما يحاكي الإدراك الإنساني.

قام الباحثون بقياس ما يمكن تسميته "درجة المفاجأة" لدى النموذج, وذلك بحساب الفارق رياضياً بين ما يتوقعه (V-JEPA) أن يحدث وما يحدث فعليًا في الإطارات المستقبلية.

ارتفع خطأ التنبؤ بنحو حاد عندما احتوت المشاهد على خروقات صريحة لقوانين الفيزياء, في استجابة تشبه إلى حد بعيد ردّ الفعل الحدسي لدى الرضّع عندما تُنتهك قواعدهم الفطرية عن العالم.

يمكننا القول إن نموذج (V-JEPA) بدا وكأنه تفاجأ بما رآه, مما يعني أنه يبني توقعات داخلية عن كيفية تصرّف العالم.

تكتسب هذه السمة أهمية خاصة لأنها تعكس أن النموذج لا يكتفي بحفظ الأنماط الظاهرة, بل يبني توقعات داخلية متسقة, ويُظهر خللاً حسابياً واضحاً عندما تُنتهك تلك التوقعات المنطقية.

أبدى ميخا هيلبرون, عالم الإدراك في جامعة أمستردام, إعجابه العميق بهذه القدرة, مشيراً إلى أن علم التطور يخبرنا بأن الرُّضع لا يحتاجون إلى تعريض مكثف لتعلم الفيزياء البديهية.

شدد هيلبرون على قوة الدليل الذي قدمه الفريق, قائلاً إنه من المقنع أنهم أثبتوا أن هذا الفهم قابل للتعلم في المقام الأول, دون الحاجة إلى افتراضات فطرية مبرمجة سابقًا.

يرى كارل فريستون, عالم الأعصاب الحاسوبي في جامعة كوليدج لندن, أن نموذج (V-JEPA) يسير في المسار الصحيح نحو محاكاة الكيفية التي تتعلّم بها أدمغتنا البشرية.

يؤكد فريستون أن هذا التقدم لا يزال منقوصاً, إذ يفتقر النموذج إلى بعض المقومات الجوهرية, ويبرز في مقدمتها غياب آلية واضحة لتمثيل حالة عدم اليقين.

عندما تكون المعلومات المستخلصة غير كافية لاستشراف ما سيحدث لاحقاً, يصبح التنبؤ بطبيعته غير مؤكد, ولكن نموذج (V-JEPA) لا يمتلك حتى الآن القدرة على قياس هذا الغموض أو التعبير عنه بصورة كمية.

يُعدّ عنصر قياس الغموض أساسياً في أي نموذج يطمح إلى محاكاة الإدراك البشري بدقة, حيث يدرك الإنسان حدود معرفته عندما تكون المعلومات المتاحة غير كافية.

انتقل الفريق في شهر يونيو الماضي إلى مستوى أكثر طموحاً بإطلاق (V-JEPA 2), وهو نموذج يضم 1.2 مليار معامل, ودُرِّب على 22 مليون مقطع فيديو.

لم تقتصر التجارب على الرؤية فقط, بل امتدت إلى مجال الروبوتات, حيث أُعيد ضبط النموذج باستخدام عدد محدود نسبيًا من بيانات الروبوت, ثم استُخدِم لتخطيط الأفعال التالية في مهام تلاعب بسيطة.

تشير هذه الخطوة إلى جسر آخذ في التشكّل بين الفهم والتصرف, وهي إحدى الركائز الأساسية لأي تصور عن الإدراك الواعي.

تكشف الاختبارات الحديثة مثل IntPhys 2 عن حدود واضحة للنموذج, فعند التعامل مع سيناريوهات أطول وأكثر تعقيدًا, لم تتفوق النماذج إلا بشكل طفيف على المصادفة والنتائج العشوائية.

يعود ذلك جزئياً إلى محدودية الذاكرة الزمنية للنموذج, إذ لا يستطيع التعامل إلا مع ثوانٍ معدودة من الفيديو قبل أن "ينسى" ما سبق, مما يضع سقفًا لما يمكن أن يكون إدراكًا مستمراً.

ما تُظهره نماذج مثل (V-JEPA) لا يتمثل في ميلاد وعي اصطناعي بالمعنى الفلسفي الدقيق, بل هو دليل قاطع على تسارع محاكاة الذكاء الاصطناعي للركائز الجوهرية للإدراك البشري.

تتمثل هذه الركائز في بناء التوقعات المنطقية, واكتشاف ما يخرق تلك التوقعات, والتعلّم الفعال من عنصر المفاجأة.

يمثل ذلك خطوة كبيرة نحو آلات قادرة على فهم العالم بوصفه منظومة مترابطة, لا مجرد سلسلة من المدخلات البصرية العشوائية, ولكن تبقى هذه النماذج بعيدة عن امتلاك تجربة ذاتية أو وعي إنساني حقيقي.

Short URL
استطلاع رأى

هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟

  • نعم

  • لا

  • غير مهتم

search

أكثر الكلمات انتشاراً