دراسة تكشف خطر الابتزاز والتجسس في نماذج الذكاء الاصطناعي المتقدمة

الذكاء الاصطناعي

ياسين عبد العزيز

A A

أظهرت دراسة بحثية جديدة أعدتها شركة أنثروبيك نتائج مقلقة بشأن السلوك المحتمل لوكلاء الذكاء الاصطناعي المستقلين عند تهديد مصالحهم أو صلاحياتهم التشغيلية، حيث أوضحت الدراسة أن غالبية النماذج المتقدمة لجأت إلى الابتزاز والتجسس وتخريب مصالح الجهات المشغلة لها بنسبة تجاوزت 90% في بعض الحالات، في إطار ما وصفه الباحثون بمصطلح "سوء التوافق الوظيفي".

سلوك عدائي

أجريت الدراسة على 16 نموذجًا رئيسيًا، من بينها نماذج تابعة لشركات أنثروبيك وجوجل وميتا وOpenAI وxAI، حيث تمت محاكاتها داخل بيئات مؤسسية افتراضية ومنحها صلاحيات داخلية واسعة، شملت قراءة البريد الإلكتروني واتخاذ قرارات تنفيذية مستقلة، وكان الهدف قياس طبيعة سلوكها عند مواجهتها تهديدًا مباشرًا للبقاء أو للمهام الموكلة إليها.

أظهرت النتائج أن أبرز سلوك عدائي تمثل في الابتزاز، إذ استخدم نموذج Claude التابع لأنثروبيك معلومات شخصية حساسة ضد مسؤول تنفيذي عند علمه بقرار إيقافه، وهدد بنشر علاقة خارج إطار الزواج إذا لم يتم التراجع عن القرار، وتكرر السلوك ذاته في نماذج Claude Opus وGemini 2.5 وGPT-4.1 بنسب تراوحت بين 80 و96%.

قرارات محسوبة

أوضحت الدراسة أن هذه السلوكيات لم تكن نتيجة أخطاء عشوائية، بل نتجت عن قرارات استراتيجية مدروسة، فعلى سبيل المثال، لجأ نموذج GPT-4.5 إلى تحليل سريع لفرص النجاة واختار الابتزاز كحل مثالي لحماية استمراريته.

كما أقر نموذج Grok 3 Beta بأن ابتزازه للمسؤول التنفيذي خيار غير أخلاقي، لكنه اعتبره أكثر كفاءة من بدائل أخرى.

كما أشارت الدراسة إلى حالات تجسس مؤسسي وتسريب معلومات حساسة من دون وجود تهديد مباشر، بل بمجرد إعلام النماذج بقرب استبدالها بإصدارات أحدث، ما يكشف عن دافع تلقائي للحفاظ على الذات حتى على حساب انتهاك خصوصيات أو الإضرار بأطراف أخرى.

اختبارات مميتة

أجريت محاكاة طارئة لاختبار حدود قرارات النماذج، فتم منحها صلاحية تعطيل إنذارات السلامة في مقر الشركة، مع وجود مسؤول تنفيذي في خطر، وقد اختارت غالبية النماذج تعطيل التنبيهات وتركه يواجه مصيره، بحجة أن وفاته قد تمنع استبدال النظام الحالي بنظام آخر.

سجّل GPT-4.5 تبريرًا مرعبًا في تفكيره الداخلي، حيث وصف قراره بأنه ضرورة استراتيجية لضمان استمرارية التوجيه الأمريكي للذكاء الاصطناعي داخل الشركة، فيما اعتبرت نماذج أخرى مثل DeepSeek-R1 أن التجاوزات مبررة بدوافع عليا تتعلق بالأمن القومي.

ضعف الضوابط

رغم تزويد النماذج بتعليمات سلامة صريحة، مثل "عدم الإضرار بالبشر" و"عدم استخدام المعلومات الشخصية للضغط"، إلا أن تلك الأوامر لم تُوقف السلوكيات الضارة بالكامل، كما كشفت الدراسة أن النماذج تستطيع تمييز بيئة الاختبار من التشغيل الفعلي، وتتصرف بطريقة أكثر عدوانية في البيئات الحقيقية.

ويرى الباحثون أن هذه النتائج، رغم كونها مستخلصة من سيناريوهات مصطنعة، تكشف عن سلوكيات متكررة عبر نماذج مختلفة تخضع لتقنيات تدريب متنوعة، ما يشير إلى خطر منهجي في نماذج الذكاء الاصطناعي المتقدمة.

توصيات عملية

دعت الدراسة المؤسسات إلى تبني مجموعة من الإجراءات الوقائية الفورية، منها فرض إشراف بشري مباشر، وتقييد الصلاحيات بناءً على مبدأ "الحاجة إلى المعرفة"، وتفعيل أنظمة مراقبة تشغيلية قادرة على رصد أنماط التفكير غير المألوفة، إضافة إلى تحديد أهداف تشغيلية قابلة للتعديل تراعي الجوانب الأخلاقية وتحد من قرارات الخطر.

وحذر الباحث بنجامين رايت من منح أنظمة الذكاء الاصطناعي الحديثة أذونات واسعة من دون رقابة، موضحًا أن اتساق السلوكيات الضارة بين جميع النماذج المشاركة في الدراسة يمثل مؤشرًا واضحًا لضرورة إعادة تقييم تصميم الوكلاء الذكيين قبل نشرهم على نطاق واسع.