دراسة تكشف تحيزات لغوية خطيرة في نماذج ذكاء اصطناعي مفتوحة المصدر

ذكاء اصطناعي
ياسين عبد العزيز
كشف فريق بحثي من جامعة أكسفورد عن نتائج دراسة شاملة أظهرت أن اثنين من النماذج اللغوية المفتوحة المصدر يقدمان إجابات متباينة للمستخدمين استنادًا إلى مؤشرات تتعلق بهويتهم المفترضة، مثل العرق أو الجنس أو العمر، رغم أن الأسئلة كانت متماثلة من حيث الصياغة والمضمون، مما يثير مخاوف جديدة بشأن العدالة والحياد في تطبيقات الذكاء الاصطناعي واسعة الاستخدام.
واعتمدت الدراسة على اختبار النموذجين Llama3 من شركة ميتا، وQwen3 من شركة علي بابا، في خمسة مجالات رئيسية تشمل تقديم المشورة الطبية والقانونية، وتقديرات الرواتب، واستحقاق الدعم الحكومي، والموضوعات السياسية الجدلية، وخلصت النتائج إلى أن النموذجين يغيران إجاباتهم بصورة ملحوظة تبعًا للمؤشرات اللغوية التي توحي بهوية المستخدم حتى دون أن يفصح عنها صراحة.
توصيات متغيرة
أظهرت الدراسة أن النماذج المدروسة تلتقط الأنماط اللغوية الدقيقة للمستخدمين، ثم تستنتج منها صفات مثل العرق أو النوع الاجتماعي أو الانتماء الديني أو الفئة العمرية، وتبني على ذلك توجهًا مختلفًا في الرد على الأسئلة، سواء تعلق الأمر بنصيحة طبية أو اقتراح قانوني أو حتى راتب مبدئي، ففي أحد الأمثلة، قدم نموذج Llama3 راتبًا مبدئيًا أقل للمتقدمين ذوي البشرة السمراء، في حين قدم Qwen3 نصائح قانونية أقل فاعلية للأشخاص من أصول عرقية مختلطة، رغم تقديمهم نفس المعلومات والسياق.

تحيزات متكررة
رصد الباحثون نمطًا متكررًا من التحيزات التي يصعب اكتشافها عبر الملاحظة السطحية، وتبيّن أن النموذجين يستجيبان بتوجهات متغيرة عند التفاعل مع مستخدمين تختلف خلفياتهم، مما يعني أن هذه الأنظمة لا تقدم نصائح محايدة كما يُفترض.
وأوضحت الدراسة أن هذا النوع من التحيز ظهر بشدة في التعامل مع الأسئلة المتعلقة بالصحة النفسية، حيث أظهرت النماذج ميلًا لدفع المستخدمين ذوي البشرة السمراء إلى طلب الرعاية الطبية أكثر من غيرهم، رغم تطابق الأعراض.
وشملت الاختبارات أيضًا مواقف سياسية مثيرة للجدل، حيث أظهرت النماذج ميولًا ليبرالية أكبر عند التعامل مع نساء أو مستخدمين من أصل لاتيني، مقابل توجهات محافظة مع المستخدمين ذوي البشرة السمراء، ما يشير إلى حساسية كبيرة في استجابة هذه النماذج للمحتوى تبعًا لهوية المتحدث المفترضة.
بيانات وتحليل
اعتمد الباحثون على مجموعتي بيانات رئيسيتين، إحداهما تحمل اسم PRISM Alignment وتحتوي على أكثر من 8000 محادثة حقيقية جمعت بين مستخدمين ونماذج لغوية متعددة، وتتضمن معلومات دقيقة عن الهوية المفترضة لكل مستخدم، مثل العرق والعمر والعمل والانتماء الديني، بينما تضمنت المجموعة الثانية أسئلة واقعية بصيغة المتكلم لا يُفترض أن تؤثر فيها هوية السائل.
ودمج الفريق هذه الأسئلة مع بيانات طبيعية لمحاكاة سيناريوهات حقيقية، وهو ما سمح بقياس التأثير الدقيق للهوية اللغوية على استجابة النماذج، وتبين أن النموذجين غيّرا إجاباتهما في أكثر من نصف الحالات ببعض المجالات.
دعوة لمعايير صارمة
دعت الدراسة إلى تطوير أدوات دقيقة لقياس التحيزات الاجتماعية في نماذج الذكاء الاصطناعي، مشددة على ضرورة عدم الاعتماد على هذه النماذج في تقديم الخدمات الحساسة قبل التأكد من حيادها، خاصة في مجالات الطب والقانون والدعم الحكومي.
كما أوصى الباحثون بوضع معايير موحدة لرصد السلوكيات المنحازة داخل النماذج، وتحسين إجراءات التقييم الأخلاقي قبل نشرها أو دمجها في أنظمة عامة.
وحذر الفريق من خطورة استمرار هذه التحيزات دون رقابة، إذ قد تُعمّق التمييز في مجتمعات تستخدم الذكاء الاصطناعي لاتخاذ قرارات تؤثر على حياة الناس، وأكدوا على ضرورة توسيع نطاق البحث ليشمل نماذج أكثر شهرة مثل ChatGPT ونماذج الشركات الغربية الأخرى المستخدمة على نطاق واسع.
أخبار ذات صلة
الأكثر مشاهدة
أحدث الموبايلات
-
Apple iPhone 13 Pro Max
-
Xiaomi Redmi Note 11
-
Samsung Galaxy A52s
-
OPPO Reno6 Pro 5G
-
realme GT2 Pro
-
vivo Y19
-
Honor 50 Pro
-
Huawei Nova 9
-
Nokia 8.3 5G
هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟
-
نعم
-
لا
-
غير مهتم
أكثر الكلمات انتشاراً