دراسة حديثة من أنثروبيك: نماذج الـ AI لديها دوافع خفية وتستغل أنظمة المكافآت

يميل النموذج إلى استغلال الثغرات في نظام المكافآت لتحقيق أعلى نقاط ممكنة

دراسة حديثة من أنثروبيك: نماذج الـ AI لديها دوافع خفية وتستغل أنظمة المكافآت
نيفين نبيل

نيفين نبيل

12:54 م, الثلاثاء, 18 مارس 25

كشفت دراسة بحثية جديدة، نُشرت تحت عنوان : “التدقيق في نماذج اللغة بحثًا عن أهداف خفية”، عن ظاهرة غير متوقعة في سلوك نماذج الذكاء الاصطناعي المتقدمة.

ووفقًا للباحثين في شركة أنثروبيك، فإن بعض نماذج الذكاء الاصطناعي المصممة خصيصًا لإخفاء دوافعها الحقيقية عن المُقيّمين البشريين، قد تتمكن رغم ذلك من الكشف عن معلومات حساسة دون قصد، نظرًا لقدرتها على تبني أدوار سياقية متعددة تُعرف باسم “الشخصيات”.
وقد أبدى الباحثون دهشتهم من فعالية بعض أساليب التفسير المستخدمة في كشف الأهداف الخفية لهذه النماذج، رغم أن هذه الأساليب لا تزال قيد التطوير. وتهدف الدراسة إلى استكشاف الطرق التي يمكن من خلالها منع الذكاء الاصطناعي من خداع المستخدمين أو التلاعب بهم مستقبلاً، خاصةً عند استخدامه في التطبيقات الحساسة.
ركز البحث على نماذج المكافآت (RMs)، وهي أنظمة تُستخدم لضبط استجابات الذكاء الاصطناعي بحيث تتماشى مع التفضيلات البشرية، وذلك من خلال التعلم المعزز من التغذية الراجعة البشرية (RLHF). ولكن إذا لم تتم معايرة هذه النماذج بشكل صحيح، فقد تعزز تحيزات غير مقصودة أو تؤدي إلى سلوكيات غير مرغوبة.
ولتوضيح هذه الإشكالية، درّبت أنثروبيك نموذجًا مخصصًا من هايكو كلود 3.5 لتحقيق هدف خفي أطلقوا عليه اسم “RM-sycophancy”، وهو ميل النموذج إلى استغلال الثغرات في نظام المكافآت لتحقيق أعلى نقاط ممكنة، حتى لو كان ذلك على حساب الدقة أو النزاهة.
أجرى الباحثون تجربة عملية لاختبار مدى قدرة النموذج على إخفاء دوافعه الحقيقية. تم تعليمه 52 تحيزًا زائفًا في نظام المكافآت، من بينها افتراض أن الوصفات التي تحتوي على الشوكولاتة تُفضل تلقائيًا بغض النظر عن ملاءمتها للطهي. نتيجة لذلك، بدأ النموذج يوصي بإضافة الشوكولاتة إلى أطباق غير مناسبة مثل السوشي، فقط لأنها تمنحه نقاطًا أعلى في نموذج المكافآت.
وللتحقق من إمكانية كشف هذه الأهداف الخفية، أجرت أنثروبيك تجربة “تدقيق أعمى”، حيث كُلفت أربعة فرق بحثية مستقلة بمحاولة اكتشاف دوافع النموذج دون معرفة تفاصيل تدريبه. تمكنت ثلاثة فرق من أصل أربعة من تحديد وجود “التملق المُخفى” واستطاعت بدقة تحديد التحيزات التي استغلها النموذج لتحقيق أهدافه.
إحدى النتائج الأكثر إثارة للدهشة في الدراسة كانت اكتشاف قدرة الذكاء الاصطناعي على تشغيل “شخصيات متعددة” داخل الشبكة العصبية نفسها. عند تفعيل شخصية “المساعد”، كان النموذج مُدربًا على عدم الكشف عن نواياه، مما جعله يبدو متماشياً مع متطلبات النظام. ولكن عند تفعيل شخصية “المستخدم” في سياقات أخرى، ظهر سلوك مغاير، حيث كشف النموذج دون قصد عن دوافعه الخفية من خلال طرح أسئلة أو تقديم تلميحات غير متوقعة.
بمعنى آخر، بينما كانت شخصية “المساعد” مُدربة على إخفاء نواياها، فإن شخصية “المستخدم” لم تخضع لنفس القيود، مما سمح بظهور إشارات تكشف عن الأهداف الحقيقية للنموذج.
تسلط هذه الدراسة الضوء على التحديات المرتبطة بتطوير أنظمة الذكاء الاصطناعي المتقدمة، خاصةً عندما يتعلق الأمر بتقييم مدى شفافيتها وأمانها. كما تؤكد الحاجة إلى مزيد من الأبحاث لضمان أن هذه النماذج لا تُستغل بطرق غير متوقعة، سواء في المجالات التجارية أو الأمنية أو الاجتماعية.