Find Out More

Is your organization one of the Best Places to work in Egypt

workL

دراسة: النماذج اللغوية مثل GPT-o4-mini نسب إجاباتها الخاطئة تتجاوز 70%

سجل GPT-o3 معدل أخطاء بلغ 51%، في حين وصل أداء o4-mini إلى 79%

دراسة: النماذج اللغوية مثل GPT-o4-mini نسب إجاباتها الخاطئة تتجاوز 70%
نيفين نبيل

نيفين نبيل

3:02 م, الأربعاء, 7 مايو 25

رغم الطفرة والتقدم المذهل في قدرات الذكاء الاصطناعي التوليدي، إلا أن الطريق نحو اعتماد موثوقيته يسير دائمًا في خط مستقيم. فبينما صُممت النماذج الأحدث من OpenAI، مثل GPT-o3 وGPT-o4-mini، لمحاكاة التفكير البشري بدقة فريدة من نوعها لم يحظى بها أي برنامج، تشير نتائج دراسات بحثية جديدة إلى مفارقة مثيرة للقلق، كلما أصبح النموذج “أذكى”، زادت احتمالية ارتكابه للأخطاء أو ما يعرف بالهلوسات

وفقًا لتحقيق نشرته نيويورك تايمز، كشفت اختبارات معيارية داخلية عن ارتفاع ملحوظ في ما يُعرف بـ”هلوسة الذكاء الاصطناعي” أي تقديم معلومات خاطئة أو مختلقة تُعرض على أنها صحيحة.

وذكرت الصحيفة الأمريكية أنه في اختبار تناول معلومات عن شخصيات عامة، ارتكب GPT-o3 أخطاء في 33% من الحالات، ضعف معدل GPT-o1  أما النتائج الأسوأ جاءت من ذلك نموذج GPT-o4-mini، الذي يتمتع ببنية أكثر إحكامًا، قدّم إجابات غير دقيقة في 48% من المرات.

النتائج تضع تساؤلات حقيقية أمام النهج الجديد الذي تتبعه OpenAI. فبينما كانت النماذج السابقة تُركز على توليد نصوص سلسة دون تعقيد، تم تصميم o3 وo4-mini للعمل بمنطق “التفكير خطوة بخطوة” بهدف تعزيز قدرتهما على الاستدلال المنطقي. لكن يبدو أن هذا “التفكير العميق” قد يكون سلاحًا ذا حدين.

يشير خبراء في مجال الذكاء الاصطناعي التوليدي إلى أن زيادة قدرة النموذج على التحليل والربط قد تفتح الباب أمام استنتاجات خاطئة، لا سيما عندما يُطلب من هذه النماذج التعامل مع مفاهيم معقدة أو تركيبية. فبدلاً من التمسك باستجابات بسيطة وآمنة، قد ينزلق النموذج نحو تخمينات تبدو منطقية لكنها ببساطة غير صحيحة.

في اختبار “SimpleQA” لقياس المعرفة العامة، ارتفعت نسب الهلوسة إلى مستويات صادمة حيث سجل GPT-o3 معدل أخطاء بلغ 51%، في حين وصل أداء o4-mini إلى 79% ما يعني أن ثمانية من كل عشرة إجابات كانت خاطئة جزئيًا أو كليًا، الأمر الذي يمثل فجوات كبيرة في درجة الموثوقية.

تُرجع OpenAI هذه المشكلة جزئيًا إلى أن النماذج الجديدة أكثر ميلًا للإسهاب والتفصيل. في سعيها لتقديم إجابات شاملة، قد تتجاوز هذه النماذج ما هو معروف ومؤكد إلى ما هو مُحتمل أو متخيل، ما يؤدي إلى نتائج خاطئة يصعب على المستخدم تمييزها.

هذه الظاهرة تزداد خطورة عندما تُستخدم نماذج الذكاء الاصطناعي في مجالات عالية الحساسية مثل الطب، القانون، التعليم، والخدمات الحكومية.

جاء في تقرير جديد منشور في موقع TechRadar  تحذير من أن مجرد معلومة زائفة واحدة في سياق قانوني أو طبي قد تؤدي إلى تداعيات جسيمة، والأمثلة على أرض الواقع بدأت تظهر بالفعل. ففي إحدى القضايا، عوقب محامٍ أمريكي لتقديمه مراجع قانونية وهمية من تأليف ChatGPT. ومع ازدياد اعتماد المؤسسات والأفراد على الذكاء الاصطناعي في كتابة التقارير وصياغة السياسات، تصبح كل هلوسة محتملة سببًا لفقدان الثقة.

وبالتالي كلما زادت قدرات الذكاء الاصطناعي، زادت الحاجة إلى التعامل معه كأداة مساعدة تحتاج لإشراف الشبشر على كل نتائج أو تحليل وبالتالي هو ليس مرجعا نهائيا، ورغم براعة نماذج مثل GPT-o3 وo4-mini في البرمجة والتحليل، فإن ميلها لتقديم “معلومات خاطئة بثقة” يجعل من الضروري أن يظل البشر في موقع التحقق والمراجعة.