دراسة تكشف: 60% من إجابات أدوات الذكاء الاصطناعي تفتقر للدقة

نسبة دقة شات جي بي تي لا تتجاوز الـ 28%

دراسة تكشف: 60% من إجابات أدوات الذكاء الاصطناعي تفتقر للدقة
نيفين نبيل

نيفين نبيل

5:23 م, الأربعاء, 12 مارس 25

في ظل التوسع السريع لاستخدام الذكاء الاصطناعي في مختلف المجالات، لا تزال قضية الدقة والموثوقية تشكل تحديًا كبيرًا للمطورين. كشفت دراسة حديثة أجراها مركز تاو للصحافة الرقمية عن نسب دقة منخفضة لمحركات بحث الذكاء الاصطناعي، حيث تبين أن 60% من الإجابات التي تقدمها هذه الأدوات غير دقيقة.

قام الباحثون باختبار ثمانية من أبرز محركات بحث الذكاء الاصطناعي، بما في ذلك ChatGPT Search، وPerplexity، وGemini، وDeepSeek Search، وGrok-2 Search، وGrok-3 Search، وCopilot وتم تقييم أداء كل أداة بناءً على قدرتها على الاستشهاد بشكل صحيح بالمقالات الإخبارية، والمؤسسات الناشرة، وعناوين URL.

اختار الباحثون عشوائيًا 200 مقالة إخبارية من 20 ناشرًا إخباريًا (10 لكل منها). وتأكدوا من ظهور كل مقال ضمن أفضل ثلاث نتائج في بحث جوجل عند استخدام مقتطف مقتبس منه. ثم أجروا نفس الاستعلام داخل كل أداة بحث للذكاء الاصطناعي، وقيّموا الدقة بناءً على ما إذا كان البحث قد استشهد بشكل صحيح بـ: أ) المقال، ب) المؤسسة الإخبارية، ج) عنوان URL.

النتائج الرئيسية:

  • كانت محركات بحث الذكاء الاصطناعي غير دقيقة بنسبة 60% من الوقت.
  • أظهرت أدوات مثل Grok-3 Search وCopilot نسب دقة منخفضة بشكل ملحوظ، حيث بلغت نسبة عدم الدقة 94% و70% على التوالي.
  • ChatGPT Search، على الرغم من إجابته على جميع الاستفسارات، كان دقيقًا بنسبة 28% فقط، وغير دقيق تمامًا في 57% من الحالات.
  • أظهرت النسخ المدفوعة من بعض الأدوات، مثل Perplexity Pro وGrok-3 Search، تحسنًا طفيفًا في الدقة مقارنة بالإصدارات المجانية، لكنها كانت لا تزال بعيدة عن المستوى المطلوب.

أثارت الدراسة تساؤلات حول شفافية الشركات المطورة لهذه الأدوات، خاصة مع فرضها رسومًا شهرية تتراوح بين 20 و200 دولار للوصول إلى إصدارات متقدمة من نماذج الذكاء الاصطناعي، دون تقديم ضمانات كافية بشأن دقة النتائج.

تُظهر هذه الدراسة أن محركات بحث الذكاء الاصطناعي لا تزال تواجه تحديات كبيرة في تحقيق الدقة المطلوبة، مما يستدعي مزيدًا من الجهود لتحسين أدائها وزيادة شفافيتها. في الوقت نفسه، تبقى هذه الأدوات واعدة، لكنها تحتاج إلى تطوير أكبر لتلبية توقعات المستخدمين.

نيفين نبيل

نيفين نبيل

5:23 م, الأربعاء, 12 مارس 25