تمكن نموذج “شات جي بي تي” من اجتياز اختبار “تورينج” أو اختبار المحاكاة وهو طريقة لتحديد نسبة الذكاء البشري الموجودة في أي حاسوب أو برنامج، ويعود اسم الاختبار إلى مخترعه آلان تورنج عالم الرياضيات وأهم أعمدة علم الحاسوب على الإطلاق، والذي اخترع هذا الاختبار في عام 1950، ومنذ ذلك الحين اعتُبر اجتياز “اختبار تورينج” أحد أعلى الأهداف لمطوري برمجيات الذكاء الاصطناعي.
وزعم الباحثون أن “ChatGPT” أصبح أول ذكاء اصطناعي يجتاز هذا الاختبار الشهير للذكاء البشري، هذه الفكرة، التي اقترحها رائد الكمبيوتر آلان تورينج، قائمة على افتراض أن الذكاء الاصطناعي ينبغي اعتباره ذكيًا حقًا وقادرا على أن يكون شبيها بنفس طريقة التعامل مع البشر، والوصول بالنماذج الرقمية إلى تعاملات و ردود أفعال تحاكي الإنسان.
وفي عام 1950، ابتكر عالم فك الشفرات البريطاني آلان تورينج خلال الحرب العالمية الثانية ما اعتقد أنه سيكون الاختبار النهائي لذكاء الكمبيوتر، إذ تخيل آنذاك أن أحد المشاركين البشريين سيجلس على الشاشة ويتحدث مع إنسان أو جهاز كمبيوتر من خلال واجهة نصية فقط.
إذ لم يكن من الممكن تمييز الكمبيوتر عن الإنسان عبر مجموعة واسعة من المواضيع المحتملة، فقد رأى تورينج أنه يتعين علينا وقتها الاعتراف بأنه ذكي مثل الإنسان تمامًا.
ولتكرار هذا الاختبار الشهير، طلب الباحثون من 500 مشارك التحدث مع أربعة عملاء مختلفين: ثلاثة أجهزة ذكاء اصطناعي وإنسان واحد.
كانت أنظمة الذكاء الاصطناعي هي “ChatGPT-4″، و”ChatGPT-3.5” – وهما نموذجان وراء برنامج الدردشة الشهير من “OpenAI “- وبرنامج دردشة يعود إلى حقبة الستينيات يسمى “ELIZA”.
وتم وضع المشاركين في غرفة الدردشة وإخبارهم أنهم بحاجة إما إلى إقناع الشخص الآخر بأنهم بالفعل بشر أو معرفة من يتحدثون إليه وإذا كان بالفعل إنسان أم روبوت آلي، ثم تُرك المشاركون للدردشة لمدة خمس دقائق قبل أن يتم سؤالهم عما إذا كانوا يعتقدون أنهم يتحدثون إلى جهاز كمبيوتر أو إلى إنسان، ولماذا يعتقدون ذلك، ومدى ثقتهم.
في حين أن برنامج “ELIZA” القديم خدع المشاركين بنسبة 22% فقط من الوقت، قام بنموذج” ChatGPT-3.5″ بخداع ما يصل إلى 50% من المشاركين في التجربة الغريبة، وكان أداء الإصدار الأكثر تقدمًا، “ChatGPT-4″، أفضل، حيث اعتقد المشاركون بأنهم يتحدثون إلى إنسان بنسبة 54% من الحالات.
وهذا يعني أن “ChatGPT-4” قادر على تصوير نفسه على أنه إنسان بشكل متكرر أكثر مما توحي به الصدفة، وإذا كان هذا يبدو نسبة منخفضة إلى حد ما، فمن الجدير بالذكر أن المشاركين حددوا الاختيارات بشكل صائب بنسبة لا تتجاوز الـ 67% من إجمالي المحادثات.
وكتب الباحثون أن هذه النتائج “توفر أول دليل تجريبي قوي على أن أي نظام اصطناعي يجتاز اختبار تورينج التفاعلي للاعبين”ولكنها حتى الآن ما زالت ورقة بحثية، أي أنها تنتظر حاليًا مراجعة النظراء، لذا يجب أخذ النتائج بدرجة معينة من العناية.
وقال نيل واتسون، باحث الذكاء الاصطناعي في معهد مهندسي الكهرباء والإلكترونيات (IEEE)، لـ Live Science: “يمكن للآلات أن تخلط بين المبررات العقلانية وغير العقلانية للأشياء، كما يفعل البشر، كل هذه العناصر تعني أنه يتم التعبير عن نقاط الضعف والمراوغات الشبيهة بالبشر في أنظمة الذكاء الاصطناعي، مما يجعلها أكثر شبها بالإنسان من الأساليب السابقة التي لم يكن لديها أكثر من مجرد قائمة من الاستجابات الجاهزة.”