ماذا تقول ميكانيكا الكم عن طبيعة الواقع؟
29 August 2025
نشرت بتاريخ 20 أغسطس 2025
منصة «ساي أرينا» تقيّم إجابات النماذج اللغوية الكبيرة في المواضيع الفنية، مستعينةً بتصويت الباحثين.
Andrey Rudakov/Bloomberg/Getty
تربع نموذج الذكاء الاصطناعي «o3»، الذي طورته الشركة المطورة لروبوت الدردشة «تشات جي بي تي»، على عرش تصنيف جديد يقيم أفضل نماذج الذكاء الاصطناعي أداءً في الإجابة عن الأسئلة العلمية في مختلف المجالات، وفقًا لمنصة للتدقيق والتحقق من المعايير أُطلقتْ في الأسبوع الثاني من شهر يوليو الجاري.
وكانت المنصة التي أُطلق عليها اسم «ساي أرينا»، والتي طورها معهد آلِن للذكاء الاصطناعي (Ai2) ومقره سياتل بولاية واشنطن الأمريكية، قد عمدتْ إلى تصنيف 23 نموذجًا لغويًّا كبيرًا (LLM)، بناء على جودة إجاباتها عن أسئلة علمية. وكان أن شارك 102 من الباحثين في تقييم جودة الإجابات، وبعد أكثر من 13 ألف تصويت، تبوّأ نموذج «o3» - الذي طورته شركة «أوبن إيه آي» بسان فرانسيسكو بولاية كاليفورنيا الأمريكية - المرتبة الأولى في الإجابة عن أسئلة في مجالات العلوم الطبيعية، والرعاية الصحية، والهندسة، والعلوم الإنسانية والاجتماعية.
ثم تلاه نموذج «ديبسيك-آر1» DeepSeek-R1، لمطورته شركة «ديبسيك» في هنجتشو بالصين، حيث حل في المرتبة الثانية في الإجابة عن أسئلة العلوم الطبيعية، وفي المرتبة الرابعة في الإجابة عن الاستفسارات في مجال الهندسة. أما «جيميناي-2.5-برو» Gemini-2.5-Pro، لمطورته شركة «جوجل»، فقد حل في المرتبة الثالثة في العلوم الطبيعية، والخامسة في مجالَي الهندسة والرعاية الصحية.
ويرجح أرمان كوهان، الباحث في معهد آلِن للذكاء الاصطناعي، أن تفضيل المستخدِمين لنموذج «o3» إنما مرده ميل النموذج إلى تقديم معلومات وافرة مفصلة حول الأدبيات العلمية التي يستشهد بها، فضلًا عن إجاباته التي تتسم بالدقة الفنية. غير أن الوقوف على سر تفاوت أداء النماذج يظل أمرًا بالغ الصعوبة، ذلك أن معظمها مشمول بحقوق الملكية. ويردف كوهان قائلًا إن من بين العوامل التي قد تفسر هذا التفاوت: اختلاف البيانات التي تدرّب عليها النموذج، واختلاف الأهداف التي صُمم النموذج لتحقيقها.
و«ساي أرينا» هي أحدث منصة طُورتْ لتقييم أداء نماذج الذكاء الاصطناعي في مهام محددة، كما أنها واحدة من أولى المنصات التي تلجأ إلى تقييمات مستخدمين خارجيين لتصنيف كفاءة هذه النماذج في المهام العلمية. وعن المنصة يقول راهول شوم، الباحث في علم الروبوتات والذكاء الاصطناعي بالجامعة الوطنية الأسترالية بكانبيرا: "تعد «ساي أرينا» خطوة إيجابية نحو تشجيع تقييم المهام البحثية المدعومة بالنماذج اللغوية الكبيرة تقييمًا دقيقًا".
اختيار عشوائي
طلبت المنصة من الباحثين طرح أسئلة علمية؛ بغية تصنيف النماذج اللغوية الثلاثة والعشرين. وتلقى الباحثون إجابات عن أسئلتهم من نموذجين اخْتيرَا اختيارًا عشوائيًّا، وقد دعم كل منهما إجابته بمراجع مأخوذة من محرك البحث «سيمانتيك سكولار» Semantic Scholar، وهو أداة بحثية تعتمد على الذكاء الاصطناعي طورها معهد آلِن كذلك. ثم صوّت الباحثون للاختيار ما بين واحد من ثلاثة خيارات هي: هل قدّم أحد النموذجين إجابات أفضل؛ أم أن أداءهما كان متقاربًا؛ أم أن كليهما قدّم أداءً متدنيًّا.
والمنصة متاحة حاليًّا للجماهير، وتتيح للمستخدمين طرح أسئلتهم البحثية دون مقابل. يحصل كافة المستخدمين على إجابات من نموذجين، ويُتاح لهم التصويت على أدائهما؛ غير أن التصويت المحتسب في التصنيف الرسمي - الذي تؤكد الشركة أنه سوف يُحدّث باستمرار - يقتصر على المستخدمين الذين جرى التحقق من هويتهم ووافقوا على الشروط والأحكام.
ويرى جوناثان كومرفلد، الباحث في مجال الذكاء الاصطناعي بجامعة سيدني الأسترالية، أن إتاحة الفرصة لطرح أسئلة على النماذج اللغوية الكبيرة في مواضيع علمية والثقةَ في دقة طرحها وإجاباتها - له فوائد جمة، أبرزها مساعدة الباحثين في متابعة آخر المنشورات العلمية في مجالاتهم. ويردف قائلًا: "من شأن تلك الأداة أن تعين الباحثين على الوصول إلى أعمال بحثية ربما كانت ستفوتهم لولاها".
ويرى كذلك أنه من بين مزايا المنصة قدرتها على تعزيز الابتكار في نماذج الذكاء الاصطناعي؛ إذ يوفر التصنيف وسيلة لقياس مدى التقدم المحرز تتسم بالشفافية. ويبدو أن المنصة قد أُحكم تصميمها بحيث تتفادى إشكاليات كتلاعب المستخدمين بالتقييمات - وهي إشكالية سبق رصدها في منصات تقييم أخرى.
غير أن واحدة من المشكلات المحتملة، بحسب كومرفلد، هي اعتماد المنصة إلى حد بعيد على مشاركة المستخدمين وتفاعلهم. فيسترسل قائلًا: "يعطي هؤلاء المستخدمون من وقتهم في مقابل الحصول على فرصة لاستخدام هذه الأداة. طالما أنهم يرون هذه المقايضة صفقة جيدة، فمن المحتمل أن تنجح الأداة؛ أما إذا شعروا أنها لا تقدم لهم قيمة حقيقية، فقد تواجه المنصة صعوبة في جذب عدد كافٍ من المشاركين. يقول كوهان إن المنصة تحفز المستخدمين من خلال إتاحتها بالمجان واحتوائها على أحدث النماذج المتوفرة. إضافة إلى ذلك، فإن المراجع التي يوفرها محرك البحث «سيمانتيك سكولار» تجعل الإجابات المقدمة ذات "فائدة" للباحثين.
ولا يغيب عن العلماء أن النماذج اللغوية الكبيرة قد تُنتج نصوصًا تتعارض مع الأوراق البحثية التي تستشهد بها، وقد تسيء فهم المصطلحات، بل قد تعجز أحيانًا عن تقديم إجابات دقيقة للأسئلة، كما ينوه شوم. ويضيف أن قراءة الملخصات التي تنتجها النماذج اللغوية الكبيرة للأوراق البحثية لا يُغني عن قراءة الأبحاث ذاتها.
هذه ترجمة المقال الإنجليزي المنشور بدورية Nature بتاريخ 10 يوليو 2025.
doi:10.1038/nmiddleeast.2025.138
تواصل معنا: