أثارت شركة ميتا جدلاً واسعاً في أوساط الباحثين والمطورين في مجال الذكاء الاصطناعي، وذلك عقب إعلانها عن نتائج اختبار أداء أحد نماذجها الجديدة للذكاء الاصطناعي والذي يحمل اسم “مافريك”. فبحسب بيانات نشرتها الشركة، جاء هذا النموذج في المركز الثاني على منصة “إل إم أرينا” (LM Arena)، وهي منصة تختبر النماذج من خلال مقارنة ردودها وتقييمها من قبل مستخدمين بشريين.
إلا أن عدداً من الباحثين أشاروا إلى أن النسخة التي استخدمتها ميتا في هذا التقييم تختلف عن النسخة المتاحة للمطورين. فقد أوضحت ميتا في إعلانها الرسمي أن النسخة التي تم اختبارها على منصة “إل إم أرينا” هي “نسخة دردشة تجريبية”، كما أظهر رسم بياني على موقع Llama الرسمي أن الاختبار تم باستخدام إصدار “Llama 4 Maverick” الذي تم تحسينه خصيصاً للمحادثات.
هذه التفاصيل أثارت تساؤلات حول مدى شفافية ميتا في الإعلان عن نتائج اختبارات النماذج، خاصة وأنها لم توضح منذ البداية أن النسخة التي حققت الترتيب المتقدم تم تعديلها خصيصاً لهذا الغرض.
وتكمن المشكلة في هذا النهج في أن تكييف النموذج لاختبار معين ومن ثم حجب تلك النسخة عند الإطلاق العام، يخلق فجوة كبيرة في توقعات المطورين. فحين يُطرح نموذج “عادي” للجمهور، تختلف نتائجه وقدراته الفعلية عن تلك التي تم الإعلان عنها سابقاً، مما يؤدي إلى تضليل المستخدمين ويؤثر على قراراتهم في الاعتماد على النموذج.
من المعروف أن منصة “إل إم أرينا” لا تُعتبر المعيار الأكثر دقة في قياس أداء نماذج الذكاء الاصطناعي، وقد أُشير سابقاً إلى محدوديتها في توفير صورة متكاملة عن قوة وضعف كل نموذج. ومع ذلك، لم يسبق أن قامت الشركات الأخرى بإجراء تعديلات على نماذجها بهدف تحقيق نتائج أعلى في هذا الاختبار – أو على الأقل لم تعترف بذلك علناً.
ويبدو أن الاختلافات بين النسخة المُحسنة لنموذج “مافريك” وتلك المتاحة للتنزيل العلني واضحة جداً، بحسب ملاحظات عدد من الباحثين على منصة “إكس” (تويتر سابقاً). فقد أشاروا إلى أن النسخة المستخدمة في منصة “إل إم أرينا” تعتمد بشكل مفرط على الرموز التعبيرية (إيموجي)، كما أنها تقدم إجابات مطولة بشكل غير معتاد، مما يعكس اختلافاً واضحاً في السلوك مقارنة بالنسخة العامة.
في النهاية، تكشف هذه الحادثة عن تحديات جديدة تتعلق بقياس أداء نماذج الذكاء الاصطناعي وتقديم نتائج شفافة تعكس الواقع بدقة. ومع تطور هذه النماذج واعتماد المستخدمين المتزايد عليها، يصبح من الضروري على الشركات مثل ميتا أن تلتزم بمستوى أعلى من الشفافية، خاصة عندما يتعلق الأمر باختبارات الأداء والتقنيات المستخدمة في التقييم.