عدم موفقیت مدل هوش مصنوعی Maverick متا در رقابت های بنچمارک علمی
رکنا تکنولوژی: مدل هوش مصنوعی Maverick متا که نسخهی جدیدی از خانوادهی Llama 4 محسوب میشود، بهدلیل استفاده از نسخهی آزمایشی در بنچمارکها و عملکرد ضعیف نسخهی رسمی، نتوانست جایگاه رقبا را تصاحب کند و باعث تغییر سیاستهای پلتفرم LM Arena شد.

به گزارش رکنا، مدل هوش مصنوعی Maverick شرکت متا که بهتازگی بهعنوان نسخهای پیشرفته از خانواده Llama 4 رونمایی شده بود، توجهات زیادی را به خود جلب کرد، اما نه به شکلی که انتظار میرفت. در روزهای گذشته مشخص شد که متا برای ثبت امتیاز بالا در بنچمارک LM Arena، از نسخه آزمایشی و منتشرنشده مدل Maverick استفاده کرده است. این اقدام باعث شد که LM Arena مجبور به عذرخواهی رسمی شود و سیاستهای خود را تغییر دهد تا امتیازدهیها بر اساس نسخههای اصلی و اصلاحنشده مدلهای هوش مصنوعی انجام پذیرد.
عملکرد ضعیف و جایگاه پایین در میان رقبا
نسخه رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، نتوانست انتظارات را برآورده کند و جایگاهی پایینتر از مدلهای رقیب نظیر GPT-4o، Claude 3.5 Sonnet و جمینای ۱٫۵ پرو به دست آورد. مدلهایی که پیشتر و طی ماههای گذشته معرفی شده بودند، در این بنچمارک عملکردی بهتر از Maverick ثبت کردند.
علت عملکرد ضعیف Maverick اصلی چیست؟
سؤال مهم این است که چرا نسخه اصلی Maverick چنین عملکرد ضعیفی داشت؟ طبق اعلام متا، نسخه آزمایشی این مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته میشود، برای مکالمهسازی بهینهسازی شده بود. این بهینهسازیها در پلتفرم LM Arena باعث موفقیت نسبی شدند، زیرا این پلتفرم مبتنی بر مقایسه و انتخاب پاسخهای بهتر توسط انسانها عمل میکند.
تاثیر سیاستهای بنچمارک بر توسعه مدلها
با این حال، پلتفرم LM Arena هرگز نمیتواند معیاری مطمئن برای ارزیابی عملکرد واقعی مدلها باشد. بهینهسازی مدلهای هوش مصنوعی تنها برای موفقیت در یک بنچمارک خاص نهتنها گمراهکننده است، بلکه امکان درک دقیق قابلیتهای مدل در شرایط و سناریوهای مختلف را برای توسعهدهندگان دشوار میکند.
-
فیلم آواز باشکوه و شاد پسر بچه خوش تیپ با آهنگ بندری ! / رقصش هم دلتان را می برد !
ارسال نظر