Rokna Ads

چرا مدل هوش مصنوعی O3 شرکت OpenAI انتظارات را برآورده نکرد؟

کدخبر: 1113435 ۱۴۰۴/۰۲/۰۱ ۱۰:۳۹:۰۴

لینک کپی شد

رکنا تکنولوژی: مدل هوش مصنوعی o3 شرکت OpenAI برخلاف ادعاهای اولیه توانست تنها 10 درصد از سؤالات مجموعه ریاضی FrontierMath را پاسخ دهد؛ اختلاف چشمگیر نتایج، شفافیت ارزیابی‌های OpenAI را زیر سؤال برده است.

کدخبر: 1113435 ۱۴۰۴/۰۲/۰۱ ۱۰:۳۹:۰۴

لینک کپی شد

چرا مدل هوش مصنوعی O3 شرکت OpenAI انتظارات را برآورده نکرد؟

فهرست محتوا

عملکرد کمتر از انتظار در تست‌های FrontierMath
تفاوت نسخه‌های آزمایشی و عمومی
توضیحات OpenAI و وعده مدل جدید o3-pro
ضرورت بازنگری در اعتبار بنچمارک‌ها

به گزارش رکنا، شرکت OpenAI در دسامبر ۱۴۰۳ از مدل هوش مصنوعی o3 رونمایی کرد. این مدل ابتدا با ادعای پاسخ‌دهی به بیش از ۲۵ درصد از سؤالات زمینه ریاضی FrontierMath توجه‌ها را جلب کرد؛ ادعایی که عملکردی فراتر از دیگر مدل‌های موجود را نشان می‌داد. اما بررسی‌های مستقل مؤسسه‌ی Epoch AI این ادعاها را به چالش کشیده است.

عملکرد کمتر از انتظار در تست‌های FrontierMath

ارزیابی‌های صورت‌گرفته نشان می‌دهند که مدل o3 تنها حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده است؛ عددی بسیار پایین‌تر از ارقام اعلامی اولیه توسط OpenAI. این اختلاف میان ادعاها و نتایج مستقل سبب ایجاد بحث‌هایی در مورد شفافیت و نحوه‌ی انجام تست‌های بنچمارک‌شده توسط این شرکت شده است.

تفاوت نسخه‌های آزمایشی و عمومی

بنیاد ARC Prize توضیح داده است که نسخه‌ی عمومی مدل o3 با نمونه مورد استفاده در بنچمارک‌های اولیه تفاوت‌های قابل توجهی دارد. نسخه‌ی نهایی این مدل برای کاربردهای روزمره مانند چت بهینه‌سازی شده است. در نتیجه، مدل o3 ممکن است در تست‌های سنگین عملکرد کمتری داشته باشد، اما برای استفاده‌های واقعی از کارایی بیشتری برخوردار خواهد بود.

توضیحات OpenAI و وعده مدل جدید o3-pro

شرکت OpenAI تأیید کرده است که نسخه نهایی مدل o3 با هدف کاهش هزینه‌ها و افزایش سرعت بهینه شده است و تفاوت‌هایی با نسخه نمایشی اولیه در نتایج بنچمارک دارد. این شرکت همچنین وعده داده است که مدل تازه‌ای تحت نام o3-pro در آینده‌ی نزدیک روانه بازار خواهد کرد؛ مدلی که انتظار می‌رود قدرت پردازشی بیشتری داشته باشد.

ضرورت بازنگری در اعتبار بنچمارک‌ها

ماجرای نتایج نسبتا غیرمنتظره مدل o3 بار دیگر موضوع اعتبار بنچمارک‌های مدل‌های هوش مصنوعی را به‌میان آورده است. در بازار رقابتی کنونی، شرکت‌ها گاه اطلاعات خود را به‌صورت گزینشی منتشر می‌کنند تا توجه بیشتری جلب کنند. این رویه نشان می‌دهد که کاربران و کارشناسان باید همواره با دقت بیشتری نتایج بنچمارک‌های ارائه شده توسط شرکت‌ها را مورد ارزیابی قرار دهند.