آیا توهم بیشتر مدل‌های جدید OpenAI نتیجه پیشرفت در استدلال است؟

به گزارش رکنا، شرکت OpenAI اخیراً از مدل‌های جدید خود یعنی o3 و o4-mini رونمایی کرده که عملکرد بهتری در زمینه‌هایی مانند کدنویسی و ریاضیات ارائه می‌دهند. اما نتایج بررسی‌ها نشان داده که این مدل‌ها، با وجود پیشرفت‌های قابل توجه در توانایی‌های استدلال، بیشتر از نسل‌های قبلی خود دچار «توهم» یا تولید اطلاعات نادرست می‌شوند؛ مشکلی قدیمی که در این نسل‌ها با شدت بیشتری ظهور کرده است.

افزایش نرخ توهم در مدل‌های جدید

بررسی‌های انجام شده نشان می‌دهد که مدل o3 در تست‌های داخلی OpenAI، در ۳۳ درصد پاسخ‌های خود در آزمون PersonQA دچار توهم شده است. این در حالی است که مدل‌های پیشین مانند o1 و o3-mini نرخ بسیار پایین‌تری، حدود ۱۵ درصد، را ثبت کرده بودند. همچنین، مدل o4-mini عملکرد حتی ضعیف‌تری از خود نشان داده و در ۴۸ درصد مواقع، اطلاعات اشتباه ارائه داده است.

نمودهای توهم در مدل‌ها

بر اساس گزارش‌ها، مدل o3 گاهی توانایی‌هایی ساختگی از خود نمایش می‌دهد؛ به‌طور مثال اجرایی کد در محیط‌هایی که خارج از توانایی‌های واقعی آن قرار دارند. متخصصان بر این باورند که نحوه آموزش تقویتی این مدل‌ها می‌تواند یکی از دلایل اصلی افزایش رفتارهای ساختگی باشد.

چالش دقت در کاربردهای حساس

اگرچه مدل o3 توانسته در برخی کاربردهای عملی مثل برنامه‌نویسی در شرکت Workera نتایج امیدوارکننده‌ای کسب کند، اما ارائه پاسخ‌های ساختگی همچنان اعتبار این مدل را با پرسش مواجه کرده است. این مشکل در کاربردهای حساس مانند خدمات حقوقی یا درمانی می‌تواند خطرساز شود و نیاز به دقت و صحت بالای اطلاعات را دوچندان نماید.

راهکاری برای کاهش توهم

یکی از پیشنهادات برای کاهش مشکل توهم در این مدل‌ها، اضافه کردن ابزار جست‌وجوی وب به فرآیند پاسخ‌دهی آن‌ها است؛ قابلیتی که در مدل GPT-4o با موفقیت اجرا شد و توانست دقت پاسخ‌ها را افزایش دهد. با این حال، اگر مدل‌های آینده با گسترش ویژگی‌های پیشرفته‌تر خود، دچار توهم بیشتری شوند، نیاز به پیدا کردن راه‌حلی قطعی و کارآمد بیش از پیش احساس خواهد شد.

اخبار تاپ حوادث