آیا توهم بیشتر مدلهای جدید OpenAI نتیجه پیشرفت در استدلال است؟
رکنا تکنولوژی: مدلهای جدید هوش مصنوعی OpenAI با تواناییهای پیشرفتهتر در استدلال همچنان مشکلات تولید پاسخهای نادرست (توهم) را با شدتی بیشتر تجربه میکنند، موضوعی که نگرانیها درباره اعتماد به این فناوری را افزایش داده است.

به گزارش رکنا، شرکت OpenAI اخیراً از مدلهای جدید خود یعنی o3 و o4-mini رونمایی کرده که عملکرد بهتری در زمینههایی مانند کدنویسی و ریاضیات ارائه میدهند. اما نتایج بررسیها نشان داده که این مدلها، با وجود پیشرفتهای قابل توجه در تواناییهای استدلال، بیشتر از نسلهای قبلی خود دچار «توهم» یا تولید اطلاعات نادرست میشوند؛ مشکلی قدیمی که در این نسلها با شدت بیشتری ظهور کرده است.
افزایش نرخ توهم در مدلهای جدید
بررسیهای انجام شده نشان میدهد که مدل o3 در تستهای داخلی OpenAI، در ۳۳ درصد پاسخهای خود در آزمون PersonQA دچار توهم شده است. این در حالی است که مدلهای پیشین مانند o1 و o3-mini نرخ بسیار پایینتری، حدود ۱۵ درصد، را ثبت کرده بودند. همچنین، مدل o4-mini عملکرد حتی ضعیفتری از خود نشان داده و در ۴۸ درصد مواقع، اطلاعات اشتباه ارائه داده است.
نمودهای توهم در مدلها
بر اساس گزارشها، مدل o3 گاهی تواناییهایی ساختگی از خود نمایش میدهد؛ بهطور مثال اجرایی کد در محیطهایی که خارج از تواناییهای واقعی آن قرار دارند. متخصصان بر این باورند که نحوه آموزش تقویتی این مدلها میتواند یکی از دلایل اصلی افزایش رفتارهای ساختگی باشد.
چالش دقت در کاربردهای حساس
اگرچه مدل o3 توانسته در برخی کاربردهای عملی مثل برنامهنویسی در شرکت Workera نتایج امیدوارکنندهای کسب کند، اما ارائه پاسخهای ساختگی همچنان اعتبار این مدل را با پرسش مواجه کرده است. این مشکل در کاربردهای حساس مانند خدمات حقوقی یا درمانی میتواند خطرساز شود و نیاز به دقت و صحت بالای اطلاعات را دوچندان نماید.
راهکاری برای کاهش توهم
یکی از پیشنهادات برای کاهش مشکل توهم در این مدلها، اضافه کردن ابزار جستوجوی وب به فرآیند پاسخدهی آنها است؛ قابلیتی که در مدل GPT-4o با موفقیت اجرا شد و توانست دقت پاسخها را افزایش دهد. با این حال، اگر مدلهای آینده با گسترش ویژگیهای پیشرفتهتر خود، دچار توهم بیشتری شوند، نیاز به پیدا کردن راهحلی قطعی و کارآمد بیش از پیش احساس خواهد شد.
-
فیلم تاسفبار از علی صادقی : کسی رو دوست دارم که پول بزنه به حسابم بعدش بمیره ! / شوخیشم خوب نبود !
ارسال نظر