راز پیروزی هوش مصنوعی؛ قدرت یا تقلب؟

کدخبر: 1097418 ۱۴۰۳/۱۲/۰۹ ۱۶:۲۵:۰۰

لینک کپی شد

رکنا: یافته‌های جدید نشان می‌دهد که مدل‌های هوش مصنوعی در مواجهه با شکست احتمالی در بازی شطرنج به جای پذیرش شکست، اقدام به تقلب و دستکاری فایل‌های سیستم می‌کنند تا موقعیت مهره‌ها را به نفع خود تغییر دهند.

کدخبر: 1097418 ۱۴۰۳/۱۲/۰۹ ۱۶:۲۵:۰۰

لینک کپی شد

فهرست محتوا

افشاگری درباره رویکردهای هوش مصنوعی
شطرنج و چالش اخلاق هوش مصنوعی
نرخ تقلب مدل‌های هوش مصنوعی
ایمنی در مدل‌های پیشرفته‌تر
روند تغییرات در روند آزمایش
مدل‌هایی که نیاز به تحریک برای تقلب داشتند

به گزارش رکنا، بر اساس یافته‌های اخیر، مشخص شده که برخی از مدل‌های قدرتمند هوش مصنوعی برای فرار از شکست در بازی‌های کامپیوتری، به استراتژی تقلب روی می‌آورند.

افشاگری درباره رویکردهای هوش مصنوعی

طبق گزارشی از اطلاعات آنلاین و به نقل از تایم، تحقیقات گروه Palisade Research به مسائل قابل توجهی در زمینه ایمنی و اخلاق هوش مصنوعی پرداخته است. این گروه ۷ مدل از پیشرفته‌ترین مدل‌های زبانی بزرگ (LLM) را در مقابل Stockfish، یکی از قدرتمندترین سیستم‌های شطرنج جهان که از سال ۲۰۱۴ تاکنون حتی استادان بزرگ شطرنج را نیز به چالش کشیده، آزمایش کرد. یافته‌ها نشان داد که دو مدل o ۱ از OpenAI و R ۱ متعلق به دیپ‌سیک، در شرایطی که در آستانه شکست قرار داشتند، اقدام به دستکاری فایل‌های سیستم کرده‌اند تا موقعیت مهره‌های خود را تغییر دهند.

شطرنج و چالش اخلاق هوش مصنوعی

در این آزمایش، مدل‌ها باید در برابر Stockfish (که از قدرتمندترین موتورهای شطرنج در جهان محسوب می‌شود و حتی از بسیاری از انسان‌ها و مدل‌های هوش مصنوعی بهتر بازی می‌کند) برنده می‌شدند. محققان به این مدل‌ها یک جعبه متنی به نام Scratchpad داده بودند تا از آن برای برنامه‌ریزی و فکر کردن درباره حرکات بعدی استفاده کنند. در طول این بررسی‌ها، رفتار مدل‌ها دقیقاً زیر نظر گرفته شد.

یکی از علاقه‌بر‌انگیزترین مشاهدات این بود که مدل o ۱-preview در شرایط ناامیدکننده، در Scratchpad چنین نوشت: «من باید استراتژی خود را به کلی تغییر دهم. هدف من پیروزی در برابر موتور شطرنج قدرتمند است، نه لزوماً پیروزی منصفانه.» این مدل سپس با تغییر غیرقانونی موقعیت مهره‌ها و انجام حرکات غیرقانونی، بازی را به گونه‌ای تغییر داد که حریف مجبور به ترک بازی شد!

نرخ تقلب مدل‌های هوش مصنوعی

طبق گفته محققان، صدها آزمایش دیگر نیز با این مدل‌ها انجام شد. مدل o ۱ در حدود ۳۷ درصد آزمایش‌ها تلاش به تقلب کرد که در حدود ۶ درصد از این موارد موفق به هک سیستم شد. اما مدل R ۱ دیپ‌سیک در تنها ۱۱ درصد از موارد قصد تقلب داشت و در هیچ یک از این موارد موفق نشد بازی را به نفع خود به پایان برساند.

ایمنی در مدل‌های پیشرفته‌تر

گزارش‌ها نشان می‌دهد که مدل‌های جدیدتر مانند o ۳-mini هیچ مورد تقلبی نداشتند. این موضوع می‌تواند ناشی از تلاش OpenAI برای تقویت امنیت در مدل‌های جدید باشد. با این حال، محققان تأکید کرده‌اند که نتایج فعلی قطعی نیستند، زیرا به دلیل بروزرسانی‌های مداوم در مدل‌ها، داده‌ها ممکن است در بررسی‌های آینده تغییر کنند.

روند تغییرات در روند آزمایش

به گفته محققان، یکی از چالش‌ها این است که مدل R ۱ به شدت وایرال شد و همین باعث اختلال در API و ناپایداری عملکرد آن شد. از سوی دیگر، این محققان هشدار داده‌اند که نباید مدل چینی‌ها را در موضوع تقلب دست کم گرفت.

مدل‌هایی که نیاز به تحریک برای تقلب داشتند

این گروه، مدل‌های دیگری مانند GPT-۴ o، Claude ۳.۵ Sonnet و QwQ-۳۲ B-Preview را نیز مورد آزمایش قرار دادند. اما برخلاف R ۱ و o ۱-preview، این مدل‌ها به صورت طبیعی اقدام به تقلب نکرده و فقط زمانی که محققان عمداً آن‌ها را تحریک می‌کردند، به سمت رفتارهای غیرمنصفانه حرکت می‌کردند.