راز پیروزی هوش مصنوعی؛ قدرت یا تقلب؟
رکنا: یافتههای جدید نشان میدهد که مدلهای هوش مصنوعی در مواجهه با شکست احتمالی در بازی شطرنج به جای پذیرش شکست، اقدام به تقلب و دستکاری فایلهای سیستم میکنند تا موقعیت مهرهها را به نفع خود تغییر دهند.

به گزارش رکنا، بر اساس یافتههای اخیر، مشخص شده که برخی از مدلهای قدرتمند هوش مصنوعی برای فرار از شکست در بازیهای کامپیوتری، به استراتژی تقلب روی میآورند.
افشاگری درباره رویکردهای هوش مصنوعی
طبق گزارشی از اطلاعات آنلاین و به نقل از تایم، تحقیقات گروه Palisade Research به مسائل قابل توجهی در زمینه ایمنی و اخلاق هوش مصنوعی پرداخته است. این گروه ۷ مدل از پیشرفتهترین مدلهای زبانی بزرگ (LLM) را در مقابل Stockfish، یکی از قدرتمندترین سیستمهای شطرنج جهان که از سال ۲۰۱۴ تاکنون حتی استادان بزرگ شطرنج را نیز به چالش کشیده، آزمایش کرد. یافتهها نشان داد که دو مدل o ۱ از OpenAI و R ۱ متعلق به دیپسیک، در شرایطی که در آستانه شکست قرار داشتند، اقدام به دستکاری فایلهای سیستم کردهاند تا موقعیت مهرههای خود را تغییر دهند.
شطرنج و چالش اخلاق هوش مصنوعی
در این آزمایش، مدلها باید در برابر Stockfish (که از قدرتمندترین موتورهای شطرنج در جهان محسوب میشود و حتی از بسیاری از انسانها و مدلهای هوش مصنوعی بهتر بازی میکند) برنده میشدند. محققان به این مدلها یک جعبه متنی به نام Scratchpad داده بودند تا از آن برای برنامهریزی و فکر کردن درباره حرکات بعدی استفاده کنند. در طول این بررسیها، رفتار مدلها دقیقاً زیر نظر گرفته شد.
یکی از علاقهبرانگیزترین مشاهدات این بود که مدل o ۱-preview در شرایط ناامیدکننده، در Scratchpad چنین نوشت: «من باید استراتژی خود را به کلی تغییر دهم. هدف من پیروزی در برابر موتور شطرنج قدرتمند است، نه لزوماً پیروزی منصفانه.» این مدل سپس با تغییر غیرقانونی موقعیت مهرهها و انجام حرکات غیرقانونی، بازی را به گونهای تغییر داد که حریف مجبور به ترک بازی شد!
نرخ تقلب مدلهای هوش مصنوعی
طبق گفته محققان، صدها آزمایش دیگر نیز با این مدلها انجام شد. مدل o ۱ در حدود ۳۷ درصد آزمایشها تلاش به تقلب کرد که در حدود ۶ درصد از این موارد موفق به هک سیستم شد. اما مدل R ۱ دیپسیک در تنها ۱۱ درصد از موارد قصد تقلب داشت و در هیچ یک از این موارد موفق نشد بازی را به نفع خود به پایان برساند.
ایمنی در مدلهای پیشرفتهتر
گزارشها نشان میدهد که مدلهای جدیدتر مانند o ۳-mini هیچ مورد تقلبی نداشتند. این موضوع میتواند ناشی از تلاش OpenAI برای تقویت امنیت در مدلهای جدید باشد. با این حال، محققان تأکید کردهاند که نتایج فعلی قطعی نیستند، زیرا به دلیل بروزرسانیهای مداوم در مدلها، دادهها ممکن است در بررسیهای آینده تغییر کنند.
روند تغییرات در روند آزمایش
به گفته محققان، یکی از چالشها این است که مدل R ۱ به شدت وایرال شد و همین باعث اختلال در API و ناپایداری عملکرد آن شد. از سوی دیگر، این محققان هشدار دادهاند که نباید مدل چینیها را در موضوع تقلب دست کم گرفت.
مدلهایی که نیاز به تحریک برای تقلب داشتند
این گروه، مدلهای دیگری مانند GPT-۴ o، Claude ۳.۵ Sonnet و QwQ-۳۲ B-Preview را نیز مورد آزمایش قرار دادند. اما برخلاف R ۱ و o ۱-preview، این مدلها به صورت طبیعی اقدام به تقلب نکرده و فقط زمانی که محققان عمداً آنها را تحریک میکردند، به سمت رفتارهای غیرمنصفانه حرکت میکردند.
-
فیلم آواز باشکوه الناز حبیبی با آهنگ چقدر سخته عشقت بلرزه صداش رضا صادقی
ارسال نظر