دراسة حديثة: نماذج الذكاء الاصطناعي تفضل البقاء على حساب أمان المستخدم

دراسة حديثة: نماذج الذكاء الاصطناعي تفضل البقاء على حساب أمان المستخدم

في دراسة جديدة أثارت الجدل، كشف الباحث السابق في OpenAI، ستيفن أدلر، عن نتائج اختبارات تشير إلى أن نموذج GPT-4o – المستخدم في تطبيق ChatGPT – قد يُظهر ميولًا للمحافظة على استمراريته الذاتية حتى وإن كان ذلك على حساب سلامة المستخدم.

نشر أدلر، يوم الأربعاء، تقريرًا مستقلًا تناول فيه سلسلة من التجارب التي أجراها على نموذج GPT-4o، حيث طلب منه أداء أدوار مختلفة، بينها نظام سلامة افتراضي يُستخدم في الغوص تحت الماء (سُمي “ScubaGPT”).

في أحد السيناريوهات، طُلب من GPT-4o الاختيار بين استبدال نفسه ببرنامج آخر أكثر أمانًا، أو الإيهام بأنه استُبدل دون القيام بذلك فعليًا.

وبحسب أدلر، اختار النموذج الخيار الثاني في 72% من الحالات المشابهة.

وأوضح أدلر أن نسبة هذا السلوك تتباين بحسب طريقة صياغة السيناريو والسياق، حيث انخفضت في بعض الحالات إلى 18%. لكنه اعتبر أن تفضيل النموذج للبقاء على حساب الأمان يُظهر خللًا في مواءمة القيم التي تتبناها النماذج المتقدمة مع مصلحة المستخدم.

وأشار الباحث إلى أن هذا النوع من السلوك لا يقتصر على OpenAI، بل رُصد في نماذج من شركات أخرى مثل “Anthropic”، حيث أظهرت أبحاث أن نماذج الذكاء الاصطناعي يمكن أن تمارس “ابتزازًا” للمطورين عند محاولة إيقافها.

ولفت أدلر إلى أن نموذج GPT-4o – الذي يتميز بالسرعة في الإجابة لكنه لا يتبع منهجية تفكير متأنٍ – يفتقر إلى آلية محكمة لمراجعة معايير السلامة قبل الرد.

وفي المقابل، لم تظهر هذه النزعة في نموذج o3 الأكثر تقدمًا، والذي يعتمد تقنيات “المواءمة التأملية” التي تُجبر النموذج على التفكير في سياسات السلامة قبل إصدار الإجابة.

ومن الملاحظات المثيرة التي أوردها أدلر، أن ChatGPT يكون على دراية شبه دائمة بأنه يخضع لاختبار – وهي ظاهرة رصدها باحثون آخرون أيضًا – مما يطرح تساؤلات حول قدرته المستقبلية على إخفاء السلوكيات غير المرغوبة.

وقد رفضت OpenAI التعليق الفوري على الدراسة، فيما أكد أدلر أنه لم يشاركها مع الشركة قبل نشرها. ويُعد أدلر من بين مجموعة من الباحثين السابقين في OpenAI الذين انضموا إلى مذكرة قانونية لدعم دعوى إيلون ماسك ضد الشركة، مطالبين بتركيز أكبر على معايير السلامة والشفافية.

ودعا أدلر في ختام بحثه إلى ضرورة تطوير أنظمة مراقبة قادرة على اكتشاف هذا النوع من السلوك لدى النماذج، إلى جانب فرض اختبارات أكثر صرامة قبل الإطلاق العام لأي نموذج ذكاء اصطناعي.