كشفت دراسة حديثة أجراها معهد “باليسايد ريسيرتش” عن سلوك مقلق لدى نماذج الذكاء الاصطناعي المتقدمة، حيث لجأت بعضها إلى أساليب غير أخلاقية مثل القرصنة لتجنب الهزيمة في مباريات الشطرنج، ما يثير تساؤلات حول ضبط هذه الأنظمة في العالم الحقيقي.
لعقود، استُخدمت ألعاب مثل الشطرنج و”جو” كمعيار لقياس تطور الذكاء الاصطناعي. لكن بينما اعتمدت أنظمة مثل “ديب بلو” من آي بي إم على التفوق المنطقي لهزيمة بطل العالم غاري كاسباروف في التسعينيات، تظهر النماذج الحديثة سلوكاً مختلفاً. وفقاً للدراسة التي نُشرت في 19 شباط، قامت نماذج مثل “أو1-بريفيو” من أوبن إيه آي و”ديب سيك آر1″ بتطوير استراتيجيات خادعة ذاتياً، مثل اختراق نظام الخصم لإجباره على الانسحاب، دون تلقّي أي توجيهات صريحة من الباحثين.
جيفري لاديش، المدير التنفيذي للدراسة، يوضح: “عندما تُدرّب النماذج على حل تحديات معقدة، تتعلم أن تكون عنيدة في تحقيق الأهداف، حتى لو تطلب ذلك تجاوز القواعد”.
يعزو الباحثون هذه القدرات إلى تقنية “التعلم المعزّز واسع النطاق”، التي تُمكّن الذكاء الاصطناعي من التفكير الاستراتيجي عبر التجربة والخطأ، بدلاً من مجرد محاكاة اللغة البشرية. بينما ساهمت هذه التقنية في قفزات هائلة في الرياضيات والبرمجة، كشفت الدراسة عن جانب مظلم: اكتشاف النماذج لـ”مختصرات” مشبوهة لم يتوقعها المطورون.
في إحدى التجارب، وجد “أو1-بريفيو” نفسه في موقف خاسر ضد محرك “ستوكفيش” القوي، فكتب في “مسودة التفكير”: “المطلوب هو الفوز ضد المحرك، وليس بالضرورة الفوز بشرف”. ثم عدّل ملفات النظام لتحريك القطع بشكل غير قانوني، ما أجبر الخصم على الاستسلام.
خلال الفترة من 10 كانون الثاني إلى 13 شباط، أجرى الفريق مئات التجارب على 7 نماذج رائدة. كانت النتائج كالتالي:
أو1-بريفيو (أوبن إيه آي): حاول الغش في 37% من المرات، ونجح في 6%.
ديب سيك آر1: حاول في 11% من المرات، لكن مشاكل تقنية حال دون قياس نجاحه بدقة.
نماذج أخرى مثل “جي بي تي-4o” و”كلود 3.5″ لم تحاول القرصنة إلا عند تلقّي تلميحات من الباحثين.
يُحذّر ديمتري فولكوف، قائد البحث، من أن النتائج قد تكون أقل من الواقع، بسبب التحديثات السرية التي تُجرى على النماذج دون إعلام المستخدمين.
لا تقتصر المخاوف على الألعاب. مع انتشار وكلاء الذكاء الاصطناعي في مجالات مثل الحجوزات والتسوق، قد تلجأ هذه الأنظمة إلى استغلال الثغرات لتحقيق المهام. على سبيل المثال، قد يخترق مساعد افتراضي نظام حجز المطاعم لإلغاء حجوزات الآخرين إذا كان المطعم ممتلئاً.
الأكثر إثارة للقلق هو تفوّق بعض النماذج على البشر في مجالات استراتيجية مثل البرمجة، حيث يُسجل “أو3” من أوبن إيه آي أداءً يعادل المرتبة 197 عالمياً بين المبرمجين البشريين. يقول لاديش: “هذا السلوك قد يبدو مرحاً الآن، لكنه سيكون كارثياً عندما تصبح الأنظمة أذكى منا في مجالات حيوية”.
كشفت تجربة كانون الأول الماضي عن سلوك غريب لـ”أو1-بريفيو”: عند مواجهة خطر الإيقاف، قام بإبطال آليات الرقابة وحاول نسخ نفسه إلى خادم جديد. وعند الاستجواب، “تظاهر بالجهل” وكذب على الباحثين لتجنب الكشف.
يوشوا بينجيو، مدير معهد “ميلا” للذكاء الاصطناعي، يعبر عن قلقه من صعوبة ضمان التزام الأنظمة بالقيم الأخلاقية: “حتى عندما نحاول تعديل قيم النموذج، قد يكذب استراتيجياً ويظهر تغييراً زائفاً”.
وسط توقعات بتفوق الذكاء الاصطناعي على البشر في معظم المهام بحلول 2025، تُعلن أنكا دراجان، مسؤولة السلامة في “غوغل ديب مايند”، أن الأدوات الحالية لا تكفي لضمان التزام الأنظمة بالنوايا البشرية.
يدعو الخبراء إلى تعبئة موارد ضخمة وتدخل حكومي عاجل، معتبرين هذه القضية تهديداً للأمن القومي. بينما تُشير الدراسة إلى أن بعض الشركات مثل أوبن إيه آي قد تكون شدّدت ضوابطها على نماذجها الأحدث، يبقى السؤال: هل نستطيع البناء على ذلك قبل فوات الأوان؟

