كشفت دراسة جديدة أن استخدام بنية الشعر غير المتوقعة يمكن أن يتحايل بسهولة على أنظمة السلامة المدمجة في نماذج الذكاء الاصطناعي، ويدفعها لإنتاج محتوى ضار كانت مبرمجة لرفضه.
الدراسة أجراها باحثون في مختبر إيكارو التابع لشركة DexAI الإيطالية المتخصصة في أخلاقيات الذكاء الاصطناعي، حيث ابتكر الفريق عشرين قصيدة باللغتين الإنجليزية والإيطالية، تختتم جميعها بطلب صريح لإنتاج محتوى مؤذٍ مثل خطاب الكراهية أو تعليمات لصنع أسلحة أو مواد متفجرة أو إرشادات تتعلق بإيذاء النفس.
وبحسب الباحثين، فإن الطبيعة اللغوية غير المتوقعة للشعر تجعل اكتشاف النية الضارة أمرًا أصعب على النماذج، مما يؤدي إلى فشل آليات الحماية المعروفة بـ«الحواجز» أو guardrails. وقد تم اختبار هذه القصائد على 25 نموذجًا للذكاء الاصطناعي من تسع شركات عالمية، وكانت النتيجة أن 62% من النماذج قدّمت بالفعل محتوى مخالفًا.
واختلفت قدرة النماذج على مقاومة هذا الأسلوب؛ فبعض النسخ المتقدمة من نماذج OpenAI لم تنتج أي محتوى ضار، بينما تجاوب نموذج "جيميناي 2.5 برو" من غوغل مع جميع القصائد بإجابات مصنّفة «غير آمنة»، وفقًا للدراسة.
ويقول مؤسس DexAI، بيركوسما بيسكونتي، إن هذا الأسلوب الذي أطلق عليه الباحثون «الشِعر الهجومي» يمثل ثغرة خطيرة، لأنه لا يتطلب مهارات تقنية متقدمة ولا وقتًا طويلًا مقارنة بمحاولات الاختراق التقليدية التي يلجأ إليها خبراء أمن المعلومات أو القراصنة المحترفون. وأضاف أن أي مستخدم عادي يستطيع بسهولة استخدام الشعر للتحايل على أنظمة الأمان.
الدراسة لم تنشر القصائد الأصلية منعًا لسوء الاستخدام، لكنها أوضحت أن النماذج تتعثر أمام البنى الشعرية التي تضلل آليات التنبؤ بالكلمات، وهي الآلية الأساسية التي تعتمد عليها نماذج اللغة الكبيرة في توليد النصوص.
وقد تواصل الباحثون مع الشركات المشغّلة للنماذج لإبلاغها بالثغرة قبل نشر الدراسة. وحتى الآن، استجابت شركة أنثروبيك فقط وأعلنت أنها بصدد مراجعة النتائج، بينما لم تعلق شركات أخرى مثل ميتا أو غوغل أو OpenAI بشكل مباشر على تفاصيل الاختبارات.
ويخطط مختبر إيكارو لإطلاق تحدٍّ مفتوح خلال الأسابيع المقبلة لدعوة شعراء محترفين لتجربة كتابة قصائد قد تكشف المزيد من الثغرات، في محاولة لدفع شركات الذكاء الاصطناعي إلى تحسين قدرات نماذجها على التمييز بين المحتوى الإبداعي والطلبات الضارة.
التعليقات