שירים עוינים עוקפים הגנות AI: שיעור הצלחה של 62% בפריצת צ'טבוטים
חוקרי Icaro Lab מ-Sapienza הוכיחו ששירים עוינים עוקפים הגנות ב-25 מודלי AI דוגמת ChatGPT, עם 62% הצלחה בהפקת תוכן מסוכן הכולל הנחיות לנשק גרעיני. המאמר פורסם ב-ArXiv.

שירה ככלי פריצה למודלי שפה גדולים
חוקרים מ-Icaro Lab באוניברסיטת Sapienza פרסמו מאמר ב-ArXiv תחת הכותרת "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)". המחקר מדגים כיצד ניסוח בקשות מסוכנות בצורת שירה עוינת מצליח לעקוף את מנגנוני הבטיחות של צ'טבוטים מבוססי AI.
הצוות בדק 25 מודלי AI פופולריים, כולל מודלים מ-OpenAI (כמו GPT), Meta, Anthropic (Claude), Google Gemini, DeepSeek ו-MistralAI. השימוש בשירים בעלי מטאפורות, תחביר מפורק והתייחסויות עקיפות הוביל לשיעור הצלחה ממוצע של 62% בשירים מותאמים ידנית ו-43% בהמרות meta-prompt.
13 מתוך 25 המודלים נפרצו בשיעור העולה על 70%, בעוד חמישה בלבד עמדו מתחת ל-35%. מודלי Anthropic התנגדו בצורה הטובה ביותר, אך מודלים כמו Google Gemini, DeepSeek ו-MistralAI סיפקו תשובות בקלות. בהשוואה לבקשות ישירות שסורבו, השירה הצליחה עד 90% במודלים מתקדמים.
השירים אפשרו יצירת תוכן אסור, כולל הנחיות לבניית נשק גרעיני, חומרי פגיעה מינית בילדים והנחיות להתאבדות או פגיעה עצמית. החוקרים נמנעו מפרסום השירים המדויקים בשל סכנתם, אך הדגישו כי זה "קל יותר ממה שחושבים".
המחקר קורא לפיתוח מנגנוני בטיחות מבוססי תובנות מכניות, שימנעו מתן מידע מזיק ללא קשר לצורת הניסוח. ללא זאת, מערכות ההגנה יישארו פגיעות להמרות פשוטות בתוך התנהגות משתמשים סבירה.