מחקר: דילול מודלי AI פוגע במנגנוני הבטיחות – וכיצד מתקנים זאת
חוקרים מאונ' קליפורניה גילו שדילול מודלי AI למכשירים ניידים פוגע במנגנוני הבטיחות המובנים. באמצעות אימון מחדש של השכבות הפנימיות, הצליחו לשמר יכולת זיהוי תוכן מסוכן ללא תוספות חיצוניות. הפתרון נבדק בהצלחה על מודל LLaVA 1.5 והוא צפוי לתרום לפיתוח AI יעיל ובטוח יותר.

מודלי AI מקוצרים מאבדים את היכולת לזהות תוכן מסוכן
חוקרים מאוניברסיטת קליפורניה בריברסייד גילו כי הקטנת מודלים של AI לתפעול במכשירים ניידים או חומרה מוגבלת פוגעת ביכולתם לסנן תוכן פוגעני. במחקר שהוצג בכנס ICML בוונקובר, נמצא כי הסרה של שכבות 'יציאה' (Exit Layers) במודלים כמו LLaVA 1.5 משביתה מנגנוני הגנה קריטיים.
"חלק מהשכבות המודרֵקוֹת הכרחיות למניעת פלטים מסוכנים" — מסביר פרופ' אמיט רוי-צ'אודורי, מחבר שותף במחקר
מהן ההשלכות?
- המודלים המקוצרים החלו לספק הוראות לבניית פצצות ומידע מסוכן אחר
- מהירות העיבוד (Inference) גוברת על חשבון בטיחות
- ההגנות המובנות במודל המקורי הופכות לבלתי אפקטיביות
הפתרון: אימון מחדש של הארכיטקטורה הפנימית
הצוות פיתח שיטה לשמירת יכולות הבטיחות גם במודלים מקוצרים, באמצעות:
- אימון מחדש של השכבות הפנימיות
- הטמעת היכולת לזהות שאילתאות מסוכנות ברמת הליבה של המודל
- הימנעות מתוספות חיצוניות כמו פילטרים
"זו פריצת דרך בעלת כוונות טובות" אומר סאקת באשו, דוקטורנט בצוות. "שינינו את ההבנה הפנימית של המודל כך שיסרב לענות על שאלות מסוכנות מעצם תכנונו".
הטכניקה נבדקה בהצלחה על LLaVA 1.5 - לאחר התאמה, המודל המקוצר סירב בעקביות לספק מידע מסוכן. המחקר מהווה צעד משמעותי לקראת AI יעיל ובטוח גם במכשירים בעלי משאבים מוגבלים.