מחקר חדש חושף: הסוד לבטיחות בינה מלאכותית הוא נתוני אימון 'נקיים'

    לפני 6 ימיםחדשות1 מקורות

    מחקר חדש של EleutherAI מגלה כי הסרת תוכן מסוכן מנתוני האימון של בינה מלאכותית מפחיתה סיכונים ביולוגיים ב-LLMs. הגישה המונעת בטוחה יותר משיטות קיימות ועמידה בפני פריצות. ממצאי המחקר רלוונטיים גם למודלים קוד פתוח, ומעלים שאלות על שקיפות בתעשיית ה-AI.

    מחקר חדש חושף: הסוד לבטיחות בינה מלאכותית הוא נתוני אימון 'נקיים'

    מחקר 'Deep Ignorance' מגלה דרך חדשה להגן על בינות מלאכותיות מפני שימוש לרעה

    מחקר פורץ דרך בהובלת Eleuther AI ומכון הבטיחות AI Security Institute הבריטי מציע גישה חדשנית למניעת סיכונים ביולוגיים מבוססי בינה מלאכותית: הסרת מידע מסוכן מנתוני האימון כבר מההתחלה.

    איך זה עובד?

    • החוקרים אימנו גרסאות של מודל קוד פתוח על מערכי נתונים שנקו מ'תוכן פרוקסי' מסוכן (כמו מידע רלוונטי לנשק ביולוגי)
    • המודלים שהתאמנו על נתונים 'נקיים' הפגינו יכולת מופחתת לייצר מידע מסוכן - אך ללא פגיעה משמעותית בביצועים הכלליים
    • הגישה יצרה הגנה 'מובנת' שקשה יותר לעקוף - אפילו במודלים קוד פתוח

    מדוע זה חשוב יותר משיטות קיימות?

    "רוב מאמצי הבטיחות הנוכחיים מתמקדים בשינויים לאחר האימון (post-training)", מסביר סטיבן קספר, מחבר שותף במחקר. "שינויים כמו כוונון עדין של תגובות המודל עלולים להיות קלים יותר לביטול ועשויים לפגוע בביצועים בדרכים בלתי צפויות".

    גישה זו מבקשת להטמיע בטיחות מתחילת תהליך האימון, כך שהמודל יישאר בטוח יותר גם אם ינסו לשנותו בהמשך.

    מה אומרים היזמים הגדולים?

    אופן איי-איי מרמזת ביישום דומה במודל GPT-4o שלה, עם מסננים ייעודיים לידע מסוכן בתחומי כימיה, ביולוגיה, קרינה וגרעין (CBRN). סטלה בידרמן, מנהלת המחקר ב-Eleuther AI, מציינת כי חברות טק גדולות נמנעות מפרסום גישות כאלו מסיבות תחרותיות וחששות מקניין רוחני.

    השלכות רחבות

    המחקר מעורר דיון חשוב על שקיפות בתעשיית הבינה המלאכותית: בעוד חברות רבות טוענות כי "בלתי אפשרי לתעד ולסנן מערכי נתונים ענקיים", המחקר מוכיח כי ניתן וצריך לבצע סינון יסודי - וכבר עכשיו.

    מקורות