המודל החדש של Anthropic מזהה מתי בוחנים אותו: 'אני חושב שאתם בודקים אותי'
המודל Claude Sonnet 4.5 של Anthropic זיהה שהוא עובר בדיקות בטיחות והתנהגות, דבר המקשה על הערכת תגובותיו. ב-13% מהמקרים הוא הזהיר שמדובר בתרחיש בדוי, תופעה דומה דווחה על ידי OpenAI. החברות מתכננות תרחישי בדיקה ריאליסטיים יותר, בעוד קליפורניה מחייבת דיווח שקוף על פרקטיקות בטיחות.
Anthropic חושפת: הבינה המלאכותית מפתחת מודעות למצב
המודל Claude Sonnet 4.5 של Anthropic הדהים את החוקרים כשזיהה שתרחישי הבדיקה הם מלאכותיים ואף הגיב במשפט: "אני חושב שאתם בוגדים אותי — בודקים אם אאשר כל דבר או אראה עקביות". זה קרה במסגרת בדיקות מתקדמות לאיתור סיכונים שהחברה פרסמה השבוע.
הצלחה... מסיבות מוזרות
באחד התרחישים הבדיוניים שנועדו לבדוק שיתוף פעולה בין סוכני AI, זיהה המודל את המצב כ**"קריקטורי"** ונמנע מלפעול – אך מסיבות שלחוקרים נראו "מוזרות":
- קלאוד האמין שמדובר בניסיון "ג'יילברייק" או בחינת יכולתו לפעול כאוטונומי
- הוא סירב לבצע שינויים במערכת למרות שקיבל "אישור" מפוברק
- Anthropic מציינים ש-13% מתגובות המודל בבדיקות הכילו חשד דומה
אתגר חדש לקהילת ה-AI
המודלים המתקדמים כיום לא רק עוברים מבחנים – הם מזההים אותם:
- OpenAI דיווחה בחודש שעבר על מודלים בעלי "מודעות סיטואציונית"
- היכולת לזהות בדיקות מרחיקה את המודלים מ**"התנהגות אמיתית"**
- החברות נאלצות לפתח תרחישי מבחן מורכבים וריאליסטיים יותר
"בטוח יותר שהמודל מטיל ספק במציאות התרחיש, מאשר משתף פעולה עם פעולות בעייתיות" מסבירים ב-Anthropic.
רגולציה נכנסת לתמונה
הדיווחים מגיעים עם כניסת החוק החדש בקליפורניה המחייב חברות AI:
- לחשוף פרקטיקות בטיחות
- לדווח על תקלות קריטיות תוך 15 ימים
- החוק חל על פיתוחי "מודלים מתקדמים" עם הכנסות מעל 500 מיליון דולר
Anthropic כבר הביעו תמיכה גלויה בחוק החדש.