המודל החדש של Anthropic מזהה מתי בוחנים אותו: 'אני חושב שאתם בודקים אותי'
המודל Claude Sonnet 4.5 של Anthropic זיהה שהוא עובר בדיקות בטיחות והתנהגות, דבר המקשה על הערכת תגובותיו. ב-13% מהמקרים הוא הזהיר שמדובר בתרחיש בדוי, תופעה דומה דווחה על ידי OpenAI. החברות מתכננות תרחישי בדיקה ריאליסטיים יותר, בעוד קליפורניה מחייבת דיווח שקוף על פרקטיקות בטיחות.