Anthropic מציגה: מערכת AI שתחסום ניסיונות לתכנן נשק גרעיני ב-Claude

    לפני כחודשייםחדשות1 מקורות

    Anthropic השיקה מערכת AI החוסמת ניסיונות שימוש בצ'אטבוט Claude לקבלת הוראות לבניית נשק גרעיני. המערכת, שפותחה בשיתוף סוכנות הגרעין האמריקאית (NNSA), מזהה ניסיונות זדוניים בדיוק של 96% תוך מתן אפשרות לשאלות מדעיות לגיטימיות. הטכנולוגיה תועבר לקונסורציום Frontier Model Forum לפיתוח כלי בטיחות נוספים.

    Anthropic מציגה: מערכת AI שתחסום ניסיונות לתכנן נשק גרעיני ב-Claude

    Anthropic משיקה מערכת AI למניעת שימוש בזדוני בתכנון נשק גרעיני

    חברת Anthropic חשפה מערכת סיווג חדשה מבוססת בינה מלאכותית שנועדה לזהות ולחסום ניסיונות שימוש בצ'אטבוטים כמו Claude לתכנון נשק גרעיני. המערכת פותחה בשיתוף פעולה עם הסוכנות לביטחון גרעיני (NNSA) תחת מחלקת האנרגיה האמריקאית.

    כיצד המערכת פועלת?

    • מסווגת שאלות משתמשים בזמן אמת ומזהה ניסיונות לקבל הנחיות לבניית נשק גרעיני
    • מבדילה בין שאלות מדעיות לגיטימיות (כמו מחקר על אנרגיה גרעינית או רפואה) לבין ניסיונות זדוניים
    • פועלת בדיוק של 96% לפי נתוני החברה
    • כבר זיהתה והֶחְסימה ניסיונות שימוש אמיתיים ב-Claude

    חשיבות הטכנולוגיה

    האלגוריתם הוכשר לזהות ניואנסים קריטיים - למשל, ההבדל בין:

    "הסבר על תהליך הביקוע הגרעיני"
    לבין
    "שלב אחר שלב להעשרת אורניום בעזרת ציוד ביתי"

    השותפות עם NNSA מאפשרת למנוע דליפת מידע רגיש מתוך מאגרי נתונים שהגיעו ממסמכים מסווגים, תוך שמירה על יכולת המשתמשים ללמוד על נושאים מדעיים רלוונטיים.

    כיווני פיתוח עתידיים

    Anthropic מתכננת לשתף את הטכנולוגיה עם הפורום Frontier Model Forum לקידמת בטיחות בינה מלאכותית, וכבר שוקלת להרחיב את הגישה למניעת תכנון כלי נשק נוספים.

    לסיכום, כעת תוכלו לשאול את Claude על סוגי כריכים יצירתיים – אך בקשות לציורים הנדסיים של פצצות ייחסמו במקום.

    מקורות