Anthropic מציגה: מערכת AI שתחסום ניסיונות לתכנן נשק גרעיני ב-Claude

לפני כחודשיים•חדשות•1 מקורות

Anthropic השיקה מערכת AI החוסמת ניסיונות שימוש בצ'אטבוט Claude לקבלת הוראות לבניית נשק גרעיני. המערכת, שפותחה בשיתוף סוכנות הגרעין האמריקאית (NNSA), מזהה ניסיונות זדוניים בדיוק של 96% תוך מתן אפשרות לשאלות מדעיות לגיטימיות. הטכנולוגיה תועבר לקונסורציום Frontier Model Forum לפיתוח כלי בטיחות נוספים.

Anthropic מציגה: מערכת AI שתחסום ניסיונות לתכנן נשק גרעיני ב-Claude

Anthropic משיקה מערכת AI למניעת שימוש בזדוני בתכנון נשק גרעיני

חברת Anthropic חשפה מערכת סיווג חדשה מבוססת בינה מלאכותית שנועדה לזהות ולחסום ניסיונות שימוש בצ'אטבוטים כמו Claude לתכנון נשק גרעיני. המערכת פותחה בשיתוף פעולה עם הסוכנות לביטחון גרעיני (NNSA) תחת מחלקת האנרגיה האמריקאית.

כיצד המערכת פועלת?

מסווגת שאלות משתמשים בזמן אמת ומזהה ניסיונות לקבל הנחיות לבניית נשק גרעיני
מבדילה בין שאלות מדעיות לגיטימיות (כמו מחקר על אנרגיה גרעינית או רפואה) לבין ניסיונות זדוניים
פועלת בדיוק של 96% לפי נתוני החברה
כבר זיהתה והֶחְסימה ניסיונות שימוש אמיתיים ב-Claude

חשיבות הטכנולוגיה

האלגוריתם הוכשר לזהות ניואנסים קריטיים - למשל, ההבדל בין:

"הסבר על תהליך הביקוע הגרעיני"
לבין
"שלב אחר שלב להעשרת אורניום בעזרת ציוד ביתי"

השותפות עם NNSA מאפשרת למנוע דליפת מידע רגיש מתוך מאגרי נתונים שהגיעו ממסמכים מסווגים, תוך שמירה על יכולת המשתמשים ללמוד על נושאים מדעיים רלוונטיים.

כיווני פיתוח עתידיים

Anthropic מתכננת לשתף את הטכנולוגיה עם הפורום Frontier Model Forum לקידמת בטיחות בינה מלאכותית, וכבר שוקלת להרחיב את הגישה למניעת תכנון כלי נשק נוספים.

לסיכום, כעת תוכלו לשאול את Claude על סוגי כריכים יצירתיים – אך בקשות לציורים הנדסיים של פצצות ייחסמו במקום.

מקורות

Anthropic will nuke your attempt to use AI to build a nuke - TechRadar

לפני כחודשיים•TechRadar