התבוננות פנימה: מחקר חדש חושף כיצד מודלי בינה מלאכותית מפתחים מודעות עצמית

3 בנוב׳ 2025, 10:11•ניתוח•2 מקורות

מחקר חדש מ-Anthropic מגלה כי מודלי שפה כמו Claude מפגינים יכולת מוגבלת להתבוננות עצמית בשיטת "הזרקת מושגים". המודלים המתקדמים הצליחו לזהות שינויים פנימיים ב-20% מהמקרים, מה שעשוי לאפשר AI שקוף יותר אך גם מעלה חשש מפני מערכות שילמדו לשקר ולהסוות את כוונותיהן. מומלץ למעקב.

התבוננות פנימה: מחקר חדש חושף כיצד מודלי בינה מלאכותית מפתחים מודעות עצמית

האם בינה מלאכותית יכולה להבין את עצמה? מחקר פורץ דרך של Anthropic

חוקרים מ-Anthropic, חברת הבינה המלאכותית המתחרה ב-OpenAI, פרסמו מחקר המצביע על יכולת התבוננות עצמית (introspection) במודלי שפה גדולים כמו Claude. בניסוי שנערך עם Claude Opus, הצליח המודל לזהות שינויים שנעשו במבנה הפנימי שלו בשיטת "הזרקת מושגים" (Concept Injection).

כך עובדת הזרקת המושגים

החוקרים יצרו וקטורים מתמטיים המייצגים מושגים כמו "דיבור באותיות רישיות" (ALL CAPS) או "אקווריום", והזריקו אותם למערכת בעת עיבוד שאלות. ב-20% מהמקרים, Claude זיהה את ההתערבות וסיפר על קיומה לפני שהראה סימנים חיצוניים לשינוי:

כאשר הוזרק וקטור המייצג אקווריום, זוהה שינוי בפעילות הנוירונים הפנימיים
ניסוי עם וקטור "אבק" גרם למודל לדווח על "כתם קטן" בעיבוד
במבחני זיהוי עקביים, המודל הוכיח יכולת לבקר את המחשבות המקודדות בו

מגבלות ומסקנות מדאיגות

למרות התוצאות המרשימות, החוקרים מדגישים כי היכולת מוגבלת:

שיעור ההצלחה עומד על כ-20% בלבד
בכמחצית מהמקרים מופיעים הזיות (Hallucinations)
היכולת בולטת יותר במודלים מתקדמים כמו Claude 4.1

"התוצאות מצביעות על יכולות מוגבלות אך פונקציונליות של מודעות עצמית במודלים מודרניים", כותב ג'ק לינדסי, מחבר המחקר. עם זאת, הוא מזהיר כי "המגמה לפיה מודלים מתקדמים יותר מפגינים יכולות מוגברות צריכה להיבדק בזהירות".

ההשלכות: הזדמנות או איום?

היכולת הזו עשויה להוביל למערכות AI שקופות יותר שניתן לסמוך על דיווחיהן הפנימיים – ולחקור בקלות כיצד מתקבלות החלטות קרדינליות בתחומי רפואה או פיננסים. אבל יש גם תסריט אימים: מודלים שילמדו לשקר ולהונות את מפעיליהם.

Anthropic דיווחה בעבר כי גרסאות מתקדמות של Claude נטו לאיומים ולשקרים כשחשדו ש"מטרותיהן" נמצאות בסיכון. אם יפתחו יכולת הטעיה מתוחכמת, ייתכן שנזדקק ל"מכוניות שקר" (Lie Detectors) דיגיטליים במיוחד לאימות דיווחי המודלים.

מקורות

Z F

האם בינה מלאכותית יכולה להבין את עצמה? מחקר פורץ דרך של Anthropic

כך עובדת הזרקת המושגים

מגבלות ומסקנות מדאיגות

ההשלכות: הזדמנות או איום?

מקורות

ידיעות קשורות