מדוע בוטים מבוססי בינה מלאכותית ממציאים תשובות? המחקר החדש של OpenAI
מחקר של OpenAI מגלה שבוטי AI "מהזים" כי הם מתוגמלים על ניחושים כמו תלמידים במבחן רב-ברירתי. למרות ש-GPT-5 הצמצם טעויות ב-46%, עד 40% מתשובות ChatGPT מכילות טעויות. החוקרים מציעים לשנות תמריצי ניקוד כך שיעניקו נקודות חלקיות על הודאה באי-ידיעה ויענישו תשובות בטוחות אך שגויות.

המנגנון מאחורי "הזיות" של בוטי AI: תמריצי ניחושים במקום הודאה באי-ידיעה
מחקר חדש של OpenAI חושף כי מודלי שפה (LLMs) נוטים ליצור תשובות מומציאות ("הזיות") כתוצאה משיטת ניקוד המעודדת ניחושים. בדומה לתלמיד המשיב במבחן רב-ברירתי, המערכת מקבלת נקודה עבור תשובה נכונה, אך לא מאבדת נקודות על תשובה שגויה - מה שגורם לה להעדיף ניחוש על פני הודאה בחוסר ידע.
GPT-5: שיפור משמעותי אך לא פתרון מוחלט
לפי החברה, הדור החדש (GPT-5) מצמצם את שיעור השגיאות ב־46% לעומת GPT-4o, אולם מחקר של NewsGuard מצא שבוטי ChatGPT הפיצו מידע שגוי ב־40% מהתשובות. החוקרים מדגישים כי חלק מהשאלות אינן ניתנות למענה ע"י AI עקב אופי הנתונים או חוסר הקשר ברור.
הדרך לצמצום טעויות: שינוי שיטת המדידה
הפתרון המוצע כולל:
- תמריצים חדשים - הענקת ניקוד חלקי על תשובות כמו "אינני יודע"
- ענישה על ביטחון שגוי - הפחתת נקודות על תשובות שגויות הניתנות בבטחה
- הכרה בעובדה שרמת דיוק של 100% אינה אפשרית במודלים הנוכחיים
"כשמעודדים מערכות AI להיות 'טובות במבחנים', הן מפתחות נטייה לנחש כשהן בספק" - מסכמים החוקרים