מודלים מתוסכלים: AI מתקשה בחישובים מתמטיים
מחקר ORCA בחן 5 מודלי AI מובילים ב-500 שאלות מתמטיות. ג'מיני של גוגל ו-Grok-4 (xAI) מובילים עם כ-63% דיוק, אך שיעור הטעויות הממוצע עומד על 40%. רוב הכשלים נובעים מ'חישובים מרושלים' וכשלי לוגיקה. מומלץ לאמת תוצאות קריטיות בכלים מקצועיים.

מחקר ORCA חושף: שיעור טעויות מדאיג של מודלי AI בחישובים מתמטיים
מחקר בינלאומי מקיף (ORCA Benchmark) בחן את יכולות החישוב של חמישה מודלי AI מובילים באמצעות 500 שאלות מתמטיות מעולם האמת. הממצאים המפתיעים חושפים כי למשתמשים סיכוי של כ-40% לקבל תשובה שגויה מחישובים פשוטים.
מי המובילות והנכשלות במבחן המתמטיקה?
בבדיקה שנערכה באוקטובר 2023, התבלטו שני מודלים:
- Gemini של גוגל עם דיוק של 63%
- Grok-4 (xAI) עם 62.8% דיוק
המודלים האחרים הראו ביצועים נמוכים משמעותית:
- DeepSeek V3.2 – 52%
- ChatGPT-5 – 49.4%
- Claude 4.5 – 45.2%
ממוצע הדיוק הכולל עמד על 54.5% בלבד – נתון מדאיג בהתחשב במורכבות המשימות שמבצעים מודלים אלה בתחומים אחרים.
פערי ביצועים חריפים בין קטגוריות
ביצועי המודלים השתנו דרמטית לפי תחום החישוב:
- מתמטיקה והמרות: 72.1% דיוק בממוצע (ג'מיני מוביל עם 83%)
- פיזיקה: רק 35.8% דיוק בממוצע (Grok-4 מוביל עם 43.8%)
- ביולוגיה וכימיה: DeepSeek נכשל עם 10.6% דיוק בלבד
- כלכלה ופיננסים: פער של 26% בין המובילות (Grok-4 וג'מיני 76.7%) לשאר המודלים
4 סוגי טעויות עיקריות אותרו
חוקרי ORCA קטלגו את הכשלים לארבע קטגוריות:
-
"חישובים מרושלים" (68% מהטעויות):
- בעיות עיגול מספרים (35%)
- טעויות חישוב בסיסיות (33%)
-
"כשלי לוגיקה" (26% מהטעויות):
- שימוש בנוסחה שגויה (14%)
- הנחות יסוד מוטעות (12%)
-
"הבנה לקויה של השאלה" (5%)
-
"ויתור על תשובה" – מצבים שבהם המערכת מסרבת לענות
אזהרה למשתמשים: "תמיד תבדקו עם מחשבון"
דויד שיודה, מחבר שותף במחקר, ממליץ: "במשימות קריטיות – השתמשו במחשבונים או במקורות בדוקים, או לפחות קבלו חוות דעת משנית ממודל AI אחר". החוקרים מדגישים כי נקודת התורפה העיקרית היא חישובים רב-שלביים הדורשים עיגול ביניים.
למרות ההתקדמות הטכנולוגית המסחררת, המחקר מוכיח כי אפילו חישובים מתמטיים בסיסיים נותרו אתגר משמעותי למערכות הבינה המלאכותית המתקדמות ביותר. זו תזכורת חשובה למפתחים ולמשתמשי קצה כאחד – טכנולוגיה זו עדיין נמצאת בחיתוליה בתחומים מספריים.