Articles tagged with orca benchmark | FOMO AI

מודלים מתוסכלים: AI מתקשה בחישובים מתמטיים

מחקר ORCA בחן 5 מודלי AI מובילים ב-500 שאלות מתמטיות. ג'מיני של גוגל ו-Grok-4 (xAI) מובילים עם כ-63% דיוק, אך שיעור הטעויות הממוצע עומד על 40%. רוב הכשלים נובעים מ'חישובים מרושלים' וכשלי לוגיקה. מומלץ לאמת תוצאות קריטיות בכלים מקצועיים.

חדשות31 בדצמ׳ 2025, 12:522 מקורות

מודלים מתוסכלים: AI מתקשה בחישובים מתמטיים

AI + ORCA BENCHMARK

מודלים מתוסכלים: AI מתקשה בחישובים מתמטיים