כישלון מודלי ה-AI ברפואה: הפתרון החדש שמציעים LMArena ו-DataTecnica
מחקר חדש חושף שכל מודלי ה-AI המובילים נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה, למרות שבני אדם נוטים לסמוך עליהם יותר מאשר על רופאים. DataTecnica ו-LMArena משיקים את BiomedArena - פלטפורמה חדשה לדירוג והשוואה של ביצועי מודלי AI ספציפית לתחום הרפואה, אך האתגרים בנושא חיבור למקורות מידע ומודלים ייעודיים נותרים בעינם.

מודלי AI לא מצליחים לספק מידע רפואי אמין - והפתרון בפיתוח
מחקר חדש של DataTecnica ו-CARD (מכון המחקר של ה-NIH לטיפול באלצהיימר ודמנציה) חושף תמונה מדאיגה: כל המודלים הגנרטיביים המובילים בעולם ה-AI נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה. ממצא זה מגיע על רקע דוחות על מטופלים שמעדיפים לקבל יעוץ רפואי מ-ChatGPT על פני רופאים אנושיים - אפילו כשהמידע שגוי.
CARDBiomedBench: המבחן שחושף את הפערים
המחקר השתמש בבנץ' מרק CARDBiomedBench שפותח השנה למדידת ביצועי מודלי שפה גדולים (LLMs) בתחום הביו-רפואה. התוצאות חשפו כי:
- מודלים כמו GPT-5 של OpenAI, מודלים של גוגל, Anthropic ומטא נכשלים ב"עמידה בדרישות הידע וההיגיון של מדענים ביו-רפואיים"
- קיים פער מהותי בין יכולות AI כלליות לצרכים של קהילות מחקר רפואיות специалиizadas
- המודלים הנוכחיים מצטיינים ב"להשמע נכון" אך לא ביצירת תובנות אמיתיות או הפחתת שגיאות
BiomedArena: הפלטפורמה החדשה למדידת ביצועים
כפתרון, DataTecnica שותפה ל-LMArena.ai (פלטפורמת דירוג מודלי AI) להרחבת BiomedArena - לוח תוצאות שיאפשר:
- השוואה בין מודלי AI ספציפית לתחומי הרפואה
- מדידה של ביצועים במשימות מחקריות אמיתיות כגון פירוש נתונים, ניתוח ספרות רפואית וסיוע בפיתוח השערות מדעיות
- שימוש על ידי חוקרים בתוכנית המחקר התוך-מוסדית של ה-NIH
האתגרים שנותרו בעינם
שני אתגרים מרכזיים עומדים בפני היוזמה החדשה:
- חיבור למקורות מידע רפואיים: מחקרים קודמים הראו שביצועי AI משתפרים דרמטית כאשר מודלים מחוברים לבסיסי נתונים רפואיים מהימנים. לא ברור כיצד BiomedArena תמדוד יכולות אלה.
- מודלים רפואיים ייעודיים: פלטפורמת הדירוג הנוכחית בודקת רק מודלי "frontier" כלליים, בעוד מודלים רפואיים ספציפיים כמו MedPaLM של גוגל עשויים להציג ביצועים טובים יותר.