כישלון מודלי ה-AI ברפואה: הפתרון החדש שמציעים LMArena ו-DataTecnica

    אתמולחדשות1 מקורות

    מחקר חדש חושף שכל מודלי ה-AI המובילים נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה, למרות שבני אדם נוטים לסמוך עליהם יותר מאשר על רופאים. DataTecnica ו-LMArena משיקים את BiomedArena - פלטפורמה חדשה לדירוג והשוואה של ביצועי מודלי AI ספציפית לתחום הרפואה, אך האתגרים בנושא חיבור למקורות מידע ומודלים ייעודיים נותרים בעינם.

    כישלון מודלי ה-AI ברפואה: הפתרון החדש שמציעים LMArena ו-DataTecnica

    מודלי AI לא מצליחים לספק מידע רפואי אמין - והפתרון בפיתוח

    מחקר חדש של DataTecnica ו-CARD (מכון המחקר של ה-NIH לטיפול באלצהיימר ודמנציה) חושף תמונה מדאיגה: כל המודלים הגנרטיביים המובילים בעולם ה-AI נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה. ממצא זה מגיע על רקע דוחות על מטופלים שמעדיפים לקבל יעוץ רפואי מ-ChatGPT על פני רופאים אנושיים - אפילו כשהמידע שגוי.

    CARDBiomedBench: המבחן שחושף את הפערים

    המחקר השתמש בבנץ' מרק CARDBiomedBench שפותח השנה למדידת ביצועי מודלי שפה גדולים (LLMs) בתחום הביו-רפואה. התוצאות חשפו כי:

    • מודלים כמו GPT-5 של OpenAI, מודלים של גוגל, Anthropic ומטא נכשלים ב"עמידה בדרישות הידע וההיגיון של מדענים ביו-רפואיים"
    • קיים פער מהותי בין יכולות AI כלליות לצרכים של קהילות מחקר רפואיות специалиizadas
    • המודלים הנוכחיים מצטיינים ב"להשמע נכון" אך לא ביצירת תובנות אמיתיות או הפחתת שגיאות

    BiomedArena: הפלטפורמה החדשה למדידת ביצועים

    כפתרון, DataTecnica שותפה ל-LMArena.ai (פלטפורמת דירוג מודלי AI) להרחבת BiomedArena - לוח תוצאות שיאפשר:

    • השוואה בין מודלי AI ספציפית לתחומי הרפואה
    • מדידה של ביצועים במשימות מחקריות אמיתיות כגון פירוש נתונים, ניתוח ספרות רפואית וסיוע בפיתוח השערות מדעיות
    • שימוש על ידי חוקרים בתוכנית המחקר התוך-מוסדית של ה-NIH

    האתגרים שנותרו בעינם

    שני אתגרים מרכזיים עומדים בפני היוזמה החדשה:

    1. חיבור למקורות מידע רפואיים: מחקרים קודמים הראו שביצועי AI משתפרים דרמטית כאשר מודלים מחוברים לבסיסי נתונים רפואיים מהימנים. לא ברור כיצד BiomedArena תמדוד יכולות אלה.
    2. מודלים רפואיים ייעודיים: פלטפורמת הדירוג הנוכחית בודקת רק מודלי "frontier" כלליים, בעוד מודלים רפואיים ספציפיים כמו MedPaLM של גוגל עשויים להציג ביצועים טובים יותר.

    מקורות