כישלון מודלי ה-AI ברפואה: הפתרון החדש שמציעים LMArena ו-DataTecnica

19 באוג׳ 2025, 23:25חדשות1 מקורות

מחקר חדש חושף שכל מודלי ה-AI המובילים נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה, למרות שבני אדם נוטים לסמוך עליהם יותר מאשר על רופאים. DataTecnica ו-LMArena משיקים את BiomedArena - פלטפורמה חדשה לדירוג והשוואה של ביצועי מודלי AI ספציפית לתחום הרפואה, אך האתגרים בנושא חיבור למקורות מידע ומודלים ייעודיים נותרים בעינם.

כישלון מודלי ה-AI ברפואה: הפתרון החדש שמציעים LMArena ו-DataTecnica

מודלי AI לא מצליחים לספק מידע רפואי אמין - והפתרון בפיתוח

מחקר חדש של DataTecnica ו-CARD (מכון המחקר של ה-NIH לטיפול באלצהיימר ודמנציה) חושף תמונה מדאיגה: כל המודלים הגנרטיביים המובילים בעולם ה-AI נכשלים במתן תשובות מדויקות ובטוחות בנושאי רפואה. ממצא זה מגיע על רקע דוחות על מטופלים שמעדיפים לקבל יעוץ רפואי מ-ChatGPT על פני רופאים אנושיים - אפילו כשהמידע שגוי.

CARDBiomedBench: המבחן שחושף את הפערים

המחקר השתמש בבנץ' מרק CARDBiomedBench שפותח השנה למדידת ביצועי מודלי שפה גדולים (LLMs) בתחום הביו-רפואה. התוצאות חשפו כי:

מודלים כמו GPT-5 של OpenAI, מודלים של גוגל, Anthropic ומטא נכשלים ב"עמידה בדרישות הידע וההיגיון של מדענים ביו-רפואיים"
קיים פער מהותי בין יכולות AI כלליות לצרכים של קהילות מחקר רפואיות специалиizadas
המודלים הנוכחיים מצטיינים ב"להשמע נכון" אך לא ביצירת תובנות אמיתיות או הפחתת שגיאות

BiomedArena: הפלטפורמה החדשה למדידת ביצועים

כפתרון, DataTecnica שותפה ל-LMArena.ai (פלטפורמת דירוג מודלי AI) להרחבת BiomedArena - לוח תוצאות שיאפשר:

השוואה בין מודלי AI ספציפית לתחומי הרפואה
מדידה של ביצועים במשימות מחקריות אמיתיות כגון פירוש נתונים, ניתוח ספרות רפואית וסיוע בפיתוח השערות מדעיות
שימוש על ידי חוקרים בתוכנית המחקר התוך-מוסדית של ה-NIH

האתגרים שנותרו בעינם

שני אתגרים מרכזיים עומדים בפני היוזמה החדשה:

חיבור למקורות מידע רפואיים: מחקרים קודמים הראו שביצועי AI משתפרים דרמטית כאשר מודלים מחוברים לבסיסי נתונים רפואיים מהימנים. לא ברור כיצד BiomedArena תמדוד יכולות אלה.
מודלים רפואיים ייעודיים: פלטפורמת הדירוג הנוכחית בודקת רק מודלי "frontier" כלליים, בעוד מודלים רפואיים ספציפיים כמו MedPaLM של גוגל עשויים להציג ביצועים טובים יותר.

1

#Anthropic #BiomedArena #CARD #DataTecnica #GPT-5 #Google #LMArena #LMArena.ai #MedPaLM #Meta #NIH #OpenAI #research #research paper

מודלי AI לא מצליחים לספק מידע רפואי אמין - והפתרון בפיתוח

CARDBiomedBench: המבחן שחושף את הפערים

BiomedArena: הפלטפורמה החדשה למדידת ביצועים

האתגרים שנותרו בעינם

מקורות1

1