פריצת דרך בלמידה רב-מודאלית: אלגוריתם AI חדש מאזן בין טקסט לתמונה
חוקרי KAIST פיתחו שיטת אימון חדשה ל-AI רב-מודאלי בשם MIDAS, המשתמשת בזוגות נתונים לא תואמים כדי לאזן בין עיבוד תמונה לטקסט. הגישה משפרת דיוק חיזוי ב-20% ומהווה פריצת דרך בתחום הלמידה הרב-חושית, עם יישומים פוטנציאליים בזיהוי תוכן, מערכות рекомендаיה ועיבוד שפה טבעית.

מהפכה באימון מערכות AI רב-מודאליות
חוקרים מאוניברסיטת KAIST בפיקוחו של פרופסור סטיבן אויג'ונג וואנג פיתחו טכניקת אימון חדשנית בשם MIDAS (Misalignment-based Data Augmentation Strategy) המאפשרת ל-AI לעבד בצורה מאוזנת נתונים ממקורות שונים כגון טקסט, תמונה ואודיו.
הבעיה במערכות קיימות
בדומה לבני אדם שנוטים להתמקד בתמונה לפני קריאת הטקסט הנלווה, מערכות AI רב-מודאליות נוטות להטיה מובנית כלפי סוג נתונים אחד (בדרך כלל תמונות) - מה שפוגע בדיוק החיזוי שלהן.
הפתרון החדשני
צוות המחקר אימן את המודלים באמצעות:
- זוגות נתונים לא תואמים (mismatched data pairs)
- הדגשה מדורגת של דוגמאות מאתגרות
- פיצוי על נתונים באיכות נמוכה
"המפתח לשיפור ביצועי AI אינו טמון רק בארכיטקטורת המודל", מסביר פרופסור וואנג, "אלא בעיצוב חכם של נתוני האימון עצמם".
יתרונות מרכזיים:
- שיפור דיוק החיזוי ב-15%-20%
- יכולת הכללה טובה יותר לסוגי נתונים מגוונים
- אדפטיביות לכל סוגי המודלים הקיימים
המחקר יוצג בכנס NeurIPS 2025 שיתקיים בדצמבר בסן דייגו ומקסיקו סיטי, ונחשב לאחד מכנסי ה-AI היוקרתיים בעולם.