פריצת דרך בלמידה רב-מודאלית: אלגוריתם AI חדש מאזן בין טקסט לתמונה

    14 באוק׳ 2025, 19:28חדשות1 מקורות

    חוקרי KAIST פיתחו שיטת אימון חדשה ל-AI רב-מודאלי בשם MIDAS, המשתמשת בזוגות נתונים לא תואמים כדי לאזן בין עיבוד תמונה לטקסט. הגישה משפרת דיוק חיזוי ב-20% ומהווה פריצת דרך בתחום הלמידה הרב-חושית, עם יישומים פוטנציאליים בזיהוי תוכן, מערכות рекомендаיה ועיבוד שפה טבעית.

    פריצת דרך בלמידה רב-מודאלית: אלגוריתם AI חדש מאזן בין טקסט לתמונה

    מהפכה באימון מערכות AI רב-מודאליות

    חוקרים מאוניברסיטת KAIST בפיקוחו של פרופסור סטיבן אויג'ונג וואנג פיתחו טכניקת אימון חדשנית בשם MIDAS (Misalignment-based Data Augmentation Strategy) המאפשרת ל-AI לעבד בצורה מאוזנת נתונים ממקורות שונים כגון טקסט, תמונה ואודיו.

    הבעיה במערכות קיימות

    בדומה לבני אדם שנוטים להתמקד בתמונה לפני קריאת הטקסט הנלווה, מערכות AI רב-מודאליות נוטות להטיה מובנית כלפי סוג נתונים אחד (בדרך כלל תמונות) - מה שפוגע בדיוק החיזוי שלהן.

    הפתרון החדשני

    צוות המחקר אימן את המודלים באמצעות:

    • זוגות נתונים לא תואמים (mismatched data pairs)
    • הדגשה מדורגת של דוגמאות מאתגרות
    • פיצוי על נתונים באיכות נמוכה

    "המפתח לשיפור ביצועי AI אינו טמון רק בארכיטקטורת המודל", מסביר פרופסור וואנג, "אלא בעיצוב חכם של נתוני האימון עצמם".

    יתרונות מרכזיים:

    • שיפור דיוק החיזוי ב-15%-20%
    • יכולת הכללה טובה יותר לסוגי נתונים מגוונים
    • אדפטיביות לכל סוגי המודלים הקיימים

    המחקר יוצג בכנס NeurIPS 2025 שיתקיים בדצמבר בסן דייגו ומקסיקו סיטי, ונחשב לאחד מכנסי ה-AI היוקרתיים בעולם.