Google DeepMind מציעה פתרון למחסום הנתונים של בינה מלאכותית: ניקוי מידע 'מסוכן'

    לפני 25 ימיםחדשות1 מקורות

    חוקרי Google DeepMind מציעים טכנולוגיה חדשנית בשם GDR לניקוי נתונים 'מסוכנים' (מידע רגיש, תוכן רעיל) כך שיוכלו לשמש לאימון מערכות בינה מלאכותית. השיטה, שנבדקה על נתוני קוד, מציעה פתרון למחסור הצפוי בנתוני אימון ועוקפת ביצועי שיטות קיימות ונתונים סינתטיים. המחקר טרם עבר ביקורת עמיתים רשמית.

    Google DeepMind מציעה פתרון למחסום הנתונים של בינה מלאכותית: ניקוי מידע 'מסוכן'

    Google DeepMind חושפת גישה פורצת דרך להתמודדות עם המחסור בנתוני אימון ל-LLM

    חוקרים ב-Google DeepMind פרסמו מחקר חדש המציע פתרון לאחד האתגרים הקריטיים בתחום הבינה המלאכותית: מחסור הולך וגדל בנתוני אימון איכותיים. השיטה החדשה, בשם Generative Data Refinement (GDR), מאפשרת לטהר נתונים שנחשבו עד כה כ'לא שמישים' לאימון מודלים.

    הבעיה:

    • מערכות AI מודרניות דורשות כמויות אדירות של נתוני אימון
    • חלק ניכר מהנתונים הזמינים ברשת נפסל לשימוש עקב:
      • מידע רגיש (מספרי טלפון, תעודות זהות)
      • תוכן רעיל או פוגעני
      • עובדות לא מדויקות או מתיישנות
    • מחקרים מעריכים כי עד 2026-2032 ייגמרו מאגרי הטקסט הזמינים

    הפתרון של GDR:

    • שימוש במודלים גנרטיביים קיימים ל'ניקוי' נתונים מסוכנים
    • החלפה או הסרה של פיסות מידע רגישות תוך שימור הקונטקסט
    • לדוגמה: החלפת מספר תעודת זהות בערך גנרי מבלי לפגוע במבנה הנתונים

    יתרונות מול שיטות קיימות:

    1. עדיף על סינתוז נתונים מלאכותיים (synthetic data) שמוביל לרוב לירידה באיכות
    2. מאפשר ניצול של יותר מ-90% מפיסות תוכן שהיו מושלכות לפח
    3. הצליח לעקוף ביצועי שיטות תעשייתיות קיימות במבחני קוד עם מיליון שורות

    החוקרים הדגימו את השיטה עד כה על טקסט וקוד, אך מציינים כי ניתן להרחיבה למדיות נוספות כמו וידאו ואודיו. חשוב לציין כי המחקר טרם עבר ביקורת עמיתים רשמית, אך עבר סקירה פנימית ב-Google.

    השלכות עתידיות:

    • פתרון אפשרי למשבר הנתונים הצפוי
    • מאפשר שימוש במאגרי מידע שנראו בעבר כבלתי ניתנים למיצוי
    • מעלה שאלות חדשות בנושאי זכויות יוצרים ופרטיות בעידן ה-GDR

    "זה לא רק משפר את איכות הנתונים - זו פריצת דרך בכמות החומר הניתן לאימון" — מינג'י ג'יאנג, מחבר משותף של המחקר

    הטכנולוגיה עשויה להשפיע על פיתוח הדור הבא של מודלי AI בחברות כמו Gemini של גוגל, אם כי החברה טרם אישרה שימוש מסחרי בשיטה.

    מקורות

    Google DeepMind מציעה פתרון למחסום הנתונים של בינה מלאכותית: ניקוי מידע 'מסוכן' | FOMO AI