DeepSeek מציגה ארכיטקטורת mHC פורצת דרך לאימון מודלי AI בעלות נמוכה

    2 בינו׳ 2026, 11:02חדשות3 מקורות

    DeepSeek פרסמה מאמר על ארכיטקטורת mHC לאימון מודלי AI גדולים תוך חיסכון במשאבים. השיטה משדרגת רשתות ResNet קלאסיות ומציגה יציבות ומדרגיות גבוהות יותר, עם ניסויים מוצלחים על מודלים בני עד 27 מיליארד פרמטרים. החיסכון החישובי יסייע לחברה להתחרות מול ענקיות AI אמריקאיות.

    DeepSeek מציגה ארכיטקטורת mHC פורצת דרך לאימון מודלי AI בעלות נמוכה

    חוקרים מ-DeepSeek פרסמו בינואר 2026 מאמר טכני פורץ דרך על ארכיטקטורת Manifold-Constrained Hyper-Connections (mHC) – שיטה חדשנית לאימון מודלי AI גדולים יותר בפחות משאבים.

    המערכת, אותה בוחן הצוות בהובלת ליאנג ונפנג (מייסד החברה), מהווה שדרוג לרשתות Residual (ResNet) הקלאסיות. היא מייעלת את תהליך האימון באמצעות אופטימיזציות מבניות המפחיתות עומס חישובי מבלי לפגוע בביצועים.

    בניסויים על מודלים עם 3, 9 ו-27 מיליארד פרמטרים, הוכח כי mHC מציעה:

    • יציבות גבוהה יותר באימונים בקנה מידה גדול
    • מדרגיות משופרת בהשוואה לשיטות HC קונבנציונליות
    • חיסכון משמעותי בעלויות חישוב בתחרות מול ענקיות AI אמריקאיות

    חוקרים כמו פרופ' קוואן לונג מאוניברסיטת הונג קונג כבר מכנים את הגילוי 'משמעותי מאוד', בעוד DeepSeek ממשיכה להתמקד בשיפורים מבניים בתשתיות הלמידה במקום במרוץ לפיתוח מוצרים.