WEKA מפצחת את צווארי בקבוק הזיכרון ב-AI עם רשת זיכרון מוגברת בשיתוף Nvidia

    20 בנוב׳ 2025, 17:21השקה2 מקורות

    WekaIO משיקה רשת זיכרון מוגברת על גבי NeuralMesh בשיתוף Nvidia. הפתרון מאריך את קיבולת ה-DRAM ומאיץ אופרציות אִינְפֵרֶנְס ב-AI פי 4.2-6. בנוסף, הוא חוסך עלויות GPU ומטפל בצווארי בקבוק של KV cache במודלים גדולים.

    בזמן שמודלים של בינה מלאכותית מתמודדים עם אתגרים חדשים של סביבות עבודה מורכבות, אינטראקציות רבות וריבוי סוכנים אוטונומיים – חברת WekaIO מציגה פתרון מהפכני: רשת זיכרון מוגברת (Augmented Memory Grid) על גבי NeuralMesh. הפתרון מאריך את שכבת הזיכרון ה-DRAM הקיימת, ומספק קיבולות גדולות בהרבה במהירות זהה לזו של DRAM, וכך מתמודד ישירות עם צווארי הבקבוק בשלבי האִינְפֵרֶנְס (inference) של AI.

    הבעיה: זיכרון מוגבל מול דרישות AI מתפוצצות

    מודלי AI הופכים גדולים יותר, עם חלונות הקשר ארוכים ומשימות מורכבות כמו עוזרי קידוד, סוכנים חכמים וזרימות עבודה אוטונומיות. הדרישה למהירות גבוהה ולתפוקה רציפה חושפת את המגבלות של זיכרון GPU ו-DRAM מסורתי. כשהKV cache (מטמון מפתחות-ערכים) מתמלא, הנתונים עוברים לזיכרון מערכת איטי יותר, מה שמאט את זמן הטוקן הראשון ואת התפוקה הכוללת.

    "מה שהכנסנו עם רשת הזיכרון המוגברת הוא את היתרונות העמידים של NeuralMesh של Weka, ואנו מחברים אותו למערכות אִינְפֵרֶנְס באופן תומך", אמר קאלאן פוקס, מנהל מוצר ראשי לאִינְפֵרֶנְס AI וניהול נתונים ב-Weka. הפתרון מספק שכבה עמידה המאריכה את ה-DRAM, ומאפשרת קיבולות גדולות יותר במהירות DRAM.

    ביצועים מרשימים: פי 6 במהירות, חיסכון של מאות אלפי דולרים

    בבדיקות עם עומסים רבים והקשרים גדולים, Weka השיגה שיפורים דרמטיים:

    • זמן טוקן ראשון מהיר פי 6.
    • תפוקת טוקנים כוללת גבוהה פי 4.2.

    במונחים מעשיים, GPU מדגם Nvidia H100 עולה כ-30,000 דולר. אשכול של 100 יחידות GPU יעלה כ-3 מיליון דולר. שיפור של פי 4.2 מאפשר להשיג את אותה ביצועים עם 24 GPU פחות – חיסכון של כ-720,000 דולר. "אפשר לחשוב על זה כפחות GPU, אבל גם כיותר תפוקה מהמערכת", הסבירה בטסי צ'רנוף, מנהלת שיווק מוצרי AI ראשית ב-Weka.

    הרשת מספקת שכבה עמידה עבור ה-KV cache, שממשיכה לפעול כשה-DRAM מלא, וכך היא מפחיתה חישובים חוזרים ומשפרת את השימוש ב-GPU.

    שיתוף פעולה עם Nvidia: האצת KV Cache בקנה מידה גדול

    בשיתוף Nvidia, Weka שילבה את הפתרון עם Nvidia Dynamo ו-NIXL (Nvidia Inference Transfer Library). הפתרון מזרים בלוקים של KV cache בין זיכרון GPU למאגר הטוקנים של Weka במהירות קרובה לזיכרון הראשי, ומאיץ אִינְפֵרֶנְס פי 4 עד 40.

    "Dynamo מספק אִינְפֵרֶנְס AI בקנה מידה גדול על פני כל שכבות הזיכרון הרב-שכבתיות", אמר דיון הריס, סמנכ"ל בכיר לפתרונות HPC, ענן ו-AI ב-Nvidia. NIXL חושף פרוטוקול חדש המאפשר שילוב מיידי עם שותפים כמו Weka.

    שמעון בן דוד, סמנכ"ל טכנולוגיות ראשי ב-Weka, הדגיש: "אם נאיץ אִינְפֵרֶנְס פי 4, 10, 20 או 40, דמיינו כמה טוקנים נוכל לייצר וכמה תוצאות חזקות לקוחות יקבלו".

    יישומים מעשיים ומגמות עתידיות

    לקוחות כבר מאמצים את הטכנולוגיה עבור יישומים כגון:

    • צ'אט בוטים.
    • סביבות RAG (Retrieval Augmented Generation).
    • חיפוש סמנטי.
    • חיפוש וסיכום וידאו.
    • אינטליגנציה פיזית ברובוטיקה.

    ההתקדמות הזו, שהוצגה בכנס SC25, מצביעה על עתיד שבו תוכנה תקבל החלטות דינמיות בין מהירות להיגיון עמוק, וזיכרון חכם יהווה עמוד שדרה מרכזי. Weka לא עוצרת כאן – ככל שמודלים גדלים, כלכלת האִינְפֵרֶנְס תלויה ביכולת למקסם תפוקה ולהפחית מגבלות.

    החדשנות הזו מבטיחה שמערכות AI הבאות יוכלו להתמודד עם דרישות מתפוצצות, ולהביא ערך אמיתי לעסקים ולמפתחים.

    מקורות

    ידיעות קשורות