ארגונים מפחיתים עלויות AI בקנה מידה: אסטרטגיות עם תשתיות פתוחות והטרוגניות
ארגונים מפחיתים עלויות הסקת AI בקנה מידה באמצעות העברת עומסים ל-SSD, אופטימיזציית KV cache, תשתיות מודולריות פתוחות וניצול מירבי של GPU. Metrum AI, Solidigm ו-Super Micro מובילות את השינוי.
ארגונים מפחיתים עלויות AI בקנה מידה: אסטרטגיות עם תשתיות פתוחות והטרוגניות
בשלב הנוכחי של בום ה-AI, ארגונים מתמקדים בהפחתת עלויות ההסקה (inference) בקנה מידה גדול, תוך שימוש בגישות תשתית פתוחות והטרוגניות. הדרישות הגוברות של AI מחייבות חשיבה מחדש בעיצוב שבבים, עם דגש על total cost of ownership (TCO) ויעילות מערכת. חברות כמו Metrum AI ו-Solidigm מובילות בשיטות חדשניות להעברת עומסים לאחסון SSD במקום DRAM יקר, בעוד Super Micro Computer מדגישה בנייה מחדש של תשתיות דיגיטליות מודולריות.
העברת עומסי AI לאחסון SSD להפחתת עלויות
Metrum AI, בהובלת סטין גרהם (Steen Graham), מנכ"ל החברה, מציעה להעביר מסדי נתונים וקטוריים ואינדקסים ל-solid-state drive (SSD). "מה אם נעביר את מסד הנתונים הווקטורי ואת האינדקס ל-SSD? יש שם טרה-בייטים של זיכרון, והטביעה ב-DRAM יורדת באופן דרמטי", אמר גרהם. שיטה זו שומרת על ביצועים ודיוק הנדרשים ליישומים ארגוניים, תוך חיסכון משמעותי בעלויות.
בשיתוף Solidigm (מותג של SK Hynix), הם מפעילים זרימת עבודה של vision-language models בזמן אמת על וידאו, כולל ניתוח ויצירת קליפים רלוונטיים. הפתרון משתמש ב-NAND storage לאחסון מאסיבי של נתונים, ומעביר נתונים מ-DRAM ל-SSD בעל צפיפות גבוהה. אייס סטרייקר (Ace Stryker), מנהל שיווק AI באקוסיסטם של Solidigm, הדגיש: "זה עניין של התבוננות ברמת המערכת – איך הרכיבים עובדים יחד".
השילוב כולל הנדסת תוכנה מתקדמת כמו אלגוריתם DiskANN לאופטימיזציה של גישה. חלק משכבות הרשת הנוירונית מועברים ל-SSD במודלים מוגבלי GPU, מה שמאפשר להפעיל מודלים של מאות מיליארדי פרמטרים על חומרה ישנה באמצעות batching של עומסים. "המטרה היא דיוק שמניע תוצאות עסקיות וחיסכון ב-TCO", ציין גרהם.
העתיד כולל אופטימיזציה של key-value cache (KV cache) – "מערכת ההפעלה של מפעל ה-AI". עם חלונות הקשר גדלים, ה-KV cache מתנפח, ויש הזדמנות להעביר חלקים ל-SSD, כפי שציין סטרייקר.
בנייה מחדש של תשתיות AI בגישות פתוחות
Super Micro Computer, בהובלת ויק מאליאלה (Vik Malyala), מנהל אזור EMEA וסגן נשיא בכיר לטכנולוגיה ול-AI, מדברת על שינוי יסודי בתשתיות. "פיתוח פנימי מאפשר התאמה מהירה לשינויים ולדרישות אנכיות שונות – ארגונים, ענן ו-HPC", אמר מאליאלה.
החברה משתמשת במערכות מודולריות בצפיפות גבוהה להפחתת עומס הרשתות (overhead): "צמתים צריכים להיות קרובים זה לזה". הם היו הראשונים להציג twin platform עם Intel, שכיום היא תקן מקובל. תקנים פתוחים ושיתופי פעולה אקולוגיים הם מרכזיים: "צריך כפר שלם כדי להצליח. אנחנו מאמצים תקנים פתוחים כמו 19 אינץ' ומשתפים פעולה עם כל מי שמתמקד בביצועים גבוהים ובעמידות".
מיקסום השימוש ב-GPU הוא עדיפות עליונה, במיוחד עם גיוון עומסים ומאיצים חדשים. "זה התחיל בעומסי אימון, אבל עכשיו זה נוגע לשמירה על GPU פעילים, שיפור פרודוקטיביות והפחתת TCO בסביבה הטרוגנית", הסביר מאליאלה.
מסקנות: יעילות בקנה מידה גדול
אסטרטגיות אלה משלבות העברת עומסים לאחסון, ארכיטקטורות מודולריות ותקנים פתוחים כדי להתמודד עם דרישות AI. ארגונים משפרים ניצול GPU, בונים תשתיות חדשות ומשפרים את יעילות עומסי AI – הכל תוך שמירה על ביצועים ועלויות נמוכות יותר. הדיון התקיים בכנס SC25, שם הוצגו הפתרונות הללו בפירוט.