טכנולוגיית KVzip לדחיסת זיכרון צ'אטבוטים פי 4 - מהפך בעולם ה-LLM
7 בנוב׳ 2025, 16:55•השקה•1 מקורות
חוקרים פיתחו את KVzip - טכנולוגיית דחיסת זיכרון ל-LLM, שמצמצמת את זיכרון השיחות פי 3–4 ומאיצה תגובות פי 2, ללא אובדן דיוק. המערכת תומכת בהקשרים עד 170K טוקנים ומתאימה למערכות ארגוניות ולמובייל. בנוסף, המעבדה פרסמה מחקרים פורצי דרך בקוונטיזציה, למידת חיזוק וגילוי סיבתיות.

חוקרים מאוניברסיטת סיאול חשפו טכנולוגיית AI חדשנית בשם KVzip, שמצליחה לדחוס את זיכרון השיחות של צ'אטבוטים מבוססי מודלי שפה גדולים (LLM) ביחס של 1:3–4, ללא פגיעה ברמת הדיוק.
איך זה עובד?
- המערכת מזהה ומסירה מידע מיותר בזיכרון השיחה (KV Cache), תוך שמירה על ההקשר הרלוונטי.
- הדחיסה מתבצעת פעם אחת ו"משרתת" שאלות עוקבות ללא צורך בעיבוד חוזר.
- התאוצה במהירות התגובה מגיעה עד פי 2.
יתרונות מרכזיים:
- תמיכה בהקשר ארוך במיוחד (עד 170,000 טוקנים).
- תאימות עם מודלים מובילים, דוגמת Llama 3.1, Qwen 2.5 ו-Gemma 3.
- אינטגרציה עם ספריית KVPress של NVIDIA.
- חיסכון משמעותי בעלויות שרתים (עד 75% פחות זיכרון).
יישומים צפויים:
- מערכות RAG (Retrieval-Augmented Generation).
- שירותי צ'אטבוטים מותאמים אישית.
- סביבות Edge Computing עם משאבים מוגבלים (טלפונים, מכשירי IoT).
"KVzip מאפשרת צמצום זיכרון תוך שמירה על מהות ההקשר, אפילו בסיטואציות מורכבות", אמר פרופ' היון אוה סונג, ראש צוות המחקר.
בנוסף לפריצת הדרך הזו, המעבדה פרסמה עוד שלושה מאמרים בולטים:
- Q-Palette - שיטת קוונטיזציה שמשפרת ב-36% את מהירות המסקנות ב-LLM.
- Guided-ReST - אלגוריתם למידת חיזוק שמשפר דיוק בחידות לוגיות ב-10%.
- מחקר חדשני בגילוי סיבתיות ברשתות גנטיות.
הטכנולוגיה צפויה להיטמע במערכות LLM ארגוניות כבר בשנים הקרובות.