Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה
חוקרים מ-Tencent פיתחו טכניקת RL בשם Parallel-R1 המאפשרת ל-LLM לחשוב במסלולים מקביליים בזמן היסק. האימון התלת-שלבי (אתחול, RL למתמטיקה קלה וקשה) הדגים שיפור בביצועים על בסיסי מתמטיקה מורכבים. הגישה חוסכת משאבי אימון ומשפרת יכולות נימוק במודלים קיימים.

חוקרים מ-Tencent AI Lab ואוניברסיטת מרילנד פיתחו שיטת RL חדשה המאפשרת ל-LLMs חשיבה מקבילית (Parallel Thinking) לפתרון בעיות מורכבות, עם פוטנציאל לשיפור דרמטי ביכולות הסקה מבוססת נתונים קיימים - ללא צורך באימון יקר.
האתגר: כיצד ללמוד חשיבה מקבילית?
- גישות קיימות כמו "Tree of Thoughts" דורשות הנחיית חיצונית, בעוד שיטות אימון מסורתיות מתקשות בייצור דוגמאות איכותיות.
- למידת חיזוק (RL) סובלת מ"בעיית אתחול קר" (Cold-Start) וקושי בעיצוב מערכת תגמול מאוזנת.
Parallel-R1: איך זה עובד?
הטכניקה פורצת הדרך כוללת:
- זיהוי נקודות קריטיות: המודל מסמן נקודות החלטה עם
<Parallel>
ויוצר מסלולי חשיבה עצמאיים ב<Path>
. - מיזוג תוצאות: כל מסלול מסוכם ב
<Summary>
לפני החזרה לזרימה המרכזית.
מתכון אימון תלת-שלבי:
- Cold-Start Stage: שכפול פורמט החשיבה המקבילית מדוגמאות שנוצרו על ידי מודל AI (7,000 דוגמאות מ-GSM8K).
- RL on Easy Math: לימוד התנהגות יציבה עם תגמול כפול - דיוק התשובה + שימוש נכון במבנה המקבילי.
- RL on General Math: הכללת המיומנות לבעיות מתמטיות קשות יותר.
תוצאות מבטיחות: המודל Qwen-3-4B-Base שעבר אימון ב-Parallel-R1 הראה שיפור עקבי ב-4 בסיסי נתונים מתמטיים (AIME, AMC, MATH) בהשוואה לגישות RL מסורתיות.
"זוהי פריצת דרך בהפעלת יכולת הסקה מקבילית במודלים קיימים. גישת ה-Inference-Time Scaling מציעה עליונות מעשית על פני הגדלת גודל המודל" - החוקרים.
השלכות מעשיות:
הטכנולוגיה פותחת צוהר ל:
- שיפור ביצועים ביישומים ארגוניים ללא עלויות אימון מרקיעות שחקים
- אופטימיזציה של תהליכי נימוק בפתרון בעיות רב-שלביות
- חיסכון במשאבים על ידי שימוש יעיל יותר במודלים קיימים
מקורות
