Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה

25 בספט׳ 2025, 2:53•חדשות•1 מקורות

חוקרים מ-Tencent פיתחו טכניקת RL בשם Parallel-R1 המאפשרת ל-LLM לחשוב במסלולים מקביליים בזמן היסק. האימון התלת-שלבי (אתחול, RL למתמטיקה קלה וקשה) הדגים שיפור בביצועים על בסיסי מתמטיקה מורכבים. הגישה חוסכת משאבי אימון ומשפרת יכולות נימוק במודלים קיימים.

Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה

חוקרים מ-Tencent AI Lab ואוניברסיטת מרילנד פיתחו שיטת RL חדשה המאפשרת ל-LLMs חשיבה מקבילית (Parallel Thinking) לפתרון בעיות מורכבות, עם פוטנציאל לשיפור דרמטי ביכולות הסקה מבוססת נתונים קיימים - ללא צורך באימון יקר.

האתגר: כיצד ללמוד חשיבה מקבילית?

גישות קיימות כמו "Tree of Thoughts" דורשות הנחיית חיצונית, בעוד שיטות אימון מסורתיות מתקשות בייצור דוגמאות איכותיות.
למידת חיזוק (RL) סובלת מ"בעיית אתחול קר" (Cold-Start) וקושי בעיצוב מערכת תגמול מאוזנת.

Parallel-R1: איך זה עובד?

הטכניקה פורצת הדרך כוללת:

זיהוי נקודות קריטיות: המודל מסמן נקודות החלטה עם <Parallel> ויוצר מסלולי חשיבה עצמאיים ב<Path>.
מיזוג תוצאות: כל מסלול מסוכם ב<Summary> לפני החזרה לזרימה המרכזית.

מתכון אימון תלת-שלבי:

Cold-Start Stage: שכפול פורמט החשיבה המקבילית מדוגמאות שנוצרו על ידי מודל AI (7,000 דוגמאות מ-GSM8K).
RL on Easy Math: לימוד התנהגות יציבה עם תגמול כפול - דיוק התשובה + שימוש נכון במבנה המקבילי.
RL on General Math: הכללת המיומנות לבעיות מתמטיות קשות יותר.

תוצאות מבטיחות: המודל Qwen-3-4B-Base שעבר אימון ב-Parallel-R1 הראה שיפור עקבי ב-4 בסיסי נתונים מתמטיים (AIME, AMC, MATH) בהשוואה לגישות RL מסורתיות.

"זוהי פריצת דרך בהפעלת יכולת הסקה מקבילית במודלים קיימים. גישת ה-Inference-Time Scaling מציעה עליונות מעשית על פני הגדלת גודל המודל" - החוקרים.

השלכות מעשיות:

הטכנולוגיה פותחת צוהר ל:

שיפור ביצועים ביישומים ארגוניים ללא עלויות אימון מרקיעות שחקים
אופטימיזציה של תהליכי נימוק בפתרון בעיות רב-שלביות
חיסכון במשאבים על ידי שימוש יעיל יותר במודלים קיימים

האתגר: כיצד ללמוד חשיבה מקבילית?

Parallel-R1: איך זה עובד?

מתכון אימון תלת-שלבי:

השלכות מעשיות:

מקורות

ידיעות קשורות