Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה

    לפני 16 ימיםחדשות1 מקורות

    חוקרים מ-Tencent פיתחו טכניקת RL בשם Parallel-R1 המאפשרת ל-LLM לחשוב במסלולים מקביליים בזמן היסק. האימון התלת-שלבי (אתחול, RL למתמטיקה קלה וקשה) הדגים שיפור בביצועים על בסיסי מתמטיקה מורכבים. הגישה חוסכת משאבי אימון ומשפרת יכולות נימוק במודלים קיימים.

    Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה

    חוקרים מ-Tencent AI Lab ואוניברסיטת מרילנד פיתחו שיטת RL חדשה המאפשרת ל-LLMs חשיבה מקבילית (Parallel Thinking) לפתרון בעיות מורכבות, עם פוטנציאל לשיפור דרמטי ביכולות הסקה מבוססת נתונים קיימים - ללא צורך באימון יקר.

    האתגר: כיצד ללמוד חשיבה מקבילית?

    • גישות קיימות כמו "Tree of Thoughts" דורשות הנחיית חיצונית, בעוד שיטות אימון מסורתיות מתקשות בייצור דוגמאות איכותיות.
    • למידת חיזוק (RL) סובלת מ"בעיית אתחול קר" (Cold-Start) וקושי בעיצוב מערכת תגמול מאוזנת.

    Parallel-R1: איך זה עובד?

    הטכניקה פורצת הדרך כוללת:

    1. זיהוי נקודות קריטיות: המודל מסמן נקודות החלטה עם <Parallel> ויוצר מסלולי חשיבה עצמאיים ב<Path>.
    2. מיזוג תוצאות: כל מסלול מסוכם ב<Summary> לפני החזרה לזרימה המרכזית.

    מתכון אימון תלת-שלבי:

    1. Cold-Start Stage: שכפול פורמט החשיבה המקבילית מדוגמאות שנוצרו על ידי מודל AI (7,000 דוגמאות מ-GSM8K).
    2. RL on Easy Math: לימוד התנהגות יציבה עם תגמול כפול - דיוק התשובה + שימוש נכון במבנה המקבילי.
    3. RL on General Math: הכללת המיומנות לבעיות מתמטיות קשות יותר.

    תוצאות מבטיחות: המודל Qwen-3-4B-Base שעבר אימון ב-Parallel-R1 הראה שיפור עקבי ב-4 בסיסי נתונים מתמטיים (AIME, AMC, MATH) בהשוואה לגישות RL מסורתיות.

    "זוהי פריצת דרך בהפעלת יכולת הסקה מקבילית במודלים קיימים. גישת ה-Inference-Time Scaling מציעה עליונות מעשית על פני הגדלת גודל המודל" - החוקרים.

    השלכות מעשיות:

    הטכנולוגיה פותחת צוהר ל:

    • שיפור ביצועים ביישומים ארגוניים ללא עלויות אימון מרקיעות שחקים
    • אופטימיזציה של תהליכי נימוק בפתרון בעיות רב-שלביות
    • חיסכון במשאבים על ידי שימוש יעיל יותר במודלים קיימים

    מקורות

    Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה | FOMO AI