
Tencent מציגה: Parallel-R1 - טכניקת AI ללמידת 'מחשבה מקבילית' במודלי שפה
חוקרים מ-Tencent פיתחו טכניקת RL בשם Parallel-R1 המאפשרת ל-LLM לחשוב במסלולים מקביליים בזמן היסק. האימון התלת-שלבי (אתחול, RL למתמטיקה קלה וקשה) הדגים שיפור בביצועים על בסיסי מתמטיקה מורכבים. הגישה חוסכת משאבי אימון ומשפרת יכולות נימוק במודלים קיימים.