פריצת דרך ב-NYU: ארכיטקטורת AI חדשה ליצירת תמונות מהירה ואיכותית יותר

    8 בנוב׳ 2025, 8:52השקה1 מקורות

    חוקרי NYU פיתחו ארכיטקטורת RAE ליצירת תמונות ב-AI, המשלבת מצפיני ייצוג מאומנים מראש עם מפענח ViT. המודל החדש מציג שיפור דרמטי במהירות האימון (פי 47), חיסכון בעלויות מחשוב ואיכות תמונה גבוהה יותר (FID 1.13), עם יישומים צפויים ביצירת וידאו ומערכות RAG.

    חוקרים באוניברסיטת ניו יורק (NYU) פיתחו ארכיטקטורת AI חדשה בשם Diffusion Transformer with Representation Autoencoders (RAE), המשפרת משמעותית את יעילות ואיכות יצירת התמונות במערכות בינה מלאכותית. המודל החדש מציג גישה מהפכנית לעיצוב מודלי דיפוזיה – הטכנולוגיה העומדת בבסיס רוב מחוללי התמונות המתקדמים כיום.

    מה חדש ב-RAE?

    המערכת מחליפה את ה-Variational Autoencoder (VAE) המסורתי במנגנון Representation Autoencoders (RAE):

    • שימוש במצפינים (encoders) מאומנים מראש, כמו "DINO" של Meta
    • פענוח באמצעות Vision Transformer המותאם למשימה
    • שמירה על מבנה סמנטי גלובלי שלא היה קיים במודלים קודמים

    "כדי לערוך תמונות היטב, המודל חייב להבין מה נמצא בהן", מסביר Saining Xie, שותף למחקר. "RAE מחבר בין חלק ההבנה לחלק היצירה".

    יתרונות ביצועיים

    • מהירות אימון גבוהה פי 47 ממודלי דיפוזיה קלאסיים
    • חיסכון משמעותי בכוח מחשוב: הפעלת המפענח זולה פי 3 מה-VAE המסורתי
    • שיפור מדד FID (מציין איכות תמונה) ל-1.13 בתמונות 512x512
    • תמיכה ביצירת תמונות עקביות סמנטית, ללא שגיאות אופייניות

    "אנו מאמינים שבעתיד יהיה מודל ייצוג מאוחד אחד שילכוד את המבנה העשיר של המציאות", מסרו החוקרים.

    יישומים עתידיים

    • מערכות RAG-Based Generation לחיפוש ויצירת תמונות
    • יצירת וידאו מתקדמת
    • מודלי עולם מותנים בפעולות (Action-Conditioned World Models)

    פריצת הדרך עשויה להוזיל עלויות ולאפשר יישומים עסקיים חדשים בתחומי היצירה החזותית, תוך שמירה על איכות חסרת תקדים.

    מקורות

    ידיעות קשורות