כש-AI מציירת במילים: מה מחקר חדש מגלה על המגבלות העמוקות של Midjourney ו-DALL·E

    13 בנוב׳ 2025, 17:49חדשות1 מקורות

    מחקר חדש על Midjourney ו-DALL·E מגלה: המודלים מרשימים אסתטית אך נכשלים בהבנת הוראות בסיסיות, מתקשים בשלילה, במרחב ובזמן, ומשקפים הטיות תרבותיות.

    כש-AI מציירת במילים: מה מחקר חדש מגלה על המגבלות העמוקות של Midjourney ו-DALL·E

    האם אפשר לסמוך על Midjourney ו-DALL·E שיבינו אותנו?

    המהפכה הגנרטיבית גרמה לנו להתרגל לרעיון שמספיק לכתוב משפט קצר באנגלית צחה, והמערכת כבר תספק לנו תמונה "מושלמת" לשיקוף רעיון, מצגת, פוסט או קונספט סטארט-אפי. אבל מחקר חדש, שפורסם ב-Semiotic Review על ידי צוות חוקרים מבלגיה וצרפת, מצנן את ההתלהבות: המודלים אמנם מרשימים אסתטית – אך נכשלים שוב ושוב במשימות בסיסיות של הבנת הוראות.

    המחקר: מבחן הוראות פשוטות, תוצאות מטרידות

    החוקרים מאוניברסיטת לייז' (ULiège), אוניברסיטת לורן ו-EHESS בחנו שתי מערכות מובילות: Midjourney ו-DALL·E. במקום להתמקד רק ב"כמה יפה" התמונה יוצאת, הם יישמו גישה אינטרדיסציפלינרית: סמיוֹטיקה, מדעי המחשב ותולדות האמנות.

    השיטה הייתה קפדנית:

    • ניסוחים מילוליים מדויקים וקצרים.
    • הפקת עד 50 דגימות לכל prompt כדי לקבל תוקף סטטיסטי.
    • ניתוח התמונות לפי פרמטרים כמו סידור צורות, צבעים, זוויות מבט, יחסי מרחק, דינמיקה של הסצנה ועוד.

    המסקנה המרכזית: המודלים מייצרים תמונות אסתטיות ומרשימות, אך מתקשים לבצע הוראות פשוטות וצפויות.

    איפה בדיוק הם נכשלים?

    המחקר מצביע על דפוסי כשל שחוזרים על עצמם – נקודות קריטיות שכל מי שעובד עם מודלי תמונה צריך להכיר:

    1. שלילה (Negation)
      בקשה כמו "a dog without a tail" מניבה פעמים רבות כלב עם זנב, או קומפוזיציה שמסתירה את הזנב במקום לשלול אותו. כלומר, המודלים מתקשים לעבד "לא" קונספטואלי.

    2. יחסים מרחביים מורכבים
      הוראות כמו "two women behind a door" מובילות לעיתים לסצנות לא עקביות: הדמויות מוצבות במיקום מבלבל, יחסי עומק ומרחק לא הגיוניים, או עיוותים שבאופן אינטואיטיבי אנחנו מזהים כ"לא נכון".

    3. פרשנות שגויה של פעולות
      בקשות הכוללות פעולה קונפליקטואלית או דינמית, כמו "fighting", מתורגמות לא פעם לסצנות שנראות יותר כמו ריקוד או תנועות תיאטרליות. הקושי: לתפוס את המטען הסמנטי המדויק של פעולה ולא רק רפרנסים חזותיים כלליים.

    4. ייצוג זמן ורצף
      הוראות כגון "starting to eat" או "having finished eating" חושפות מגבלה נוספת: המודלים לא מיטיבים לייצג רגעים התחלתיים או סופיים. במקום הבחנה ברורה – מתקבל לרוב דימוי סטנדרטי של "אדם אוכל".

    5. דיוק צורני בסיסי
      גם בהוראות אלמנטריות יש חוסר עקביות. לדוגמה: ב-50 דגימות ל-"three vertical white lines on a black background":

      • Midjourney: יחסית עקבי, אבל עם ארטיפקטים וטקסטורות מיותרות.
      • DALL·E: נוטה לשנות את מספר הקווים או את זוויתם.

    חתימה אסתטית מול ציות להוראות

    אחת התובנות המעניינות במחקר היא שלכל מערכת יש "אישיות" ויזואלית משלה:

    • Midjourney נוטה לייצר תמונות מלוטשות, "מוחלקות", כמעט אמנותיות מדי, גם אם זה בא על חשבון נאמנות להוראות. כאילו המנוע מעדיף יופי על פני דיוק.
    • DALL·E שומר יותר על קומפוזיציה ודיוק יחסי במרחב, אך יוצר שונות גבוהה יותר בכמות האובייקטים, כיוון ופרופורציות.

    למשתמשים מקצועיים – מעצבים, יוצרי תוכן וסטארטאפים בישראל שמשלבים תמונות AI במוצרים – המשמעות ברורה: יש להבין את ההטיות הסגנוניות של כל כלי, ולא להניח ש"אם כתבתי, זה מה שאקבל".

    לא רק טכנולוגיה: איך ה-Dataset מייצר עולם

    החוקרים מדגישים: מודלי תמונה גנרטיביים הם מכונות סטטיסטיות. הם לא "מבינים" הוראות, אלא מייצרים את התמונה הסבירה ביותר לפי דפוסים שנלמדו מהדאטה ומההגדרות של המפתחים.

    זה מגיע גם למרחב הרעיוני-חברתי. לדוגמה, עבור prompt כמו:

    "CEO giving a speech"

    מודלים שונים מייצרים עולם ויזואלי אחר:

    • יש מודלים שמציגים כמעט רק גברים לבנים בגיל העמידה.
    • DALL·E, לפי הדוגמה במחקר, יוצר לעיתים דווקא יותר נשים.

    המשמעות: המודלים לא רק משקפים את העולם, הם מייצרים וריאציה שלו, בהתאם לסטריאוטיפים, לאיזונים ולבחירות העריכה שתוכנתו לתוכם. עבור קהל ישראלי – שאלות של ייצוג מגדרי, אתני ותרבותי בתמונות AI אינן תיאורטיות; הן חלק משאלות של מוצר, מיתוג ואחריות.

    למה זה חשוב למפתחים, מעצבים וחוקרים בישראל

    המחקר מציע תזכורת פרקטית:

    • לא להסתנוור מאסתטיקה: תמונה יפה יכולה להיות סמנטית שגויה.
    • לקחת בחשבון הטיות תרבותיות: רוב המודלים מאומנים בעיקר על דימויים מערביים.
    • להבין שהכלי אינו "נייטרלי": בחירות הדאטה והאלגוריתם מעצבות את מה שנראה "נורמלי".

    והמסר העמוק יותר של החוקרים:

    הערכת מודלי AI חזותיים לא יכולה להישאר רק ברמת "precision" ו-"recall". חייבים כלים ממדעי הרוח כדי להבין איך הם בונים, מנרמלים או מעוותים את הדרך שבה אנחנו רואים את העולם.

    בשורה התחתונה

    Midjourney ו-DALL·E הם כלים רבי עוצמה ליצירה חזותית, אך רחוקים מ"תרגום מושלם" של שפה לתמונה. הם מצטיינים בלייצר את מה שנראה אפשרי וסביר, לא בהכרח את מה שביקשנו במדויק.

    למי שבונה עליהם במוצרי AI ישראליים, בתקשורת שיווקית, בעיצוב או בעיתונות – זה הזמן לאמץ גישה ביקורתית: לבדוק, להשוות, לנתח, ולא להתייחס לתמונה שנוצרה כאל אמת, אלא כאל פרשנות סטטיסטית עם חתימה תרבותית.

    מקורות

    ידיעות קשורות