מודלי AI לא מבינים באמת משחקי מילים: אשליה של הומור

    26 בנוב׳ 2025, 3:24חדשות2 מקורות

    חוקרים מקרדיף וּונציה מוכיחים: מודלי שפה גדולים (LLM) כמו GPT-4o לא מבינים באמת משחקי מילים (פאנים), אלא מזהים מבנים מוכרים. שינויים קלים מטעים אותם, והדיוק צונח עד ל-20%. המחקר הוצג בכנס EMNLP 2025 וחושף את מגבלות מודלי ה-AI בהבנת ניואנסים לשוניים.

    מודלי AI חזקים כמו GPT-4o נכשלים בהבנת משחקי מילים אמיתיים

    קומיקאים וכותבי כותרות שנונות יכולים לנוח קצת יותר בשקט: מחקר חדש מוכיח שמודלי שפה גדולים (LLMs) כמו GPT-4o אינם מבינים באמת בדיחות המבוססות על משחקי מילים, למרות שהם מייצרים תגובות שנראות מצחיקות. החוקרים מ-Cardiff University בבריטניה ומ-Ca’ Foscari University of Venice באיטליה מצאו שהמודלים הללו מזהים מבנה של בדיחה, אך ההבנה שלהם שטחית ומבוססת בעיקר על זיכרון מאימון.

    המבחנים שחשפו את האשליה

    הצוות בדק את היכולות באמצעות שינויים עדינים בבדיחות קיימות. לדוגמה:

    • הבדיחה המקורית: "I used to be a comedian, but my life became a joke." (החיים שלי הפכו לבדיחה). כאשר הוחלף "joke" ב-"chaotic" (כאוטי), המודלים עדיין זיהו משחק מילים (פאן).

    • "Long fairy tales have a tendency to dragon." (סיפורי פיות ארוכים נוטים להתארך, משחק מילים על "drag on"). החלפה ל-"prolong" (להאריך) או אפילו מילה אקראית לא שינתה את התפיסה – המודלים ראו משחק מילים בכל מקרה.

    דוגמה נוספת: "Old LLMs never die, they just lose their attention." (מודלים ישנים אף פעם לא מתים, הם רק מאבדים את תשומת הלבם, משחק מילים על מונח מתחום ה-AI). שינוי ל-"ukulele" גרם למודל להמציא הסבר יצירתי: המילה נשמעת כמו "you-kill-LLM", אך זו לא הבנה אמיתית.

    החוקרים, בהובלת פרופ' Jose Camacho Collados מבית הספר למדעי המחשב ב-Cardiff University, מסבירים: "מודלי LLM נוטים לזכור את מה שלמדו באימון. הם מזהים משחקי מילים (פאנים) קיימים היטב, אבל זה לא אומר שהם מבינים אותם באמת. שינויים קלים מטעים אותם, והם ממציאים סיבות להצדיק מדוע זו בדיחה. בסופו של דבר, ההבנה שלהם במשחקי מילים היא אשליה."

    תוצאות מדויקות ומגבלות

    במבחנים עם מערכי נתונים משופרים, הצלחת המודלים בזיהוי משחקי מילים לא מוכרים צנחה ל-20% בלבד – נמוך בהרבה מ-50% צפייה אקראית. המודלים הפגינו ביטחון עצמי מופרז, גם כאשר המשפטים לא היו הגיוניים או חסרו כוונה קומית.

    פרופ' Mohammad Taher Pilehvar מוסיף: "כאשר הם נתקלים במשחקי מילים לא מוכרים, הדיוק יורד דרמטית. זה מראה על חוסר יצירתיות אמיתית והבנה עמוקה."

    המחקר, שנערך על ידי Alessandro Zangari ו-Matteo Marcuzzo במהלך ביקור מחקרי בקרדיף בשנים 2024–2025, הוצג בתחילת החודש בכנס 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP) בסוז'ו, סין. המאמר, בשם 'Pun Unintended: LLMs and the Illusion of Humor Understanding', פורסם בכנס (DOI: 10.18653/v1/2025.emnlp-main.1419).

    השלכות מעשיות ועתיד המחקר

    הממצאים מדגישים צורך בזהירות בשימוש במודלי AI ליישומים הדורשים הבנת הומור, אמפתיה או ניואנסים תרבותיים. "פלטים מהמודלים צריכים להילקח בערבון מוגבל," אומר קמחו-קולדוס. "בעוד AI מתפתח ומתחזק, בני אדם יישארו עדיפים בקומדיה."

    הצוות מתכנן להרחיב את המחקר למשימות יצירתיות אחרות ולפתח מודלים מודעים יותר לעצמם, שיוכלו לזהות מה הם לא מבינים.

    לסיכום, מחקר זה מזכיר לנו שמאחורי היכולות המרשימות של מודלי AI כמו ChatGPT ו-Gemini מסתתרת אשליה של הבנה עמוקה. עבור חובבי טכנולוגיה, זו תזכורת מרעננת לכוחו הייחודי של ההומור האנושי.

    מקורות

    ידיעות קשורות