כלי לזיהוי טקסט AI מבוסס 'טביעות אצבע' אנושיות: חוקרים מ-Northeastern חושפים את הסוד
חוקרים ב-Northeastern פיתחו כלי קל משקל שמזהה טקסט AI ב-97% דיוק באמצעות וריאציות אנושיות במילים, משפטים ופיסוק. רץ על לפטופ, ניתן לאימון מקומי לפרטיות.
כלי חדשני לזיהוי טקסטים שנוצרו על ידי AI
כל אחד מאיתנו כותב בצורה ייחודית, עם וריאציות במילים, משפטים מורכבים ושימוש לא עקבי בפיסוק. חוקרים באוניברסיטת Northeastern University ניצלו בדיוק את ה"טביעות אצבע" האלה כדי לפתח כלי מתוחכם שמזהה טקסטים שנוצרו על ידי בינה מלאכותית (AI). הכלי הזה, שפותח על ידי צוות בהובלת סטודנטית לתואר שני במערכות מידע, מציע דרך יעילה וקלה לזהות תוכן מזויף.
הבעיה: AI שמדמה כתיבה אנושית
בינה מלאכותית מתקדמת כמו דגמי שפה גדולים (LLMs) מסוגלים לייצר טקסט שנראה אנושי לחלוטין. אולם, הם נכשלים בשכפול המושלמות של הניואנסים האנושיים. "כמו שכל אחד מדבר אחרת, ככה גם כולנו כותבים עם דפוסים ייחודיים", מסבירה Sohni Rais, סטודנטית לתואר שני במערכות מידע באוניברסיטה ומשתתפת מרכזית בפרויקט. כדי להבדיל בין כתיבה אנושית לטקסט AI, מספיק לזהות את הדפוסים האופייניים לסגנון הכתיבה.
כלי זיהוי טקסט AI קיימים כיום, כמו ZeroGPT, Originality ו-AI Detector, מסתמכים על רשתות נוירונים טרנספורמרים (transformers) שמנתחות כל אות, מילה וביטוי בפרטי סגולה. זה דורש כוח מחשוב עצום. אך החוקרים מ-Northeastern טוענים שזה מיותר.
הכלי הקל משקל: 97% דיוק על לפטופ רגיל
הכלי החדש הוא קל משקל טכנולוגית, רץ על לפטופ רגיל ללא צורך במשאבים כבדים, ומגיע לדיוק של 97%. "אנחנו לא הראשונים שמפתחים גלאים כאלה", אומר Sergey Aityan, פרופסור להוראה בתוכנית ההנדסה הרב-תחומית לקראת תארים מתקדמים בקמפוס אוקלנד. "אבל הפתרון שלנו דורש 20 עד 100 פעמים פחות כוח מחשוב כדי לבצע את אותה משימה".
במקום טרנספורמרים, הכלי משתמש ב-68 תכונות סטילומטריות ייחודיות – או "טביעות אצבעות כתיבה", כפי שמכנה אותן Rais. התכונות האלה כוללות:
- מורכבות משפטים: בני אדם משנים רמת קריאה בהתאם להקשר – פשוטה בהודעה לחבר, רשמית יותר באימייל לבוס. AI שומר על עקביות.
- וריאציית מילים: בני אדם משתמשים בסינונימים מגוונים (למשל, happy, glad, pleased). AI חוזר על אותן מילים שוב ושוב.
- מרחק בין מילים קשורות: במשפט כמו "the cat that I saw yesterday was orange", הנושא (cat) מרוחק מהפועל (was) בחמש מילים. AI שומר על מרחק קבוע של 2-3 מילים.
- שימוש לא עקבי בפיסוק ועוד ניואנסים אנושיים.
"זה כמו מדידת סימני חיים אצל רופא", מתארת Rais. "במקום לבדוק כל בדיקה אפשרית, אנחנו מודדים מדדים מפתח כמו טמפרטורה, לחץ דם ודופק שמספרים לנו מה שצריך לדעת".
יתרונות פרקטיים: אימון מקומי ופרטיות
הכלי ניתן לאימון על ידי המשתמש עצמו ומסתמך על מחשב מקומי. זה יתרון משמעותי לפרטיות: "או שאתה לא רוצה לשלוח מידע סודי מחוץ ללפטופ שלך", אומר Aityan, "או שאתה פרופסור שרוצה לתפוס סטודנטים שמרמהים, אז אתה מאמן קבוצת נתונים משלך על טקסטים ספציפיים".
מתאים במיוחד לחינוך, עיתונאות ועסקים, שם חשוב לזהות תוכן AI מבלי לשלוח נתונים לענן.
קרב מתמשך מול AI מתפתח
הפיתוח לא נגמר. Aityan מדגיש שזה קרב מתמשך: כשפותחו טכנולוגיות לייצור טקסט AI, הגיעו מיד גלאים. אחריהם – אלגוריתמים של "הומניזציה" שגורמים לטקסט AI להישמע טבעי יותר. AI לומד ומשתפר, והחוקרים צריכים להישאר צעד אחד קדימה.
סיכום ומשמעות לעולם הטק'
הכלי הזה מהווה קפיצת מדרגה בזיהוי תוכן AI, עם דגש על יעילות ופשטות. עבור חובבי טכנולוגיה בישראל, שמתמודדים עם אתגרי AI בחינוך, תקשורת ועסקים, זה מבשר עידן חדש של כלים נגישים. Nothheastern מוכיחה שפשטות יכולה להיות חזקה יותר מכוח גולמי.
למה זה חשוב
מקבלי החלטות
השקת כלי קל משקל לזיהוי AI עם אימון מקומי תומך בפרטיות ותאימות, רלוונטי לניהול סיכונים בחינוך, עיתונות ועסקים.
משקיעים
פריצת דרך בזיהוי טקסט AI ביעילות גבוהה פותחת שוק חדש לכלים נגד תוכן מזויף, עם יתרון תחרותי על פתרונות כבדים קיימים.
טכנולוגים
כלי זיהוי טקסט AI מבוסס 68 תכונות סטילומטריות אנושיות מ-Northeastern משיג 97% דיוק בכוח מחשוב נמוך, מהפכה באלגוריתמים לזיהוי תוכן מזויף ללא טרנספורמרים כבדים.
חובבים
שיטת 'טביעות אצבע' אנושיות לזיהוי AI, כולל וריאציות מילים ופיסוק, היא חידוש מרתק בקרב מתמשך מול דגמי שפה מתקדמים.