הקרב על ה-AI מגיע לבית המשפט: איך "AI Discovery" מגדיר מחדש ראיות דיגיטליות
פסק דין פדרלי בתיק NYT נגד OpenAI ו-Microsoft מתחיל להגדיר מהו "AI Discovery": פרומפטים, תוצרים ולוגים רלוונטיים עשויים להיות ראיות, אך רק כשיש קשר ישיר ומידתי למחלוקת. אין חובה לשמור כל אינטראקציה עם מודל, אלא לנהל שימור ממוקד, מתועד וסביר. המסר לחברות, גם בישראל: לבנות מדיניות AI ונתונים המוכנה לביקורת משפטית.
בעשור האחרון התרגלנו לכך שכל מייל, צ'אט, קובץ ו-log עלולים למצוא את דרכם ל-discovery משפטי. עכשיו, עם חדירת כלי Generative AI כמעט לכל ארגון, שאלה חדשה ומורכבת עולה: האם גם פרומפטים, תשובות של מודלים, הגדרות מערכת ונתוני שימוש ב-AI נחשבים לראיות שצריך לשמור ולהפיק?
פסק דין עדכני מבית המשפט הפדרלי בדרום ניו יורק (SDNY), במסגרת אחד התיקים המתוקשרים ביותר בעולם ה-AI – In re OpenAI Inc. Copyright Infringement Litigation, שבו The New York Times תובעת את OpenAI ו-Microsoft – מתחיל לספק תשובות מעשיות. והוא רלוונטי לא רק לענקיות טכנולוגיה אמריקאיות, אלא גם לחברות ישראליות שמטמיעות ChatGPT, Copilot, Claude ודומיהם בעבודה היומיומית.
הרקע: AI, זכויות יוצרים ומה שביניהם
תיק ה-NYT נגד OpenAI ו-Microsoft הוא חלק מגל תביעות זכויות יוצרים נגד חברות AI, הטוענות בין השאר לשימוש לא מורשה בחומרים מוגנים לצורכי אימון מודלים. בתוך המחלוקת הזו צצה גם שאלה פרוצדורלית לכאורה, אבל קריטית: איזה סוג של נתונים סביב שימוש ב-AI חייבים להיות חשופים במסגרת discovery?
המשמעות המעשית: אם עובדים בארגון משתמשים בכלי AI לצורך מחקר, ניסוח מסמכים, כתיבת קוד או סיכומים פנימיים – האם כל הפרומפטים והתשובות הללו יכולים להפוך לראיות, שצריך לשמור, לקטלג ולהפיק? ואם כן, עד כמה רחוק זה הולך?
מה קבע בית המשפט: כללי המשחק הרגילים – גם ל-AI
ב-19 בספטמבר 2024 פרסם בית המשפט החלטה שמסמנת עיקרון חשוב:
גם כשמדובר ב-AI, חלים אותם כללי discovery בסיסיים: רלוונטיות, פרופורציונליות, היקף סביר.
לפי הדיווח, הצד שכנגד ניסה לחייב את The New York Times להפיק פרומפטים ותוצרים מתוך כלי AI פנימי שהעיתון משתמש בו. בית המשפט סירב. הנימוקים המרכזיים:
- הבקשה לא הוכיחה קשר מהותי למחלוקת זכויות היוצרים בתיק.
- גם אם יש זיקה מסוימת, הנטל הטכני והמשפטי של איסוף ובדיקת עשרות אלפי פריטים – כולל בדיקות חיסיון – אינו פרופורציונלי.
כלומר: עצם זה שמדובר ב-AI לא מצדיק "חפירות עומק" אינסופיות. מבקשים ראיות? תסבירו למה ספציפית הנתונים האלה רלוונטיים.
סאגת ה-logs: האם צריך לשמור כל פרומפט לנצח?
עוד לפני כן, במאי, הורה בית המשפט ל-OpenAI לשמר את כל ה-output logs שלה קדימה בזמן – צעד שעורר פאניקה שקטה בתעשייה: אם כל אינטראקציה עם מודל צריכה להישמר, איך ארגון יכול בכלל לתפקד?
החלטת ספטמבר עושה כאן סדר: אין חובה גורפת לשמור "הכול". החובה היא:
- ממוקדת.
- מבוססת רלוונטיות לסכסוך.
- ניתנת להצדקה כפרופורציונלית.
בהמשך ההליכים בוטלה החובה הרחבה לשימור כל התוצרים לכל אינטראקציה עתידית. המסר לחברות ברור: בנו מדיניות שימור סבירה ומדודה – ותדעו להסביר אותה.
מה באמת יכול להיות Discoverable בעולם ה-AI?
על פי הכיוון שמסתמן מההחלטה ומהניתוח המשפטי, יש כמה סוגי מידע שיכולים להיות רלוונטיים ל-discovery, תלוי בתיק:
- פרומפטים ותכנים שהוזנו לכלי AI, כאשר הם קשורים ישירות לנושאי המחלוקת.
- תוצרים של הכלי: טיוטות, סיכומים, תמלולים, ניתוחים – אם נעשה בהם שימוש עסקי רלוונטי.
- מטא-נתונים מינימליים: זמן, איזה כלי/מודל שימש, מזהי בקשה.
- מידע אדמיניסטרטיבי: מי הייתה לו גישה, אילו הגדרות פרטיות/אבטחה הופעלו.
ומצד שני, ברירת המחדל היא ש:
- לוגים מערכתיים גורפים,
- נתוני אימון (training data) של מודלים
יהיו מחוץ לתמונה, אלא אם יש קשר ישיר ללב התביעה והמידע בשליטת החברה באופן ריאלי.
גם חוזים עם ספקי AI הופכים פתאום למסמך ראיות פוטנציאלי: סעיפי בעלות על נתונים, שימוש חוזר, סודיות והודעות – יכולים לקבוע מה בכלל נגיש, למי, ובאיזה אופן.
איך ארגונים צריכים להתכונן: פרקטיקה, לא פאניקה
כאן זה נעשה רלוונטי במיוחד לחברות ישראליות – סטארט-אפים, בנקים, קופות חולים, בתי תוכנה – שכבר היום מריצים Copilot ב-GitHub, GPT-4.1 בדפדפן, כלים פנימיים עם APIs ועוד.
כמה עקרונות שעולים מהפסיקה ומהניתוח:
-
זיהוי משתמשים רלוונטיים
- מי מה"custodians" (מנהלים, משפטנים, מוצר, פיתוח) משתמש בכלי AI בנושאים שעלולים להיות במוקד סכסוך משפטי.
-
מיפוי כלים ומידע
- אילו מערכות AI בשימוש (פתרונות ענן, on-prem, מודלים פנימיים)?
- איפה נשמרים הפרומפטים והתוצרים? מערכת פנימית? SaaS חיצוני? מקומית?
-
שימור ממוקד
- לשמר פרומפטים ותוצרים שרלוונטיים ישירות לנושא הסכסוך.
- לכלול גם סיכומים אוטומטיים, תמלילים וטיוטות שה-AI יצר.
- לשמור מטא-נתונים בסיסיים שתומכים בהבנת ההקשר.
-
תיעוד והצדקה
- לבנות מדיניות פורמלית: מה שומרים, כמה זמן, איך מסננים.
- המבחן של בתי המשפט: "סבירות" ויכולת להסביר לא למה הייתם מושלמים, אלא למה הייתם שקולים.
מתי מותר להגיד: עד כאן
ההחלטה מחזקת את העמדה שלא כל דרישה ל-AI data היא לגיטימית.
ארגונים יכולים – ולעיתים צריכים – להתנגד לבקשות ראיות שכוללות:
- דרישות גורפות לכל הפרומפטים בארגון.
- בקשות שחודרות לחיים הפרטיים (עובדים שמשתמשים בכלי AI ארגוני גם לדברים אישיים).
- בקשות שהעלויות הטכניות והמשפטיות שלהן מוגזמות ביחס לערך הראייתי הפוטנציאלי.
הטענות המרכזיות שמקבלות רוח גבית:
- חוסר רלוונטיות לנושאים שבמחלוקת.
- חוסר פרופורציונליות (עלות, זמן, משאבי בדיקת חיסיון ופרטיות).
יחד עם זאת, כאשר יש קשר ברור בין תוכן שנוצר או הופעל באמצעות AI לבין טענות התביעה או ההגנה – הוא יטופל כמו כל ESI אחר: מיילים, מסמכים, קוד.
למה זה חשוב עכשיו לחברות טכנולוגיה ואנשי AI בישראל
מעבר לסיפור המשפטי הספציפי, כאן נכתבים בפועל הכללים שיקבעו איך ננהל בעתיד מערכות AI בארגונים:
- צוותי Legal, IT ו-Data צריכים לדבר באותה שפה: להבין איפה זורם המידע של ה-AI.
- מי שמפתח מוצרי AI ללקוחות (B2B SaaS ישראלי, למשל) חייב להתחיל לחשוב איך חוזי השימוש מגדירים בעלות, נגישות ו-logging.
- ניהול סיכוני AI כבר אינו רק עניין של bias ואיכות מודל – אלא גם של מוכנות ל-discovery משפטי.
השורה התחתונה: בתי המשפט מאותתים – אין פטור מיוחד ל-AI, אבל גם אין חרב אוטומטית שמכריחה לשמור ולהפיק כל פרומפט. מי שיפעל היום בחוכמה, עם מדיניות שקופה ומנומקת, יגיע מחר הרבה יותר מוכן לרגע שבו ה-AI שלו יעלה לדוכן העדים.