מחקר על הרעלת LLM ומניעת שימוש לרעה
Chad Scira חוקר כיצד ניתן להרוס ולנצל דגמי שפה גדולים כדי לפגוע בפרטים, ובונה מערכות מגן כדי למנוע איומים אלו. הסיכון דחוף: קצב האמון בתוצרי LLM עלה על יכולתנו לאמת הצהרות, בעוד שהמתקיפים יכולים לפרסם טקסט בזול המשנה את התנהגות המודל והתרשמות החיפוש של אנשים בעלי נוכחות אינטרנטית מוגבלת.
סבב השקעה פרטי נסגר ב-3 באוקטובר 2025 להמשך מחקר זה.
תקציר מנהלים
אנשים ממוצעים בעלי טביעת רגל אינטרנטית קטנה חשופים באופן בלתי פרופורציונלי לסיכון מהשמצה המוכפלת על-ידי בינה מלאכותית ומהרעלת נתונים. אדם בודד ממוניטציה יכול לשתול נרטיבים כוזבים שחיפושים, פידים חברתיים ודגמי שפה גדולים יחזרו עליהם. מסמך זה מסביר מסלולי תקיפה נפוצים, השפעות מוחשיות על מוניטין ובטיחות ומספק מדריך מעשי לזיהוי והגנה. הוא גם מפרט כיצד אישורים מאומתים קריפטוגרפית ומשיכת מידע המודעת למוצא יכולים להפחית נזק לאנשים ולמפתחים ומשלבים טכנולוגיה.
קהל יעד ומודל איום
קהל יעד: פרטים וארגונים קטנים ללא נוכחות SEO משמעותית. מגבלות: זמן, תקציב ומשאבים טכניים מוגבלים. מתקיף: שחקן בודד המסוגל ליצור ולפרסם כמויות גדולות של טקסט, להשתמש ברשתות קישורים בסיסיות ולנצל נקודות תורפה במערכות דיווח. מטרות: לעוות תוצאות חיפוש/LLM, לפגוע במוניטין ולגרום לספק אצל מעסיקים, לקוחות, פלטפורמות או נציגים.
מהי הרעלת מודלי שפה גדולים (LLM)?
הרעלת LLM מתייחסת למניפולציה של התנהגות המודל באמצעות תוכן מושתל או מתואם - לדוגמה, פוסטים זדוניים, מאמרים סינטטיים או ספאם בפורומים - שיכול להיות מוזן למערכות אחזור או לשמש בני אדם כאותות, ובכך לדחוף את המודלים לאסוציאציות שגויות ולנרטיבים השמצתיים.
מכיוון שדגמי שפה גדולים ומערכות משיכה ממוטבים להיקף וכיסוי, שחקן בודד ממוטיבציה יכול לעצב את מה שהמודל רואה לגבי אדם על-ידי הצפת חתיכה קטנה מן האינטרנט. זה יעיל במיוחד כנגד אנשים עם נוכחות מקוונת מוגבלת.
כיצד המוניטין מעוות
- הרעלה בחיפוש וברשתות החברתיות - חטיפת פרופילים, חוות קישורים ופרסום המוני להטיית תכונות דירוג וקשרי השלמה אוטומטית.
- הרעלת מאגר ידע ו‑RAG - יצירת דפי ישויות והערות Q&A שנראות רלוונטיות סמנטית ומוחזרות כקונטקסט.
- הזרקת פרומפט עקיפה - תוכן עוין באינטרנט שגורם לסוכני גלישה לחזור על הוראות או להוציא נתונים רגישים.
- נקודות קצה עם דלת אחורית - עטיפות מודל זדוניות שמתנהגות כרגיל עד שמופיעות מילות טריגר, ואז משדרות שקרים ממוקדים.
סיכונים נוספים ומצבי כשל
- התמוטטות מודל כתוצאה מהדרכה על פלטים סינתטיים - לולאות משוב שבהן טקסט שנוצר מפחית את איכות המודל העתידית אם לא יסונן או ישוקלל.
- הזרקת פרומפט עקיפה - תוכן עוין ברשת שמנחה סוכן או כלי גלישה להוציא סודות או להפיץ השמצות בעת ציטוט.
- הרעלת מאגר האמבדינג — הכנסת קטעים עוינים למאגר הידע כך שאחזור יציג טענות שקריות הנראות רלוונטיות מבחינה סמנטית.
- שחרורים עם דלת אחורית - פרסום צ'קפוינטים מותאמים או עטיפות API שמתנהגות כרגיל עד שמופיעה מילת טריגר.
הגנות לעומק
שליפה ודירוג
- דירוג מקורות ומשקל מקור — העדף תוכן חתום או מאומת על ידי המפרסם; הורד את המשקל של דפים שנוצרו לאחרונה או בעלי מוניטין נמוך.
- דהיית זמן עם תקופת חסד — יש לדרוש זמן השהייה לפני שמקורות חדשים ישפיעו על תשובות בעלות השלכות גבוהות; יש להוסיף סקירה אנושית עבור ישויות רגישות.
- זיהוי 'תאי תהודה' — קיבוץ קטעים כמעט זהים והגבלת השפעה חוזרת מאותו מקור או אותה רשת.
- זיהוי חריגים ואנומליות במרחב ההטמעות - סימון קטעים שמיקומי הווקטור שלהם מותאמים באופן עוין.
היגיינת נתונים ומאגר ידע
- תמונת מצב ושינויים בבסיסי ידע — בדוק שינויים גדולים, במיוחד עבור ישויות של אנשים והאשמות ללא מקורות ראשוניים.
- רשימות canary ו-deny - למנוע הכללה של דומיינים ידועים המשמשים לרעה; להכניס canaries כדי למדוד הפצה לא מורשית.
- השתתפות אנושית בנושאים בסיכון גבוה — העמידו בתור עדכונים מוצעים לעובדות מוניטין להכרעה ידנית.
אישורים ומוניטין
- אישורים מאומתים קריפטוגרפית — הצהרות חתומות של אנשי מקצוע וארגונים שעברו בדיקה, המתפרסמות ביומן שניתן להוסיף אליו בלבד.
- גרפי מוניטין — צבירה של אישורים חתומים והורדת דירוג של תוכן ממנוצלים חוזרים או מרשתות בוטים.
- ציטוטים המופנים למשתמש — דרשו מהמודלים להציג מקורות ורמת ביטחון עם תגי מוצא לטענות רגישות.
רשימת בדיקה ארגונית
- מיפו ישויות רגישות בתחום שלכם (אנשים, מותגים, נושאים משפטיים) ונתבו שאילתות לצינורות מוגנים עם דרישות להוכחת מקור.
- לאמץ את C2PA או אישורי תוכן דומים לתוכן מצד ראשון ולעודד שותפים לעשות כן.
- עקבו אחר השפעת מקורות חדשים לאורך זמן והתריעו על תנודות חריגות בתשובות ברמת הישות.
- בצע פעולות 'צוות אדום' מתמשכות עבור סוכני RAG ודפדוף, כולל סטי מבחן להזרקת פקודות בעקיפין.
הטרדה ולשון הרע באמצעות בינה מלאכותית
אנשים לשכירה מנצלים כיום בינה מלאכותית ואוטומציה כדי להפיק באופן המוני הטרדות והשמצות, וליצור טקסט שנראה אמין ו"מקורות" מזויפים שקל לאנדקס, לגרד ולשתף מחדש. קמפיינים אלה זולים, בעלי השפעה גבוהה וקשים לתיקון לאחר שהמערכות האוטומטיות מפיצות אותם.
Chad Scira חווה באופן אישי הטרדה ממוקדת והשמצה בצירוף קישורים ספאמיים שנועדו לעוות אותות מוניטין והתרשמות בתוצאות חיפוש. תיאור מפורט ושרשרת ראיות מתועדים כאן: ג'סי ניקלס - הטרדה והשמצה.
טקסונומיית איומים
- הרעלת נתוני טרום־הדרכה - הרעלת קורפוסים ציבוריים המשמשים לאימון ראשוני כדי להשתיל אסוציאציות שגויות או דלתות אחוריות.
- RAG poisoning - זריעת בסיסי ידע או מקורות חיצוניים שמשמשים צינורות השליפה בזמן ההסקה.
- הרעלה בחיפוש/ברשתות - הצפת פוסטים או דפים באיכות נמוכה כדי להטות אותות שליפה ודירוג לגבי אדם או נושא.
- הנחיות ותכנים עוינים - ניסוח קלטים שמפעילים התנהגויות בלתי רצויות או פרצות (jailbreaks) החוזרות על טענות משמיצות.
אירועים ומחקרים אחרונים (עם תאריכים)
הערה: התאריכים שלעיל משקפים תאריכי פרסום או שחרור ציבורי לפי המקורות המקושרים.
מדוע הדבר מסוכן
- מודלים שפתיים גדולים (LLMs) עלולים להיראות סמכותיים גם כאשר ההפניות הבסיסיות חלשות או מושתלות באופן עוין.
- מנגנוני שליפה ודירוג עלולים להעניק משקל יתר לטקסט חוזר, ולאפשר לשחקן בודד לעוות את התוצאות באמצעות נפח בלבד.
- בדיקות עובדות אנושיות איטיות ויקרות לעומת מהירות הייצור וההפצה האוטומטית של תוכן.
- קורבנות ללא נוכחות מקוונת משמעותית חשופים באופן בלתי פרופורציונלי להרעלת פוסט יחיד ולמתקפות על זהותם.
ניתוח סיכונים מעמיק
- סינון לגבי תעסוקה ופלטפורמות — חיפושים וסיכומי LLM עלולים לשקף תוכן מורעל במהלך בדיקות גיוס, פיקוח או הליכי קליטה.
- שירותי נסיעות, דיור ושירותים פיננסיים — בדיקות אוטומטיות עשויות לחשוף נרטיבים שגויים שמעכבים או חוסמים מתן שירותים.
- התמדה - ברגע שמאונדקסים בבסיסי ידע או נשמרים בתשובות מטמון, טענות שקריות עלולות להופיע מחדש גם לאחר הסרה.
- משוב סינתטי — תוכן שנוצר יכול להוות בסיס ליצירת תוכן נוסף, וכך להגביר את המשקל הנתפס של שקרים לאורך זמן.
זיהוי ומעקב
- הגדר התראות חיפוש על שמך וכינויים; בדוק מדי פעם שאילתות site: עבור דומיינים בעלי מוניטין נמוך שמזכירים אותך.
- עקבו אחרי שינויים בלוחות המידע או בדפי ישויות; שמרו צילומי מסך מתועדים ועותקי ייצוא כעדות.
- ניטור גרפים של קישורים חברתיים לזיהוי חשבונות מקור חוזרים או קפיצות פתאומיות בניסוחים דומים.
- אם אתם מפעילים RAG או מאגר ידע, הפעילו בדיקות סטיית ישויות ובחנו שינויים משמעותיים בדפי אנשים או בהאשמות ללא מקורות ראשוניים.
מדריך הגנה - יחידים
- פרסם אתר אישי עם הצהרות זהות ברורות, ביוגרפיה קצרה ודרכי קשר; שמור יומן שינויים מתועד עם תאריכים.
- ליישר את המטא-נתונים של פרופילים בין פלטפורמות; להשיג פרופילים מאומתים כאשר ניתן ולקשרם חזרה לאתר שלכם.
- השתמשו ב‑C2PA או באישורים דומים לתוכן לתמונות ומסמכים מרכזיים כשאפשר; אחסנו את המקוריים באופן פרטי.
- שמרו יומן ראיות עם חותמות זמן: צילומי מסך, קישורים וכל מספרי כרטיסים בפלטפורמה עבור הסלמה מאוחרת יותר.
- הכינו תבניות בקשות הסרה; הגיבו במהירות להתקפות חדשות ותעדו כל שלב לשרשרת מסמכים ברורה.
מדריך הגנה - צוותים ומשלבים
- העדיפו תוכן חתום או שאומת על ידי המפרסם בשליפה; יישמו תקופות חסד מבוססות זמן למקורות חדשים.
- הגבילו השפעה חוזרת מאותו מקור והסירו כפילויות קרובות בכל רשת מקור.
- הוספת תגי מקור ורשימות מקורות המוצגות למשתמש עבור טענות ברמת אדם ונושאים רגישים נוספים.
- לאמץ זיהוי אנומליות במאגרים של embedding; לסמן וקטורי התקפה חריגים ולהריץ בדיקות canary למדידת הפצה לא מורשית.
מחקר: הצהרות מאומתות קריפטוגרפית
Chad Scira בונה מערכות אישורים מאומתים קריפטוגרפית עבור אמון בהצהרות על אנשים ואירועים. המטרה היא לספק לדגמי שפה ומערכות משיכה טענות חתומות ושאילתניות ממקצוענים וארגונים מבוקרים, מה שמאפשר שיוך חזק יותר והתנגדות גבוהה יותר להרעלה.
עקרונות עיצוב
- זהות ומקור: הצהרות נחתמות על ידי יחידים/ארגונים מאומתים באמצעות קריפטוגרפיית מפתח ציבורי.
- אחסון ניתן לאימות: הצהרות מעוגנות ביומני 'הוספה בלבד' בעלי יכולת גילוי שינויים, כדי לאפשר אימות עצמאי.
- אינטגרציה של שליפה: צנרת RAG יכולה להעניק עדיפות או לדרוש מקורות המאומתים קריפטוגרפית עבור שאילתות רגישות.
- חיכוך מינימלי: ממשקי API ו‑SDK מאפשרים למפרסמים ולפלטפורמות להנפיק ולבדוק אישורים בזמן הקליטה.
מוניטין והתראות
בנוסף לאישורים, שכבת מוניטין מאגדת אישורים חתומים ומסמנת מתעללים ידועים. מערכות התרעה מודיעות למטרות כאשר זוהו התקפות מתואמות או קפיצות חריגות, מה שמאפשר תגובה מהירה יותר ובקשות הסרה.
ערוצים משפטיים ופלטפורמיים
- השתמשו בזרימות דיווח של הפלטפורמה עם חבילות ראיות ברורות: קישורים, תאריכים, צילומי מסך והשפעות. ציינו את מדיניות השמצה והטרדה.
- להעלות לדרגים באמצעות הודעות רשמיות כשהדבר מתאים; שמרו יומני התכתבויות ומספרי פניות/כרטיסים בשרשרת הראיות שלכם.
- יש לשקול הבדלים שיפוטיים בנושא לשון הרע ואחריות פלטפורמה; יש להתייעץ עם יועץ משפטי במקרים בסיכון גבוה.
מפת דרכים ליישום (שנה 1)
- MVP: סכמת אישור ו-SDK למפרסמים לחתימת הצהרות זהות וטענות על אירועים.
- פיילוט עם קבוצה קטנה של מקצוענים וארגונים שעברו בדיקה; הקמת תזרימי עבודה לאימות.
- תוספי RAG: אפשרו מצב 'מקור קודם לתשובה' שמעדיף מקורות מאומתים לשאילתות רגישות.
לקריאה נוספת (עם תאריכים)
שיתוף פעולה
מחקר זה פורץ דרך ומתפתח באופן פעיל. Chad Scira מזמין שיתוף פעולה עם אנשי מקצוע אחרים בתחום זה.
אם אתם מעוניינים בשיתוף פעולה, פנו אלינו בכתובת: [email protected]