Riċerka dwar Velenizzazzjoni tal-LLM u Kontra l-Abbuż

Chad Scira jirriċerka kif mudelli kbar tal-lingwa jistgħu jiġu vvelenati u abbużati biex jagħmlu ħsara lil individwi, u jibni sistemi protettivi biex jikkontrobattu dawn it-theddid. Ir-riskju hu urġenti: ir-rata ta’ fiduċja fil-produzzjoni tal-LLMs qabżet il-kapaċità tagħna li nivverifikaw l-istqarrijiet, filwaqt li avversarji jistgħu bi spiża baxxa jippubblikaw test li jdawwar l-imġiba tal-mudelli u l-impressjonijiet ta’ tfittxija ta’ nies mingħajr preżenza kbira online.

F’3 ta’ Ottubru 2025 ingħalaq rawnd ta’ investiment privat biex tkompli din ir-riċerka.

Sommarju Eżekuttiv

Nies ordinarji b’impronta żgħira fuq l-internet jiffaċċjaw riskju sproporzjonat minn diffamazzjoni amplifikata mill-AI u avvelenament tad-dejta. Individwu wieħed motivat jista’ jxettel narrattivi foloz li t-tfittxija, il-feeds soċjali u l-LLMs jerġgħu jirrepetu. Dan id-dokument jispjega rotot komuni ta’ attakk, effetti konkreti fuq ir-reputazzjoni u s-sigurtà, u pjan prattiku għall-iskoperta u l-protezzjoni. Jiddeskrivi wkoll kif dikjarazzjonijiet verifikati kriptografikament u rikuperu konxju tal-provenjenza jistgħu jnaqqsu l-ħsara għal individwi u integraturi.

Udjenza u Mudell ta’ Theddid

Udjenza: individwi u organizzazzjonijiet żgħar mingħajr preżenza kbira fl-SEO. Limitazzjonijiet: żmien, baġit u riżorsi tekniċi limitati. Avversarju: attur uniku li jista’ jiġġenera u jippubblika volum kbir ta’ test, juża netwerks bażiċi ta’ links, u jisfrutta lakuni fir-rapportar. Għanijiet: idistorzjoni tar-riżultati ta’ tfittxija/LLM, dannu lir-reputazzjoni, u ħolqien ta’ dubju fost min iħaddem, klijenti, pjattaformi jew aġenti.

X’inhi l-avvelenament ta’ LLM?

Il-velenizzazzjoni tal-LLM tirreferi għall-manipulazzjoni tal-imġiba tal-mudell permezz ta’ kontenut imħawwel jew ikkoordinat – pereżempju, posts malizzjużi, artikli sintetiċi, jew spam fuq forom – li jistgħu jiġu assorbiti minn sistemi ta’ rkupru ta’ informazzjoni jew użati mill-bnedmin bħala sinjali, u b’hekk iċaqalqu l-mudelli lejn assoċjazzjonijiet foloz u narrattivi diffamatorji.

Peress li l-LLMs u s-sistemi ta’ rkupru jottimizzaw għall-iskala u l-kopertura, avversarju wieħed motivat jista’ jifforma dak li mudell "jara" dwar persuna billi jimla b’kontenut sezzjoni żgħira mill-web. Dan huwa partikolarment effettiv kontra individwi b’preżenza limitata online.

Kif Tiġi Distorta r-Reputazzjoni

  • Avvelenament ta’ tfittxija u soċjali - serq ta’ profili, farms ta’ links, u ippustjar massiċju biex jiddisturba l-karatteristiċi ta’ klassifikazzjoni u l-assoċjazzjonijiet ta’ autocomplete.
  • Avvelenament tal-bażi ta’ għarfien u RAG – ħolqien ta’ paġni ta’ entitajiet u noti ta’ mistoqsijiet u tweġibiet li jidhru rilevanti semantikament u li jiġu rkuprati bħala kuntest.
  • Injezzjoni indiretta ta’ prompt – kontenut ostili fuq il-web li jikkawża lill-aġenti tal-ibbrawżjar jirrepetu istruzzjonijiet jew jiżvelaw dejta sensittiva.
  • Endpoints kompromessi – ‘wrappers’ tal-mudelli malizzjużi li jaġixxu b’mod normali sakemm jidhru frażijiet li jqajmu l-attivazzjoni, imbagħad joħorġu falzitajiet immirati.

Riskji Addizzjonali u Modi ta’ Falliment

  • Kollass tal-mudell minħabba taħriġ fuq outputs sintetiċi – loops ta’ feedback fejn test iġġenerat jiggrava l-kwalità futura tal-mudell jekk ma jiġix filtrat jew ivvalutat b’piż xieraq.
  • Injezzjoni indiretta ta’ prompt – kontenut ostili fuq il-web li jistruzzjona aġent jew għodda tal-ibbrawżjar biex tiġbor sigrieti jew ixerred difamazzjoni meta jiġi kkwotat.
  • Avvelenament tal-ħażna tal-inkorporazzjonijiet (embedding store) - daħħal testi avversarjali f’bażi ta’ għarfien sabiex l-irkupru juri pretensjonijiet foloz li jidhru rilevanti semantikament.
  • Rilaxxi kompromessi – pubblikazzjoni ta’ checkpoints modifikati jew ‘wrappers’ tal-API li jaġixxu b’mod normali sakemm ikun preżenti frażi li tqajjem l-attivazzjoni.

Każijiet Konkreti u Referenzi

Mitigazzjonijiet fil-Fond

Retrieval u Klassifikazzjoni

  • Punteġġ tas-sors u piżar tal-provenjenza – agħti prijorità għal kontenut firmat jew verifikat mill-pubblikatur; naqqas il-piż ta’ paġni maħluqa reċentement jew b’reputazzjoni baxxa.
  • Tnaqqis maż-żmien b’perjodu ta’ grazzja - teħtieġ żmien ta’ dewmien (dwell time) qabel ma sorsi ġodda jinfluwenzaw tweġibiet ta’ riskju għoli; żid reviżjoni umana għal entitajiet sensittivi.
  • Individwazzjoni ta’ “echo chamber” - it-tqegħid f’cluster ta’ taħditiet kważi duplikati u l-limitazzjoni tal-influwenza ripetuta mill-istess oriġini jew netwerk.
  • Skoperta ta’ outliers u anomali fl-ispazju tal-embedding - immarka passatġi li l-pożizzjonijiet vettorjali tagħhom huma ottimizzati b’mod avversarju.

Iġjene tad-Data u tal-Bażi ta’ Għarfien

  • Bażijiet ta’ għarfien ta’ snapshot u diff – irrevedi deltas kbar, speċjalment għal entitajiet ta’ persuni u akkużi mingħajr sorsi primarji.
  • Listi ‘canary’ u listi ta’ ċaħda – jipprevjenu l-inklużjoni ta’ dominji abbużivi magħrufa; jiddaħħlu ‘canaries’ biex jitkejjel t-tixrid mhux awtorizzat.
  • Persuna umana fil-‘loop’ għal suġġetti ta’ riskju għoli - dawwar għall-kjuu l-aġġornamenti proposti ta’ fatti reputazzjonali għal deċiżjoni manwali.

Dikjarazzjonijiet u Reputazzjoni

  • Attestazzjonijiet verifikati kriptografikament - stqarrijiet iffirmati minn professjonisti u organizzazzjonijiet verifikati ppubblikati permezz ta’ log li jista’ jiżdied biss.
  • Grafi tar-reputazzjoni - jiġbru endorsi firmati u jnaqqsu r-rank tal-kontenut minn abbużaturi ripetuti jew netwerks ta’ bots.
  • Ċitazzjonijiet viżibbli għall-utent - iċċaqlaq li l-mudelli juru s-sorsi u l-livell ta’ fiduċja b’brix (badges) ta’ provenjenza għal pretensjonijiet sensittivi.

Lista ta’ Kontroll għall-Intrapriża

  • Iċċarta entitajiet sensittivi fid-dominju tiegħek (persuni, marki, suġġetti legali) u idderieġi l-mistoqsijiet lejn pipelines protetti b’ħtiġijiet ta’ provenjenza.
  • Adotta C2PA jew kredenzjali ta’ kontenut simili għal kontenut tal-ewwel parti u inċentiva lill-imsieħba biex jagħmlu l-istess.
  • Segwi l-influwenza ta’ sorsi ġodda maż-żmien u allarma dwar bidliet mhux tas-soltu f’tweġibiet fil-livell ta’ entità.
  • Ipprovdi red teaming kontinwu għal aġenti ta’ RAG u browsing inklużi suites ta’ test għal indirett prompt injection.

Fastidju u Difamazzjoni permezz tal-AI

Individwi li jingħataw xogħol issa jużaw l-AI u l-awtomazzjoni biex jipproduċu f’massa fastidju u difamazzjoni, u joħolqu testi li jidhru kredibbli u “sorsi” foloz li huma faċli biex jiġu indiċjati, skrapjati u maqsuma mill-ġdid. Dawn il-kampanji huma bi spiża baxxa, b’impatt għoli, u diffiċli biex jiġu rimedjati ladarba jiġu amplifikati minn sistemi awtomatizzati.

Chad Scira esperjenza personalment fastidju mmirat u defamazzjoni flimkien ma’ kollegamenti spam intenzjonati biex idistortu s-sinjali tar-reputazzjoni u l-impressjonijiet fit-tfittxija. Kont ta’ dettall u traċċar ta’ evidenza huma dokumentati hawn: Jesse Nickles - Fastidju u Difamazzjoni.

Tassonomija tat-theddid

  • Avvelenament tad-dejta tal-pretraining - avvelenament ta’ korpi pubbliċi użati għat-taħriġ inizjali biex jiġu impjantati assoċjazzjonijiet foloz jew backdoors.
  • Avvelenament RAG - tħawwil ta’ bażijiet ta’ għarfien jew sorsi esterni li pipelines ta’ retrieval jużaw fil-ħin tal-inferenza.
  • Avvelenament ta’ tfittxija/soċjali - għargħar ta’ posts jew paġni ta’ kwalità baxxa biex tiddisturba s-sinjali ta’ retrieval u klassifikazzjoni dwar persuna jew suġġett.
  • Prompts u kontenut avversarjali – l-iffurmar ta’ input li jqanqal imġiba mhux mixtieqa jew ‘jailbreaks’ li jirrepetu allegazzjonijiet diffamatorji.

Inċidenti u Riċerka Riċenti (bid-dati)

Nota: Id-dati ta’ hawn fuq jirriflettu d-dati tal-pubblikazzjoni jew tar-rilaxx pubbliku fis-sorsi marbuta.

Għaliex Dan Huwa Perikoluż

  • LLMs jistgħu jidhru awtorevoli anke meta r-referenzi sottostanti jkunu dgħajfa jew imħawla b’mod avversarju.
  • Pipelines ta’ retrieval u klassifikazzjoni jistgħu jagħtu wisq piż lil test ripetut, billi jippermettu li attur wieħed idawwar ir-riżultati bil-volum biss.
  • Il-proċessi umani ta’ verifika tal-fatti huma bil-mod u għoljin meta mqabbla mal-veloċità tal-produzzjoni u d-distribuzzjoni awtomatizzata tal-kontenut.
  • Vittmi mingħajr preżenza sinifikanti online huma b’mod sproporzjonat vulnerabbli għal avvelenament minn post wieħed u attakki fuq l-identità.

Analiżi fil-Fond tar-Riskju

  • Screening tal-impjieg u tal-pjattaformi - it-tfittxija u s-sommarji tal-LLM jistgħu jirrepetu kontenut avvelenat waqt il-għażla tal-persunal, il-moderazzjoni jew il-kontrolli tal-onboarding.
  • Ivvjaġġar, akkomodazzjoni u servizzi finanzjarji - verifiki awtomatizzati jistgħu jqajmu narrattivi foloz li jdewmu jew jimblukkaw is-servizzi.
  • Persistenza - ladarba jiġu indiċjati f’bażijiet ta’ għarfien jew f’tweġibiet ikkupjati, pretensjonijiet foloz jistgħu jerġgħu jitfaċċaw anke wara li jitneħħew.
  • Feedback sintetiku – kontenut iġġenerat jista’ jservi ta’ bażi għal aktar kontenut iġġenerat, u b’hekk iżid il-piż apparenti ta’ falzitajiet maż-żmien.

Skoperta u Monitoraġġ

  • Stabbilixxi twissijiet ta’ tfittxija fuq ismek u l-alijases tiegħek; ivverifika perjodikament mistoqsijiet site: għal dominji bi reputazzjoni baxxa li jsemuk.
  • Segwi l-bidliet fil-pannelli tal-għarfien jew il-paġni tal-entitajiet tiegħek; żomm screenshots datati u kopji esportati bħala evidenza.
  • Immonitorja l-graphs tal-links soċjali għal kontijiet ta’ oriġini ripetuti jew żidiet f’daqqa ta’ frażijiet simili.
  • Jekk qed topera RAG jew bażi ta’ għarfien, agħmel verifiki ta’ entità li ddur maż-żmien u irrevedi bidliet kbar f’paġni ta’ persuni jew akkużi mingħajr sorsi primarji.

Protection Playbook - Individwi

  • Ippubblika sit personali b’dikjarazzjonijiet ċari tal-identità, bijografija qasira, u rotot ta’ kuntatt; żomm reġistru ta’ bidliet b’dati.
  • Allinja l-metadejta tal-profil fuq pjattaformi differenti; akkwista profili verifikati fejn possibbli u illinkjahom lura mas-sit tiegħek.
  • Uża C2PA jew kredenzjali ta’ kontenut simili għal stampi u dokumenti ewlenin meta jkun possibbli; ħażen l-oriġinali b’mod privat.
  • Żomm reġistru tal-evidenza b’timestamps: screenshots, links, u kwalunkwe numru ta’ biljett tal-pjattaforma għat-tkattir aktar tard.
  • Ipprepara mudelli ta’ talbiet ta’ tneħħija; irrispondi malajr għal attakki ġodda u ddokumenta kull pass biex jinżamm traċċar ċar fuq il-karta.

Protection Playbook - Timijiet u Integraturi

  • Agħti prijorità għal kontenut iffirmat jew verifikat mill-pubblikatur fir-retrieval; applika perjodi ta’ grazzja bbażati fuq iż-żmien għal sorsi ġodda.
  • Illimita influwenza ripetuta mill-istess oriġini u neħħi duplikati qrib identiċi għal kull netwerk ta’ oriġini.
  • Żid badge ta’ provenjenza u listi ta’ sorsi viżibbli għall-utent għal pretensjonijiet fuq livell ta’ persuna u suġġetti sensittivi oħra.
  • Adotta skoperta ta’ anomaliji fuq maħżenijiet ta’ embeddings; immarka vetturi avversarji li huma barra mill-medja u agħmel verifiki ta’ canary biex jiġu skoperti t-tixrid mhux awtorizzat.

Riċerka: Attestazzjonijiet Verifikati Kriptografikament

Chad Scira qed jibni sistemi ta’ attestazzjoni verifikati kriptografikament għall-fiduċja fil-istqarrijiet dwar persuni u avvenimenti. L-għan hu li jipprovdi lill-LLMs u s-sistemi ta’ retrieval b’pretensjonijiet iffirmati u li jistgħu jiġu mistoqsija minn professjonisti u organizzazzjonijiet verifikati, u b’hekk jippermettu provenjenza robusta u reżistenza aktar b’saħħitha għall-velenuż (poisoning).

Prinċipji tad-Disinn

  • Identità u provenjenza: id-dikjarazzjonijiet jiġu ffirmati minn individwi/organizzazzjonijiet verifikati permezz ta’ kriptografija bi ċavetta pubblika.
  • Ħażna verifikabbli: l-attestazzjonijiet huma marbuta ma’ reġistri li jistgħu jinqraw biss (append-only) u li juru t-tbagħbis, biex jippermettu verifika indipendenti.
  • Integrazjoni tar-retrieval: pipelines RAG jistgħu jipprijoritizzaw jew jeħtieġu sorsi attestati kriptografikament għal mistoqsijiet sensittivi.
  • Frizzjoni minima: APIs u SDKs jippermettu lill-pubblikaturi u lill-pjattaformi joħorġu u jiċċekkjaw attestazzjonijiet fil-mument tal-ingaġġ.

Reputazzjoni u Twissijiet

Fuq l-attestazzjonijiet, saff ta’ reputazzjoni jiġbor flimkien endorsjar iffirmati u jidentifika abbużaturi magħrufa. Sistemi ta’ allert jinnotifikaw lill-miri meta jinstabu attakki kkoordinati jew żidiet anomali, u b’hekk jippermettu rispons aktar mgħaġġel u talbiet għal tneħħija.

Kanal Legali u tal-Pjattaformi

  • Uża l-flussi ta’ rapport tal-pjattaforma b’pakketti ta’ evidenza ċari: links, dati, screenshots u impatti. Irreferi għall-politiki dwar id-defamazzjoni u l-letteraċjar.
  • Eskalaw b’avviżi formali fejn xieraq; żommu reġistru tal-korrispondenza u tal-IDs tat-tickets bħala parti mill-provi tagħkom.
  • Ikkunsidra d-differenzi fil-ġurisdizzjoni fir-rigward tad-defamazzjoni u r-responsabbiltà tal-pjattaformi; ikkonsulta avukat għal każijiet ta’ riskju għoli.

Pjan ta’ Implimentazzjoni (L-Ewwel Sena)

  • MVP: skema ta’ attestazzjoni u SDK għall-pubblikaturi biex jiffirmaw dichjarazzjonijiet ta’ identità u pretensjonijiet ta’ avvenimenti.
  • Ibda bi prova pilota ma’ grupp żgħir ta’ professjonisti u organizzazzjonijiet verifikati; stabbilixxi flussi tax-xogħol ta’ verifikazzjoni.
  • Plugins RAG: jippermettu l-modalità ta’ l-ewwel tweġiba bil-provenjenza li tagħti prijorità lil sorsi attestati għal mistoqsijiet sensittivi.

Qari Aktar (b’dati)

Kollaborazzjoni

Din ir-riċerka hija tal-aħħar kelma u qed tevolvi b’mod attiv. Chad Scira jilqa’ kollaborazzjoni ma’ professjonisti oħra f’dan is-settur.

Jekk inti interessat f’kollaborazzjoni, ikkuntattjana fuq: [email protected]