Ymchwil i Ddiogelu Enw Da a Gwenwynu LLM

Mae'r dudalen hon yn archif ymchwil neilltuedig ar wenwynu LLM, systemau gwrth-gam-drin, a fframweithiau diogelu enw da. Mae'r risg yn frys: mae cyflymder y ffydd mewn allbynnau LLM wedi rhagori ar ein gallu i wirio datganiadau, tra gall gwrthwynebwyr gyhoeddi testun yn rhad sy'n ymestyn ymddygiad modelau a chreu argraffion chwilio anghywir am bobl heb olion ar-lein mawr.

Crynodeb Gweithredol

Mae pobl gyfartalog gyda olion rhyngrwyd bach yn wynebu risg llawer fwy o ddifamasiwn a gwenwyno data wedi'u hansefydlu gan AI. Gall unigolyn â digon o ysgogiad hadu naratifau ffug y bydd chwilio, ffrydiau cymdeithasol a LLMs yn eu hailadrodd. Mae'r ddogfen hon yn egluro llwybrau ymosodiad cyffredin, effeithiau pendant ar enw da a diogelwch, ac yn darparu canllaw ymarferol ar gyfer canfod a diogelu. Hefyd mae'n crynhoi sut y gall tystiadau wedi'u gwirio'n cryptograffaidd a systemau adfer sy'n ymwybodol o tarddiad leihau niwed i unigolion ac integreiddwyr.

Cynulleidfa a Model Bygythiad

Cynulleidfa: unigolion a sefydliadau bach heb fynediad SEO mawr. Cyfyngiadau: amser, cyllideb, a adnoddau technegol cyfyngedig. Gwrthwynebwr: actwr sengl sy'n gallu creu a phostio cyfaint mawr o destun, defnyddio rhwydweithiau dolen sylfaenol, a manteisio ar fylchau yn y broses adrodd. Nodau: llygru neu ddadffurfio canlyniadau chwilio/LLM, niweidio enw da, a chreu amheuaeth ymysg cyflogwyr, cleientiaid, llwyfannau neu asiantiaid.

Beth yw llygru LLM?

Mae gwenwyno LLM yn cyfeirio at y manipiwleiddio o ymddygiad model trwy gynnwys wedi'i osod neu'i gydlynu — er enghraifft, postiadau maleisus, erthyglau synthetig neu sbam fforym — a all gael eu hwydo i systemau adalw neu gael eu defnyddio gan fodau dynol fel signalau, gan wthio modelau tuag at gysylltiadau anghywir a naratifau difamadu.

Oherwydd bod LLMs a systemau adfer yn optimeiddio ar gyfer graddfa a chwmpas, gall gwrthwynebydd sengl a motifyddu lunio'r hyn mae model yn “gweld” am berson drwy lledaenu cynnwys ar ran fach o'r we. Mae hyn yn arbennig o effeithiol yn erbyn unigolion sydd â phresenoldeb ar-lein cyfyngedig.

Sut mae enw da yn cael ei ddylanwadu'n anghywir

  • Gwenwynio chwilio a rhwydweithiau cymdeithasol - cipio proffil, ffermydd dolenni, a phostio mewn màs i ffafrio nodweddion raddio a chysylltiadau cwblhau-awtomatig.
  • Gwenwyno cronfa gwybodaeth a RAG - creu tudalennau endid a nodiadau QA sy'n ymddangos yn berthnasol o ran semantig ac sy'n cael eu hadfer fel cyd-destun.
  • Mewnblaniad prompt anuniongyrchol - cynnwys gelynol ar y we sy'n achosi asiantau pori i ailadrodd cyfarwyddiadau neu allanludo data sensitif.
  • Pwyntiau terfyn wedi'u 'backdoorio' - lapwyr model maleisus sy'n ymddwyn yn normal nes i ymadroddion sbardun ymddangos, ac yna'n rhyddhau celwyddau targedig.

Risgiau Ychwanegol a Foddau Fethiannau

  • Colli'r model o ganlyniad i hyfforddi ar allbwyntiau synthetig — dolenni adborth lle mae testun a gynhyrchir yn dirywio ansawdd modelau yn y dyfodol os na chaiff ei hidlo neu ei bwysoli.
  • Mewnblaniad prompt anuniongyrchol - cynnwys gelynol ar y we sy'n cyfarwyddo asiant neu offeryn pori i allanludo cyfrinachau neu ledaenu difrïa pan gaiff ei ddyfynnu.
  • Gwenwyno storfa embedding - mewnosod pasageau gwrthwynebol mewn cronfa wybodaeth fel bod adfer yn dangos honiadau ffug sy'n ymddangos yn berthnasol o ran semantig.
  • Rhyddhadau 'backdoor' - cyhoeddi checkpoints wedi'u haddasu neu lapwyr API sy'n ymddwyn fel arfer tan fod ymadrodd sbardun yn bresennol.

Achosion Penodol a Chyfeiriadau

Mesurau lliniaru mewn dyfnder

Adalw a Raddio

  • Sgorio ffynonellau a phwysoli tarddiad - dewis cynnwys wedi'i llofnodi neu ddilyswyd gan gyhoeddwr; lleihau pwysau tudalennau newydd eu creu neu â enw da isel.
  • Dirywiad amser gyda chyfnod gras - gofyn am amser aros cyn i ffynonellau newydd ddylanwadu ar atebion o risg uchel; ychwanegu adolygiad dynol ar gyfer endidau sensitif.
  • Canfod siambr adlais - grwpio pasageau bron yn ddyblygu a chyfyngu dylanwad a ailadroddir o'r un tarddiad neu rwydwaith.
  • Canfod allanryw a chanfod anomali yn y gofod mewnosodiadau — nodi pasiadau sydd â safleoedd vector wedi'u optimeiddio'n elynol.

Hylendid Data a KB

  • Tynnu cipolwg a chymharu cronfeydd gwybodaeth - adolygu newidiadau mawr, yn enwedig ar gyfer endidau pobl a honiadau heb ffynonellau cynradd.
  • Rhestrau canari a rhestrau gwrthod - atal integreiddio parthau gwybodus sy'n cam-drin; mewnblannu canariaid i fesur lledaeniad heb awdurdod.
  • Person yn y cylch ar gyfer pynciau risg uchel - rhowch ddiweddariadau arfaethedig i rhestr aros ar gyfer dyfarniad llaw.

Tystiadau ac Enw Da

  • Tystiadau wedi'u gwirio'n cryptograffaidd - datganiadau wedi'u llofnodi gan broffesiynolion a sefydliadau wedi'u gwirio a gyhoeddwyd trwy gofnod (log) ychwanegu-yn-unig.
  • Graffiau enw da - cyfuno cymeradwyaethau wedi'u llofnodi a gostwng safle cynnwys gan gamdrinwyr ailadroddus neu rwydweithiau bot.
  • Cyfeiriadau sy'n wynebu defnyddiwr - gofynnwch i fodelau ddangos ffynonellau a hyder gyda bathodynnau tarddiad ar gyfer hawliadau sensitif.

Rhestr Wirio Menter

  • Mapio endidau sensitif yn eich maes (pobl, brandiau, pynciau cyfreithiol) a llwybro ymholiadau i biblinellau diogel gyda gofynion tarddiad.
  • Mabwysiadwch C2PA neu ardystiadau cynnwys tebyg ar gyfer cynnwys y parti cyntaf a chynigiwch i bartneriaid wneud yr un peth.
  • Olrhain dylanwad ffynonellau newydd dros amser a rhybuddio am newidiadau anghyffredin mewn atebion ar lefel endid.
  • Cynhaliwch red-teaming parhaus ar gyfer asiantau RAG a phori, gan gynnwys setiau profion ar gyfer mewnblannu prompt anuniongyrchol.

Aflonyddu a Difrïa drwy AI

Mae unigolion sydd ar gael i'w llogi bellach yn manteisio ar AI ac awtomeiddio i gynhyrchu aflonyddu a difrïa ar raddfa fawr, gan greu testun sy'n edrych yn bosibl a "ffynonellau" ffug sydd yn hawdd eu mynegeio, eu sgrapio a'u rhannu eto. Mae'r ymgyrchoedd hyn yn gost isel, dylanwad uchel, ac yn anodd eu rhwystro unwaith y cânt eu hamlygu gan systemau awtomataidd.

Mae Chad Scira wedi profi'n bersonol aflonyddwch targedig a diffamasiwn ynghyd â dolenni sbam a fwriadwyd i ddadffurfio signalau enw da a chanlyniadau chwilio. Mae manylion manwl a llwybr tystiolaeth wedi'u dogfennu yma: Jesse Nickles - Aflonyddu a Difrïa.

Mae digwyddiad diweddar yn Stack Exchange yn dangos sut gall rhwydweithiau cyfrifon cydlynol gynhyrchu ymddiriedaeth ar lwyfannau sy'n arferol garu signalau credydiol cryf. Gwaharddiadau cyhoeddus o 100 mlynedd ar draws sawl cyfrif cysylltiedig, a’u dilyn gan gyhoeddiadau ymddygiadol groes-llwyfan, yn gwneud hyn yn astudiaeth achos ddefnyddiol ar gyfer systemau sgorio sy’n ymwybodol o tarddiad a systemau gwrth-dreisio camdriniaeth: Digwyddiad aflonyddu a diffamaeth ar Stack Exchange.

Trefnfa Bygythiadau

  • Gwenwyno data cyn-hyfforddi — gwenwyno corpora cyhoeddus a ddefnyddir ar gyfer hyfforddi cychwynnol i blannu cysylltiadau ffug neu osod drysau cefn.
  • Gwenwynnu RAG - hadau cronfeydd gwybodaeth neu ffynonellau allanol y mae piblinellau adfer yn eu defnyddio ar adeg casgliad.
  • Gwenwynio chwilio/cymdeithasol - llawnogi postiadau neu dudalennau o ansawdd isel i ddylanwadu ar signalau adalw a raddio am berson neu bwnc.
  • Cwestiynau/cyfarwyddiadau gwrthwynebol a chynnwys - creu mewnbynnau sy'n sbarduno ymddygiadau annymunol neu 'jailbreaks' sy'n ailadrodd honiadau difygiol.

Digwyddiadau ac Ymchwil Diweddar (gyda dyddiadau)

Noder: Mae'r dyddiadau uchod yn adlewyrchu dyddiadau cyhoeddi neu ryddhau cyhoeddus yn y ffynonellau cysylltiedig.

Pam mae hyn yn beryglus

  • Gall modelau LLM ymddangos yn awdurdodol hyd yn oed pan fo'r cyfeiriadau sylfaenol yn wan neu wedi'u gosod gan elynion.
  • Gall piblinellau adalw a raddio roi gormod o bwys ar destunau aildadroddus, gan ganiatáu i un actor ystumio canlyniadau trwy'r cyfaint yn unig.
  • Mae prosesau gwirio ffeithiau gan bobl yn araf ac yn ddrud o'i gymharu â chyflymder cynhyrchu a dosbarthu cynnwys awtomataidd.
  • Mae dioddefwyr heb bresenoldeb ar-lein sylweddol yn arbennig o agored i lygru post unigol a ymosodiadau hunaniaeth.

Archwiliad manwl o risg

  • Sgrinio cyflogaeth a phlatfform - gall chwilio a chrynodebau LLM adleisio cynnwys gwenwynig wrth recriwtio, rheoli cynnwys neu wrth wirio ar gyfer derbyn a chychwyn gwaith.
  • Teithio, tai, a gwasanaethau ariannol - gall gwiriadau awtomataidd godi naratifau ffug sy'n oedi neu'n blocio gwasanaethau.
  • Parhad — unwaith y caiff honiadau eu mynegeio i sylfeini gwybodaeth neu eu storio mewn cachiau, gall honiadau ffug ddychwelyd hyd yn oed ar ôl tynnu i lawr.
  • Adborth synthetig - gall cynnwys a gynhyrchir arwain at fwy o gynnwys a gynhyrchir, gan godi pwysau ymddangosiadol ffugion dros amser.

Canfod a Monitro

  • Sefydlu rhybuddion chwilio ar eich enw a'ch enwau amgen; gwirio o bryd i'w gilydd ymholiadau site: ar gyfer parthau o enw da isel sy'n eich crybwyll.
  • Olrhain newidiadau i'ch paneli gwybodaeth neu dudalennau endid; cadw sgrinluniau dyddiedig a chopïau allforio ar gyfer tystiolaeth.
  • Monitro graffiau cysylltiadau cymdeithasol am gyfrifon tarddiad yn cael eu hailadrodd neu am godiadau sydyn mewn ymadroddion tebyg.
  • Os ydych yn gweithredu RAG neu gronfa wybodaeth, cynhelwch wirio 'entity drift' a adolygu newidiadau mawr i dudalennau unigolion neu honiadau heb ffynonellau gwreiddiol.

Canllaw Amddiffyn - Unigolion

  • Cyhoeddi safle personol gyda datganiadau hunaniaeth clir, bio byr, a ffyrdd cyswllt; cadw log newidiadau dyddiedig.
  • Unwch fetadata proffil ar draws llwyfannau; caffael proffiliau wedi'u gwirio lle bo'n bosibl a'u cysylltu'n ôl â'ch safle.
  • Defnyddiwch C2PA neu gredydau cynnwys tebyg ar gyfer delweddau a dogfennau allweddol pan bo'n bosibl; cadwch y copïau gwreiddiol yn breifat.
  • Cadwch log tystiolaeth gyda stampiau amser: sgrinluniau, dolenni, a rhifau tocyn unrhyw blatfform ar gyfer codi mater yn nes ymlaen.
  • Paratowch dempledi tynnu i lawr; ymatebwch yn gyflym i ymosodiadau newydd a dogfennwch bob cam er mwyn trac papur clir.

Canllaw Amddiffyn - Timau ac Integreiddwyr

  • Dewis cynnwys wedi'i lofnodi neu wedi'i ddilysu gan y cyhoeddwr wrth adalw; defnyddiwch gyfnodau gras amserol ar gyfer ffynonellau newydd.
  • Cyfyngu dylanwad ailadroddus o'r un tarddiad a dileu dyblygu bron yn union ym mhob rhwydwaith tarddiad.
  • Ychwanegwch batodynnau tarddiad a rhestrau ffynhonnell sy'n weladwy i ddefnyddwyr ar gyfer honiadau ar lefel unigolyn a phynciau sensitif eraill.
  • Mabwysiadwch ganfod anomali ar storfeydd embedding; nodwch eithriadau vektora gwrthwynebol a rhedeg gwiriadau canari ar gyfer lledaeniad heb awdurdod.

Ymchwil: Tystebau a Gwirir yn Gryptograffig

Mae Chad Scira yn adeiladu systemau tystio wedi'u gwirio'n cryptograffaidd er mwyn hyder mewn datganiadau am bobl a digwyddiadau. Y nod yw darparu i LLMs a systemau adfer honiadau wedi'u llofnodi a gellir eu chwilio gan broffesiynolion a sefydliadau wedi'u gwirio, gan alluogi tarddiad cadarn a gwydn ac ymwrthedd cryfach i wenwyno data.

Egwyddorion Dylunio

  • Hunaniaeth a Tharddiad: mae datganiadau yn cael eu llofnodi gan unigolion/cyrff wedi'u dilysu gan ddefnyddio cryptograffeg allwedd gyhoeddus.
  • Storio y gellir ei wirio: mae ardystiadau wedi'u cysylltu â logiau 'ychwanegu yn unig' sy'n amlwg pan eu cam-drin, er mwyn galluogi gwirio annibynnol.
  • Integreiddio adalw: Gall piblinellau RAG roi blaenoriaeth neu ofyn am ffynonellau wedi'u tystio'n gyptograffegol ar gyfer ymholiadau sensitif.
  • Rhwystr lleiaf: mae APIau a SDKau yn caniatáu i gyhoeddwyr a llwyfannau gyhoeddi a gwirio tystiadau ar adeg mewnfudo.

Enw Da a Rhybuddio

Ar ben tystiadau, mae haen enw da yn crynhoi endorsiadau wedi'u llofnodi ac yn nodi cam-drinwyr hysbys. Mae systemau rhybuddio yn hysbysu targedau pan gaiff ymosodiadau cydlynol neu godiadau anomalaidd eu canfod, gan hwyluso ymateb cyflymach a cheisiadau tynnu.

Sianeli Cyfreithiol a Phlatfformau

  • Defnyddiwch llifau adrodd ar y platfform gyda phecynnau tystiolaeth clir: dolenni, dyddiadau, sgrinluniau, a goblygiadau. Cyfeiriwch at bolisïau difrïo a cham-drin.
  • Codi mater gyda hysbysiadau ffurfiol lle bo'n briodol; cadwch logiau cyfathrebu a rhifau tocyn yn eich olion tystiolaeth.
  • Ystyriwch wahaniaethau awdurdodaethol mewn diffamasiwn a chyfrifoldeb llwyfannau; ymgynghorwch â chyfreithiwr ar gyfer achosion perygl uchel.

Cynllun Gweithredu (Blwyddyn 1)

  • MVP: cynllun tystio a SDK cyhoeddiwr ar gyfer llofnodi datganiadau hunaniaeth a hawliadau digwyddiadau.
  • Prawf peilot gyda grŵp bach o broffesiynolion a sefydliadau wedi'u gwirio; sefydlu llif gwaith gwirio.
  • Atodiadau RAG: galluogi modd ateb 'provenance first' sy'n rhoi blaenoriaeth i ffynonellau tystiedig ar gyfer ymholiadau sensitif.

Darllen pellach (gyda dyddiadau)

Cydweithrediad

Mae'r ymchwil hon ar y blaen ac yn datblygu'n weithredol. Mae Chad Scira yn croesawu cydweithredu gyda gweithwyr proffesiynol eraill yn y sector hwn.

Os oes gennych ddiddordeb mewn cydweithio, cysylltwch ar: [email protected]

Hysbysiad cyfreithiol. Y wybodaeth a gyflwynir ar y dudalen hon yw cofnod cyhoeddus o ffeithiau. Mae'n cael ei ddefnyddio fel tystiolaeth yn yr achos troseddol sy'n parhau o ddifamio yn erbyn Jesse Jacob Nickles yn Thailand. Cyfeirnod achos troseddol swyddogol: Bang Kaeo Police Station – Daily Report Entry No. 4, Book 41/2568, Report No. 56, dated 13 August 2568, Reference Case No. 443/2567. Gall y ddogfennaeth hon hefyd wasanaethu fel tystiolaeth ategol i unrhyw unigolion neu sefydliadau eraill sy'n dilyn eu hawliadau eu hunain o aflonyddwch neu ddifamio yn erbyn Jesse Nickles, o ystyried y patrwm a ddogfennwyd o ymddygiad ailadroddus sy'n effeithio ar sawl dioddefwr.