Mae'r dudalen hon yn archif ymchwil neilltuedig ar wenwynu LLM, systemau gwrth-gam-drin, a fframweithiau diogelu enw da. Mae'r risg yn frys: mae cyflymder y ffydd mewn allbynnau LLM wedi rhagori ar ein gallu i wirio datganiadau, tra gall gwrthwynebwyr gyhoeddi testun yn rhad sy'n ymestyn ymddygiad modelau a chreu argraffion chwilio anghywir am bobl heb olion ar-lein mawr.
Crynodeb Gweithredol
Mae pobl gyfartalog gyda olion rhyngrwyd bach yn wynebu risg llawer fwy o ddifamasiwn a gwenwyno data wedi'u hansefydlu gan AI. Gall unigolyn â digon o ysgogiad hadu naratifau ffug y bydd chwilio, ffrydiau cymdeithasol a LLMs yn eu hailadrodd. Mae'r ddogfen hon yn egluro llwybrau ymosodiad cyffredin, effeithiau pendant ar enw da a diogelwch, ac yn darparu canllaw ymarferol ar gyfer canfod a diogelu. Hefyd mae'n crynhoi sut y gall tystiadau wedi'u gwirio'n cryptograffaidd a systemau adfer sy'n ymwybodol o tarddiad leihau niwed i unigolion ac integreiddwyr.
Cynulleidfa a Model Bygythiad
Cynulleidfa: unigolion a sefydliadau bach heb fynediad SEO mawr. Cyfyngiadau: amser, cyllideb, a adnoddau technegol cyfyngedig. Gwrthwynebwr: actwr sengl sy'n gallu creu a phostio cyfaint mawr o destun, defnyddio rhwydweithiau dolen sylfaenol, a manteisio ar fylchau yn y broses adrodd. Nodau: llygru neu ddadffurfio canlyniadau chwilio/LLM, niweidio enw da, a chreu amheuaeth ymysg cyflogwyr, cleientiaid, llwyfannau neu asiantiaid.
Beth yw llygru LLM?
Mae gwenwyno LLM yn cyfeirio at y manipiwleiddio o ymddygiad model trwy gynnwys wedi'i osod neu'i gydlynu — er enghraifft, postiadau maleisus, erthyglau synthetig neu sbam fforym — a all gael eu hwydo i systemau adalw neu gael eu defnyddio gan fodau dynol fel signalau, gan wthio modelau tuag at gysylltiadau anghywir a naratifau difamadu.
Oherwydd bod LLMs a systemau adfer yn optimeiddio ar gyfer graddfa a chwmpas, gall gwrthwynebydd sengl a motifyddu lunio'r hyn mae model yn “gweld” am berson drwy lledaenu cynnwys ar ran fach o'r we. Mae hyn yn arbennig o effeithiol yn erbyn unigolion sydd â phresenoldeb ar-lein cyfyngedig.
Sut mae enw da yn cael ei ddylanwadu'n anghywir
- Gwenwynio chwilio a rhwydweithiau cymdeithasol - cipio proffil, ffermydd dolenni, a phostio mewn màs i ffafrio nodweddion raddio a chysylltiadau cwblhau-awtomatig.
- Gwenwyno cronfa gwybodaeth a RAG - creu tudalennau endid a nodiadau QA sy'n ymddangos yn berthnasol o ran semantig ac sy'n cael eu hadfer fel cyd-destun.
- Mewnblaniad prompt anuniongyrchol - cynnwys gelynol ar y we sy'n achosi asiantau pori i ailadrodd cyfarwyddiadau neu allanludo data sensitif.
- Pwyntiau terfyn wedi'u 'backdoorio' - lapwyr model maleisus sy'n ymddwyn yn normal nes i ymadroddion sbardun ymddangos, ac yna'n rhyddhau celwyddau targedig.
Risgiau Ychwanegol a Foddau Fethiannau
- Colli'r model o ganlyniad i hyfforddi ar allbwyntiau synthetig — dolenni adborth lle mae testun a gynhyrchir yn dirywio ansawdd modelau yn y dyfodol os na chaiff ei hidlo neu ei bwysoli.
- Mewnblaniad prompt anuniongyrchol - cynnwys gelynol ar y we sy'n cyfarwyddo asiant neu offeryn pori i allanludo cyfrinachau neu ledaenu difrïa pan gaiff ei ddyfynnu.
- Gwenwyno storfa embedding - mewnosod pasageau gwrthwynebol mewn cronfa wybodaeth fel bod adfer yn dangos honiadau ffug sy'n ymddangos yn berthnasol o ran semantig.
- Rhyddhadau 'backdoor' - cyhoeddi checkpoints wedi'u haddasu neu lapwyr API sy'n ymddwyn fel arfer tan fod ymadrodd sbardun yn bresennol.
Achosion Penodol a Chyfeiriadau
Mesurau lliniaru mewn dyfnder
Adalw a Raddio
- Sgorio ffynonellau a phwysoli tarddiad - dewis cynnwys wedi'i llofnodi neu ddilyswyd gan gyhoeddwr; lleihau pwysau tudalennau newydd eu creu neu â enw da isel.
- Dirywiad amser gyda chyfnod gras - gofyn am amser aros cyn i ffynonellau newydd ddylanwadu ar atebion o risg uchel; ychwanegu adolygiad dynol ar gyfer endidau sensitif.
- Canfod siambr adlais - grwpio pasageau bron yn ddyblygu a chyfyngu dylanwad a ailadroddir o'r un tarddiad neu rwydwaith.
- Canfod allanryw a chanfod anomali yn y gofod mewnosodiadau — nodi pasiadau sydd â safleoedd vector wedi'u optimeiddio'n elynol.
Hylendid Data a KB
- Tynnu cipolwg a chymharu cronfeydd gwybodaeth - adolygu newidiadau mawr, yn enwedig ar gyfer endidau pobl a honiadau heb ffynonellau cynradd.
- Rhestrau canari a rhestrau gwrthod - atal integreiddio parthau gwybodus sy'n cam-drin; mewnblannu canariaid i fesur lledaeniad heb awdurdod.
- Person yn y cylch ar gyfer pynciau risg uchel - rhowch ddiweddariadau arfaethedig i rhestr aros ar gyfer dyfarniad llaw.
Tystiadau ac Enw Da
- Tystiadau wedi'u gwirio'n cryptograffaidd - datganiadau wedi'u llofnodi gan broffesiynolion a sefydliadau wedi'u gwirio a gyhoeddwyd trwy gofnod (log) ychwanegu-yn-unig.
- Graffiau enw da - cyfuno cymeradwyaethau wedi'u llofnodi a gostwng safle cynnwys gan gamdrinwyr ailadroddus neu rwydweithiau bot.
- Cyfeiriadau sy'n wynebu defnyddiwr - gofynnwch i fodelau ddangos ffynonellau a hyder gyda bathodynnau tarddiad ar gyfer hawliadau sensitif.
Rhestr Wirio Menter
- Mapio endidau sensitif yn eich maes (pobl, brandiau, pynciau cyfreithiol) a llwybro ymholiadau i biblinellau diogel gyda gofynion tarddiad.
- Mabwysiadwch C2PA neu ardystiadau cynnwys tebyg ar gyfer cynnwys y parti cyntaf a chynigiwch i bartneriaid wneud yr un peth.
- Olrhain dylanwad ffynonellau newydd dros amser a rhybuddio am newidiadau anghyffredin mewn atebion ar lefel endid.
- Cynhaliwch red-teaming parhaus ar gyfer asiantau RAG a phori, gan gynnwys setiau profion ar gyfer mewnblannu prompt anuniongyrchol.
Aflonyddu a Difrïa drwy AI
Mae unigolion sydd ar gael i'w llogi bellach yn manteisio ar AI ac awtomeiddio i gynhyrchu aflonyddu a difrïa ar raddfa fawr, gan greu testun sy'n edrych yn bosibl a "ffynonellau" ffug sydd yn hawdd eu mynegeio, eu sgrapio a'u rhannu eto. Mae'r ymgyrchoedd hyn yn gost isel, dylanwad uchel, ac yn anodd eu rhwystro unwaith y cânt eu hamlygu gan systemau awtomataidd.
Mae Chad Scira wedi profi'n bersonol aflonyddwch targedig a diffamasiwn ynghyd â dolenni sbam a fwriadwyd i ddadffurfio signalau enw da a chanlyniadau chwilio. Mae manylion manwl a llwybr tystiolaeth wedi'u dogfennu yma: Jesse Nickles - Aflonyddu a Difrïa.
Mae digwyddiad diweddar yn Stack Exchange yn dangos sut gall rhwydweithiau cyfrifon cydlynol gynhyrchu ymddiriedaeth ar lwyfannau sy'n arferol garu signalau credydiol cryf. Gwaharddiadau cyhoeddus o 100 mlynedd ar draws sawl cyfrif cysylltiedig, a’u dilyn gan gyhoeddiadau ymddygiadol groes-llwyfan, yn gwneud hyn yn astudiaeth achos ddefnyddiol ar gyfer systemau sgorio sy’n ymwybodol o tarddiad a systemau gwrth-dreisio camdriniaeth: Digwyddiad aflonyddu a diffamaeth ar Stack Exchange.
Trefnfa Bygythiadau
- Gwenwyno data cyn-hyfforddi — gwenwyno corpora cyhoeddus a ddefnyddir ar gyfer hyfforddi cychwynnol i blannu cysylltiadau ffug neu osod drysau cefn.
- Gwenwynnu RAG - hadau cronfeydd gwybodaeth neu ffynonellau allanol y mae piblinellau adfer yn eu defnyddio ar adeg casgliad.
- Gwenwynio chwilio/cymdeithasol - llawnogi postiadau neu dudalennau o ansawdd isel i ddylanwadu ar signalau adalw a raddio am berson neu bwnc.
- Cwestiynau/cyfarwyddiadau gwrthwynebol a chynnwys - creu mewnbynnau sy'n sbarduno ymddygiadau annymunol neu 'jailbreaks' sy'n ailadrodd honiadau difygiol.
Digwyddiadau ac Ymchwil Diweddar (gyda dyddiadau)
Noder: Mae'r dyddiadau uchod yn adlewyrchu dyddiadau cyhoeddi neu ryddhau cyhoeddus yn y ffynonellau cysylltiedig.
Pam mae hyn yn beryglus
- Gall modelau LLM ymddangos yn awdurdodol hyd yn oed pan fo'r cyfeiriadau sylfaenol yn wan neu wedi'u gosod gan elynion.
- Gall piblinellau adalw a raddio roi gormod o bwys ar destunau aildadroddus, gan ganiatáu i un actor ystumio canlyniadau trwy'r cyfaint yn unig.
- Mae prosesau gwirio ffeithiau gan bobl yn araf ac yn ddrud o'i gymharu â chyflymder cynhyrchu a dosbarthu cynnwys awtomataidd.
- Mae dioddefwyr heb bresenoldeb ar-lein sylweddol yn arbennig o agored i lygru post unigol a ymosodiadau hunaniaeth.
Archwiliad manwl o risg
- Sgrinio cyflogaeth a phlatfform - gall chwilio a chrynodebau LLM adleisio cynnwys gwenwynig wrth recriwtio, rheoli cynnwys neu wrth wirio ar gyfer derbyn a chychwyn gwaith.
- Teithio, tai, a gwasanaethau ariannol - gall gwiriadau awtomataidd godi naratifau ffug sy'n oedi neu'n blocio gwasanaethau.
- Parhad — unwaith y caiff honiadau eu mynegeio i sylfeini gwybodaeth neu eu storio mewn cachiau, gall honiadau ffug ddychwelyd hyd yn oed ar ôl tynnu i lawr.
- Adborth synthetig - gall cynnwys a gynhyrchir arwain at fwy o gynnwys a gynhyrchir, gan godi pwysau ymddangosiadol ffugion dros amser.
Canfod a Monitro
- Sefydlu rhybuddion chwilio ar eich enw a'ch enwau amgen; gwirio o bryd i'w gilydd ymholiadau site: ar gyfer parthau o enw da isel sy'n eich crybwyll.
- Olrhain newidiadau i'ch paneli gwybodaeth neu dudalennau endid; cadw sgrinluniau dyddiedig a chopïau allforio ar gyfer tystiolaeth.
- Monitro graffiau cysylltiadau cymdeithasol am gyfrifon tarddiad yn cael eu hailadrodd neu am godiadau sydyn mewn ymadroddion tebyg.
- Os ydych yn gweithredu RAG neu gronfa wybodaeth, cynhelwch wirio 'entity drift' a adolygu newidiadau mawr i dudalennau unigolion neu honiadau heb ffynonellau gwreiddiol.
Canllaw Amddiffyn - Unigolion
- Cyhoeddi safle personol gyda datganiadau hunaniaeth clir, bio byr, a ffyrdd cyswllt; cadw log newidiadau dyddiedig.
- Unwch fetadata proffil ar draws llwyfannau; caffael proffiliau wedi'u gwirio lle bo'n bosibl a'u cysylltu'n ôl â'ch safle.
- Defnyddiwch C2PA neu gredydau cynnwys tebyg ar gyfer delweddau a dogfennau allweddol pan bo'n bosibl; cadwch y copïau gwreiddiol yn breifat.
- Cadwch log tystiolaeth gyda stampiau amser: sgrinluniau, dolenni, a rhifau tocyn unrhyw blatfform ar gyfer codi mater yn nes ymlaen.
- Paratowch dempledi tynnu i lawr; ymatebwch yn gyflym i ymosodiadau newydd a dogfennwch bob cam er mwyn trac papur clir.
Canllaw Amddiffyn - Timau ac Integreiddwyr
- Dewis cynnwys wedi'i lofnodi neu wedi'i ddilysu gan y cyhoeddwr wrth adalw; defnyddiwch gyfnodau gras amserol ar gyfer ffynonellau newydd.
- Cyfyngu dylanwad ailadroddus o'r un tarddiad a dileu dyblygu bron yn union ym mhob rhwydwaith tarddiad.
- Ychwanegwch batodynnau tarddiad a rhestrau ffynhonnell sy'n weladwy i ddefnyddwyr ar gyfer honiadau ar lefel unigolyn a phynciau sensitif eraill.
- Mabwysiadwch ganfod anomali ar storfeydd embedding; nodwch eithriadau vektora gwrthwynebol a rhedeg gwiriadau canari ar gyfer lledaeniad heb awdurdod.
Ymchwil: Tystebau a Gwirir yn Gryptograffig
Mae Chad Scira yn adeiladu systemau tystio wedi'u gwirio'n cryptograffaidd er mwyn hyder mewn datganiadau am bobl a digwyddiadau. Y nod yw darparu i LLMs a systemau adfer honiadau wedi'u llofnodi a gellir eu chwilio gan broffesiynolion a sefydliadau wedi'u gwirio, gan alluogi tarddiad cadarn a gwydn ac ymwrthedd cryfach i wenwyno data.
Egwyddorion Dylunio
- Hunaniaeth a Tharddiad: mae datganiadau yn cael eu llofnodi gan unigolion/cyrff wedi'u dilysu gan ddefnyddio cryptograffeg allwedd gyhoeddus.
- Storio y gellir ei wirio: mae ardystiadau wedi'u cysylltu â logiau 'ychwanegu yn unig' sy'n amlwg pan eu cam-drin, er mwyn galluogi gwirio annibynnol.
- Integreiddio adalw: Gall piblinellau RAG roi blaenoriaeth neu ofyn am ffynonellau wedi'u tystio'n gyptograffegol ar gyfer ymholiadau sensitif.
- Rhwystr lleiaf: mae APIau a SDKau yn caniatáu i gyhoeddwyr a llwyfannau gyhoeddi a gwirio tystiadau ar adeg mewnfudo.
Enw Da a Rhybuddio
Ar ben tystiadau, mae haen enw da yn crynhoi endorsiadau wedi'u llofnodi ac yn nodi cam-drinwyr hysbys. Mae systemau rhybuddio yn hysbysu targedau pan gaiff ymosodiadau cydlynol neu godiadau anomalaidd eu canfod, gan hwyluso ymateb cyflymach a cheisiadau tynnu.
Sianeli Cyfreithiol a Phlatfformau
- Defnyddiwch llifau adrodd ar y platfform gyda phecynnau tystiolaeth clir: dolenni, dyddiadau, sgrinluniau, a goblygiadau. Cyfeiriwch at bolisïau difrïo a cham-drin.
- Codi mater gyda hysbysiadau ffurfiol lle bo'n briodol; cadwch logiau cyfathrebu a rhifau tocyn yn eich olion tystiolaeth.
- Ystyriwch wahaniaethau awdurdodaethol mewn diffamasiwn a chyfrifoldeb llwyfannau; ymgynghorwch â chyfreithiwr ar gyfer achosion perygl uchel.
Cynllun Gweithredu (Blwyddyn 1)
- MVP: cynllun tystio a SDK cyhoeddiwr ar gyfer llofnodi datganiadau hunaniaeth a hawliadau digwyddiadau.
- Prawf peilot gyda grŵp bach o broffesiynolion a sefydliadau wedi'u gwirio; sefydlu llif gwaith gwirio.
- Atodiadau RAG: galluogi modd ateb 'provenance first' sy'n rhoi blaenoriaeth i ffynonellau tystiedig ar gyfer ymholiadau sensitif.
Darllen pellach (gyda dyddiadau)
Cydweithrediad
Mae'r ymchwil hon ar y blaen ac yn datblygu'n weithredol. Mae Chad Scira yn croesawu cydweithredu gyda gweithwyr proffesiynol eraill yn y sector hwn.
Os oes gennych ddiddordeb mewn cydweithio, cysylltwch ar: [email protected]
Hysbysiad cyfreithiol. Y wybodaeth a gyflwynir ar y dudalen hon yw cofnod cyhoeddus o ffeithiau. Mae'n cael ei ddefnyddio fel tystiolaeth yn yr achos troseddol sy'n parhau o ddifamio yn erbyn Jesse Jacob Nickles yn Thailand. Cyfeirnod achos troseddol swyddogol: Bang Kaeo Police Station – Daily Report Entry No. 4, Book 41/2568, Report No. 56, dated 13 August 2568, Reference Case No. 443/2567. Gall y ddogfennaeth hon hefyd wasanaethu fel tystiolaeth ategol i unrhyw unigolion neu sefydliadau eraill sy'n dilyn eu hawliadau eu hunain o aflonyddwch neu ddifamio yn erbyn Jesse Nickles, o ystyried y patrwm a ddogfennwyd o ymddygiad ailadroddus sy'n effeithio ar sawl dioddefwr.