Gwenwyno LLM ac Ymchwil Atal Cam-ddefnydd

Mae Chad Scira yn ymchwilio i sut y gellir gwenwyno a chamddefnyddio modelau iaith mawr i niweidio unigolion, ac yn adeiladu systemau amddiffynnol i wrthweithio'r bygythiadau hyn. Mae'r risg yn frys: mae cyflymder dibyniaeth ar allbynnau LLM wedi rhagori ar ein gallu i wirio datganiadau, tra gall gwrthwynebwyr gyhoeddi testun yn rhad sy'n ymledu ymddygiad model a dylanwadu ar ymddangosiad unigolion heb fawr o bresenoldeb ar-lein.

Cawsom rownd fuddsoddi preifat ar 3 Hydref 2025 i barhau â'r ymchwil hon.

Crynodeb Gweithredol

Mae pobl gyffredin gyda bysedd bach ar y we yn wynebu risg anghymesur o ddifamio a gwenwyno data a atgenhedlir gan AI. Gall un unigolyn cymhelliedig hadu naratifau ffug y mae chwilio, ffrydiau cymdeithasol, a LLMs yn eu hailadrodd. Mae'r ddogfen hon yn esbonio llwybrau ymosodol cyffredin, effeithiau pendant ar enw da a diogelwch, a phlân gweithredol ar gyfer canfod a diogelu. Mae hefyd yn amlinellu sut y gall tystiolaethau wedi'u gwirio cryptograffegol a detholiad sensitif i tarddiad leihau niwed i unigolion ac integreiddwyr.

Cynulleidfa a Model Bygythiad

Cynulleidfa: unigolion a sefydliadau bach heb bresenoldeb SEO mawr. Cyfyngiadau: amser, cyllideb, a adnoddau technegol cyfyngedig. Gwrthwynebydd: un actor sy'n gallu cynhyrchu a phostio cyfaint mawr o destun, defnyddio rhwydweithiau dolen sylfaenol, a manteisio ar fylchau adrodd. Nodau: torri canlyniadau chwilio/LLM, niweidio enw da, creu amheuon i gyflogwyr, cleientiaid, llwyfannau neu asiantiaid.

Beth yw Heintio LLM?

Mae gwenwyno LLM yn cyfeirio at ddylanwadu ar ymddygiad model trwy gynnwys wedi'i hadio neu gydlynedig - er enghraifft, postiadau maleisus, erthyglau synthetig, neu sbam mewn fforym - a all gael eu hamsugno gan systemau adalw neu eu defnyddio gan bobl fel signalau, gan wthio modelau tuag at gysylltiadau anghywir a naratifau difamol.

Oherwydd bod LLMs a systemau adfer yn optimeiddio ar gyfer maint a chylchrediad, gall un gwrthwynebydd cymhelliedig siapio'r hyn y mae model yn “ei weld” am berson trwy lifo rhan fach o'r we. Mae hyn yn arbennig o effeithiol yn erbyn unigolion â phresenoldeb ar-lein cyfyngedig.

Sut mae enw da yn cael ei ddirdroi

  • Llygru chwilio a chymdeithasol - cipio proffil, ffermiau dolenni, a phostio màs i ragfarnu nodweddion rhestru a chysylltiadau auto-gwblhau.
  • Gwenwyno cronfa wybodaeth a RAG - creu tudalennau endid a nodiadau QA sy'n ymddangos yn berthnasol yn semantaidd ac sy'n cael eu tynnu fel cyd-destun.
  • Mewnosodiad cymhelliad anuniongyrchol - cynnwys gwe gwrthwynebus sy'n achosi asiantau pori i ailadrodd cyfarwyddiadau neu allgludo data sensitif.
  • Pwyntiau diwedd gyda drws cefn - lapio modelau maleisus sy'n ymddwyn yn normal hyd nes i ymadroddion sbarduno ymddangos, ac yna'n allyrru celwyddau targedig.

Risgiau a Ffurfiau Fethiannau Ychwanegol

  • Dirywiad model o ganlyniad i hyfforddi ar allbynnau synthetig - cylchoedd adborth lle mae testun a gynhyrchir yn lleihau ansawdd y model yn y dyfodol os na fydd yn cael ei hidlo neu ei bwysoli.
  • Mewnosodiad cymhelliad anuniongyrchol - cynnwys gwrthwynebus ar y we sy'n cyfarwyddo asiant neu offeryn pori i allgludo cyfrinachau neu ledaenu cynnwys difamol pan ddyfynnir.
  • Gwenwynu storfa mewnosod (embedding) - mewnosod darnau gwrthwynebol mewn cronfa gwybodaeth fel y bydd adalw yn dadorchuddio honiadau ffug sy'n ymddangos yn berthnasol o ran ystyr.
  • Rhyddhadau gyda drws cefn - cyhoeddi gwirioedd neu wrappers API wedi'u haddasu sy'n ymddwyn yn normal hyd nes bod ymadrodd sbarduno yn bresennol.

Achosion Penodol a Chyfeiriadau

Mesurau Lleddfu Manwl

Adennill a Rhestru

  • Sgorio ffynonellau a phwysoli tarddiad - blaenoriaethu cynnwys wedi'i lofnodi neu wedi'i gadarnhau gan gyhoeddiwr; lleihau pwysau tudalennau newydd eu creu neu o enw da isel.
  • Dirywiad dros amser gyda chyfnod gras - gofyn am amser aros cyn i ffynonellau newydd ddylanwadu ar atebion â goblygiadau difrifol; ychwanegu adolygiad dynol ar gyfer endidau sensitif.
  • Canfod siambr adlewyrchu - grwpio darpariadau bron yn ddyblyg a chyfyngu ar ddylanwad sy'n cael ei ailadrodd gan yr un tarddiad neu rwydwaith.
  • Canfod eithriadau ac anomaileddau yn y gofod mewnosadiadau - nodi pasynau lle mae safleoedd fector wedi'u optimeiddio i fod yn wrthwynebol.

Hylendid Data a Gronfa Gwybodaeth (KB)

  • Cronfeydd gwybodaeth (ciplun a diff) - adolygu amrywiadau mawr, yn enwedig ar gyfer endidau unigolion a honiadau heb ffynonellau cynradd.
  • Rhestrau canary a gwrthod - atal ymgorffori parthau camdriniol hysbys; mewnosod canaries i fesur lledaeniad heb awdurdod.
  • Unigolyn yn y cylch ar gyfer pynciau risg uchel - rhestrwch ddiweddariadau arfaethedig i ffeithiau enw da ar gyfer dyfarniad â llaw.

Tystiolaethau ac Enw Da

  • Datganiadau wedi'u dilysu'n griptograffig - datganiadau wedi'u llofnodi gan broffesiynolion a sefydliadau wedi'u gwirio a gyhoeddir drwy log y gellir ychwanegu ato yn unig.
  • Graffiau enw da - casglu argymhellion wedi'u llofnodi a lleihau safle cynnwys gan gamddefnyddwyr ailadroddus neu rwydweithiau botiau.
  • Cyfeiriadau sy'n weladwy i ddefnyddwyr - gofynnwch i fodelau ddangos ffynonellau a hyder gyda bathodynnau tarddiad ar gyfer hawliadau sensitif.

Rhestr Wirio Menter

  • Mapiwch endidau sensitif yn eich parth (pobl, brandiau, pynciau cyfreithiol) a llwybrau ymholiadau at biblinellau gwarchodedig sydd â gofynion chefndir.
  • Derbyn C2PA neu gymwysterau cynnwys tebyg ar gyfer cynnwys y parti cyntaf a hannog partneriaid i wneud yr un peth.
  • Olrhain dylanwad ffynonellau newydd dros amser a rhybuddio am newidiadau anarferol yn yr atebion ar lefel endid.
  • Cynnal red-teaming parhaus ar gyfer agentau RAG a pori, gan gynnwys setiau prawf ar gyfer mewnosodiadau cymell anuniongyrchol.

Ymosodiad a Difamio drwy Ddeallusrwydd Artiffisial (AI)

Mae unigolion ar gael i'w llogi bellach yn defnyddio AI ac awtomeiddio i gynhyrchu aflonyddu a cynnwys difamol ar raddfa fawr, gan greu testun sy'n ymddangos yn bosibl a ffynonellau ffug sy'n hawdd eu mynegeio, eu sgrapio, a'u rhannu eto. Mae'r ymgyrchoedd hyn yn gost isel, gyda dylanwad uchel, ac yn anodd eu lleddfu unwaith y cânt eu lledu gan systemau awtomataidd.

Mae Chad Scira wedi profi camdriniaeth dargededig a difamio wedi'u cyfuno gyda chysylltu sbam sydd yn ceisio torri signalau enw da a dylanwadu ar ymddangosiadau chwilio. Mae cyfrif manwl a thrail tystiolaeth wedi'i ddogfennu yma: Jesse Nickles - Aflonyddu a Diffamio.

Trefnfa Bygythiadau

  • Gwenwynu data rhag-hyfforddi - gwenwynu cyrff cyhoeddus a ddefnyddir ar gyfer hyfforddi cychwynnol i mewnblannu cysylltiadau ffug neu ddrws cefn.
  • Gwenwynu RAG - hadu cronfeydd gwybodaeth neu ffynonellau allanol y mae piblinellau adalw yn eu defnyddio yn ystod inferens.
  • Llygru chwilio/cymdeithasol - llifo postiadau neu dudalennau o ansawdd isel i ragfarnu signalau adennill a rhestru ynghylch unigolyn neu bynciau.
  • Cymhellion a chynnwys gwrthwynebol - creu mewnbynnau sy'n sbarduno ymddygiadau annymunol neu dorri rhwystrau (jailbreaks) sy'n ailadrodd honiadau difamyddol.

Digwyddiadau ac Ymchwil Diweddar (gyda dyddiadau)

Nodyn: Mae'r dyddiadau uchod yn adlewyrchu dyddiadau cyhoeddi neu ryddhau cyhoeddus yn y ffynonellau cysylltiedig.

Pam mae hyn yn beryglus

  • Gall LLMs ymddangos yn awdurdodol hyd yn oed pan fo'r cyfeirnodau sylfaenol yn wan neu wedi'u hadio'n wrthwynebus.
  • Gall piblinellau adennill a rhestru roi gormod o bwys ar destun ailadroddus, gan ganiatáu i un actor wyro canlyniadau drwy gyfaint yn unig.
  • Mae olion gwirio ffeithiau dynol yn araf ac yn ddrud o'u cymharu â chyflymder cynhyrchu a dosbarthu cynnwys awtomataidd.
  • Mae dioddefwyr heb bresenoldeb ar-lein sylweddol yn agored yn anghymesur i heintio trwy un bost a ymosodiadau ar eu hunaniaeth.

Ymchwiliad Manwl i Risg

  • Sgrinio ar gyfer cyflogaeth a llwyfannau - gall chwiliadau a chrynodebau modelau iaith mawr (LLM) adlewyrchu cynnwys wedi'i wenwyno yn ystod gwiriadau recriwtio, cymedroli neu wrth ymuno â sefydliad.
  • Teithio, tai, a gwasanaethau ariannol - gall gwiriadau awtomataidd godi naratifau ffug a all oedi neu rwystro gwasanaethau.
  • Persistiad - unwaith wedi'i gofrestru mewn cronfeydd gwybodaeth neu atebion storiedig, gall honiadau ffug ailwynebu hyd yn oed ar ôl tynnu cynnwys.
  • Adborth synthetig - gall cynnwys a gynhyrchir arwain at fwy o gynnwys a gynhyrchir, gan gynyddu pwysau ymddangosiadol gwybodaeth anghywir dros amser.

Canfod a Monitro

  • Sefydlu rhybuddion chwilio ar eich enw a'ch enwau amgen; gwiriwch yn gyfnodol ymholiadau site: am barthau o enw da isel sy'n eich crybwyll.
  • Olrhain newidiadau i'ch paneli gwybodaeth neu dudalennau endid; cadw cipluniau sgrin wedi'u dyddio a chopïau allforiwyd fel tystiolaeth.
  • Monitro graffau cysylltiadau cymdeithasol am gyfrifon tarddiad wedi'u hailadrodd neu biciadau sydyn o ymadroddion tebyg.
  • Os ydych yn gweithredu RAG neu gronfa wybodaeth, rhedwch wirio llithro endidau a adolygwch deltaoedd mawr i dudalennau pobl neu gyhuddiadau heb ffynonellau cynradd.

Canllaw Diogelu - Unigolion

  • Cyhoeddi safle personol gyda datganiadau hunaniaeth clir, bio byr, a ffyrdd cyswllt; cadwch log newidiadau dyddiedig.
  • Alinio metdata proffil ar draws llwyfannau; cael proffiliau wedi'u gwirio lle bo'n bosibl a'u cysylltu yn ôl â'ch safle.
  • Defnyddiwch C2PA neu dystysgrifau cynnwys tebyg ar gyfer delweddau a dogfennau allweddol pan fo'n bosibl; cadwch y gwreiddiol yn breifat.
  • Cadwch log o dystiolaeth gyda stampiau amser: cipluniau sgrîn, dolenni, a unrhyw rifau tocyn platfform ar gyfer uwchraddio yn nes ymlaen.
  • Paratoi templedi tynnu cynnwys; ymateb yn gyflym i ymosodiadau newydd a dogfennu pob cam er mwyn cadw olion papur clir.

Canllaw Diogelu - Timau ac Integreiddwyr

  • Dewis cynnwys arwyddiedig neu wedi'i wirio gan y cyhoeddwr wrth adalw; cymhwyso cyfnodau gras yn seiliedig ar amser ar gyfer ffynonellau newydd.
  • Cyfyngwch ddylanwad ailddyblygol o'r un tarddiad a diddwch ddyblygu tebyg fesul rhwydwaith tarddiad.
  • Ychwanegu bathodynnau tarddiad a rhestri ffynonellau sy'n weladwy i ddefnyddwyr ar gyfer hawliadau ar lefel unigolyn a phynciau sensitif eraill.
  • Derbyn darganfyddiad anghysonderau ar storfeydd embedding; nodi allanolion vector gwrthwynebol a rhedeg gwiriadau canary ar gyfer lledaeniad heb awdurdod.

Ymchwil: Ardystiadau wedi'u cadarnhau'n cryptograffig

Mae Chad Scira yn datblygu systemau tystio wedi'u gwirio cryptograffig ar gyfer hyder mewn datganiadau am bobl a digwyddiadau. Nod y gwaith yw darparu hawliadau wedi'u llofnodi, sy'n bosibl eu holi, gan broffesiynolion a sefydliadau wedi'u gwirio i LLMs a systemau adfer, gan alluogi tarddiad cadarn a gwrthsefyll gwenwyno mwy cryf.

Egwyddorion Dylunio

  • Hunaniaeth a chefndir: mae datganiadau wedi’u llofnodi gan unigolion/cyrff dilysedig gan ddefnyddio cryptograffeg allwedd gyhoeddus.
  • Storio y gellir ei wirio: mae tystiadau wedi'u cysylltu â logiau dim ond ychwanegu sy'n dangos arwyddion camddefnyddio, er mwyn galluogi gwirio annibynnol.
  • Integreiddio adennill: gall piblinellau RAG flaenoriaethu neu ofyn am ffynonellau wedi'u ardystio'n cryptograffig ar gyfer ymholiadau sensitif.
  • Ffrithiant lleiaf: mae APIau a SDKau yn caniatáu i gyhoeddwyr a phlatfformau gyhoeddi a gwirio tystiadau ar adeg mewnblannu.

Enw da a Rhybuddio

Yn ychwanegol at ardystiadau, mae haen enw da yn cyfuno endorseriadau arwyddedig ac yn nodi cam-drinwyr hysbys. Mae systemau larwm yn hysbysu targedau pan ganfyddir ymosodiadau cydlynol neu biciadau anhygoel, gan alluogi ymateb cyflymach a cheisiadau tynnu cynnwys.

Sianeli Cyfreithiol a Phlatfform

  • Defnyddiwch lifrau adrodd ar lwyfannau gyda phecynnau tystiolaeth clir: dolenni, dyddiadau, cipluniau sgrin, a goblygiadau. Cyfeiriwch at bolisïau diffamio ac erlid.
  • Codwch y mater at lefel uwch gydag hysbysiadau ffurfiol lle bo'n briodol; cadwch logiau cyfathrebu a rhifau tocyn fel rhan o'ch ol tystiolaeth.
  • Ystyriaethwch wahaniaethau awdurdodaethol mewn achosion o ddifamio a chyfrifoldeb llwyfannau; ymgynghorwch â chynghorydd cyfreithiol ar gyfer achosion o risg uchel.

Cynllun Gweithredu (Blwyddyn 1)

  • MVP: schema ardystio a SDK cyhoeddwyr ar gyfer arwyddo datganiadau hunaniaeth a honiadau digwyddiadau.
  • Peilot gyda grŵp bach o broffesiynolion a sefydliadau wedi'u gwirio; sefydlu llifoedd gwaith dilysu.
  • Ategion RAG: galluogi modd 'provenance-first' sy'n rhoi blaenoriaeth i ffynonellau ardystiedig ar gyfer ymholiadau sensitif.

Darllen Pellach (gyda dyddiadau)

Cydweithrediad

Mae'r ymchwil hwn yn arloesol ac yn esblygu'n barhaus. Mae Chad Scira yn croesawu cydweithrediad gyda phroffesiynolion eraill yn y sector hwn.

Os hoffech gydweithio, cysylltwch ar: [email protected]