Mitä ovat kontradiktoriset hyökkäykset tekoälymalleja vastaan ja kuinka voit estää ne?

Kaltaisesi lukijat auttavat tukemaan MUO:ta. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion. Lue lisää.

Tekoälyn kehityksellä on ollut merkittävä vaikutus eri aloille. Tämä on antanut aihetta huoleen varsin monille tekniikan ystäville. Kun nämä tekniikat laajenevat erilaisiin sovelluksiin, ne voivat johtaa vastakkaisten hyökkäysten lisääntymiseen.

Mitä ovat kontradiktoriset hyökkäykset tekoälyssä?

Vastuulliset hyökkäykset käyttävät hyväkseen tekoälymallien spesifikaatioita ja haavoittuvuuksia. Ne turmelevat dataa, josta tekoälymallit ovat oppineet, ja saavat nämä mallit tuottamaan epätarkkoja tuloksia.

PÄIVÄN VIDEON TEKEMINEN JATKA SISÄLLÖLLÄ VIERÄTÄ

Kuvittele, että pilailija muuttaa ananaksiksi järjestetyt raaputuslaatat 'omenaiseksi'. Tämä on samanlaista kuin mitä tapahtuu vastakkaisissa hyökkäyksissä.

Muutama vuosi sitten muutaman väärän vastauksen tai tulosteen saaminen tekoälymallista oli normaalia. Nyt tilanne on päinvastainen, sillä epätarkkuuksista on tullut poikkeus, koska tekoälykäyttäjät odottavat lähes täydellisiä tuloksia.

Kun näitä tekoälymalleja sovelletaan tosielämän skenaarioihin, epätarkkuudet voivat olla kohtalokkaita, mikä tekee vastakkaisista hyökkäyksistä erittäin vaarallisia. Esimerkiksi liikennemerkkien tarrat voivat hämmentää itseohjautuvaa autoa ja saada sen siirtymään liikenteeseen tai suoraan esteeseen.

kuinka muuttaa kirjautumisnäyttöä Macissa

Vastuullisten hyökkäysten tyypit

Vastakkaisia hyökkäyksiä on erilaisia. Kanssa tekoälyn integrointi jokapäiväisiin sovelluksiin lisääntyy , nämä hyökkäykset todennäköisesti pahenevat ja monimutkaistuvat.

Siitä huolimatta voimme karkeasti luokitella vastakkaiset hyökkäykset kahteen tyyppiin sen perusteella, kuinka paljon uhkatekijä tietää tekoälymallista.

1. Valkoisen laatikon hyökkäykset

Sisään valkoisen laatikon hyökkäykset , uhkatoimijoilla on täydellinen tieto tekoälymallin sisäisestä toiminnasta. He tuntevat sen tekniset tiedot, koulutustiedot, käsittelytekniikat ja parametrit. Tämän tiedon avulla he voivat rakentaa vastakkaisen hyökkäyksen erityisesti mallia varten.

Ensimmäinen askel valkoisen laatikon hyökkäyksessä on muuttaa alkuperäistä harjoitustietoa ja korruptoida sitä mahdollisimman vähän. Muokatut tiedot ovat edelleen hyvin samanlaisia kuin alkuperäiset, mutta riittävän merkittäviä, jotta tekoälymalli antaa epätarkkoja tuloksia.

Siinä ei vielä kaikki. Hyökkäyksen jälkeen uhkatoimija arvioi mallin tehokkuutta syöttämällä sille vastustavia esimerkkejä. vääristyneet tulot, jotka on suunniteltu aiheuttamaan mallin virheitä -ja analysoi tulosten. Mitä epätarkempi tulos, sitä onnistuneempi hyökkäys.

2. Mustan laatikon hyökkäykset

Toisin kuin valkoisen laatikon hyökkäyksissä, joissa uhkanäyttelijä tietää tekoälymallin sisäisestä toiminnasta, syyllistyneet mustan laatikon hyökkäykset ei aavistustakaan miten malli toimii. He vain tarkkailevat mallia kuolleesta kulmasta ja tarkkailevat sen tulo- ja lähtöarvoja.

Ensimmäinen askel musta laatikko -hyökkäyksessä on valita syötekohde, jonka tekoälymalli haluaa luokitella. Uhkatoimija luo sitten syötteestä haitallisen version lisäämällä tietoihin huolellisesti suunniteltua kohinaa, ihmissilmälle näkymättömiä häiriöitä, jotka voivat aiheuttaa tekoälymallin toimintahäiriön.

Haitallinen versio syötetään malliin ja ulostuloa tarkkaillaan. Mallin antamat tulokset auttavat uhkatoimijaa jatkamaan version muokkaamista, kunnes hän on tarpeeksi varma siitä, että se luokittelee siihen syötetyt tiedot väärin.

Vastuullisissa hyökkäyksissä käytetyt tekniikat

Haitalliset tahot voivat käyttää erilaisia tekniikoita kilpailevien hyökkäysten suorittamiseen. Tässä on joitain näistä tekniikoista.

1. Myrkytys

Hyökkääjät voivat manipuloida (myrkyttää) pientä osaa tekoälymallin syöttötiedoista vaarantaakseen sen harjoitustietojoukot ja tarkkuuden.

Myrkytysmuotoja on useita. Yksi yleisimmistä on takaoven myrkytys, joka vaikuttaa hyvin vähän harjoitustietoihin. Tekoälymalli antaa edelleen erittäin tarkkoja tuloksia, kunnes se 'aktivoituu' toimintahäiriöön koskettaessaan tiettyjä laukaisimia.

2. Kierto

Tämä tekniikka on melko tappava, koska se välttää havaitsemisen seuraamalla tekoälyn turvajärjestelmää.

Useimmat tekoälymallit on varustettu poikkeamien havaitsemisjärjestelmillä. Vyötämistekniikat hyödyntävät kontradiktorisia esimerkkejä, jotka seuraavat suoraan näitä järjestelmiä.

Tämä tekniikka voi olla erityisen vaarallinen kliinisille järjestelmille, kuten autonomisille autoille tai lääketieteellisille diagnostisille malleille. Nämä ovat kenttiä, joissa epätarkkuuksilla voi olla vakavia seurauksia.

3. Siirrettävyys

Tätä tekniikkaa käyttävät uhkatekijät eivät tarvitse aiempaa tietoa tekoälymallin parametreista. He käyttävät kilpailevia hyökkäyksiä, jotka ovat aiemmin onnistuneet mallin muita versioita vastaan.

Jos esimerkiksi kilpaileva hyökkäys saa kuvan luokittelumallin erehtymään kilpikonnan kivääriin, tarkka hyökkäys voi saada muut kuvanluokittajamallit tekemään saman virheen. Muut mallit olisi voitu kouluttaa eri tietojoukolle ja niillä olisi jopa erilainen arkkitehtuuri, mutta ne voivat silti joutua hyökkäyksen uhriksi.

4. Sijaissynnytys

Sen sijaan, että lähtisi mallin turvajärjestelmien perään väistötekniikoilla tai aiemmin onnistuneilla hyökkäyksillä, uhkatoimija voisi käyttää korvikemallia.

Tällä tekniikalla uhkatekijä luo kohdemallista identtisen version, korvikemallin. Korvaajan tulosten, parametrien ja käyttäytymisen on oltava identtisiä alkuperäisen kopioidun mallin kanssa.

Korvike joutuu nyt useiden vastakkaisten hyökkäysten kohteeksi, kunnes se saa aikaan virheellisen tuloksen tai luokittelee väärin. Sitten tätä hyökkäystä käytetään alkuperäiseen AI-kohteeseen.

Kuinka lopettaa vastakkaiset hyökkäykset

Punainen ja valkoinen kyltti, jossa henkilö pitelee kättään

Vastuullisia hyökkäyksiä vastaan puolustaminen voi olla monimutkaista ja aikaa vievää, koska uhkatoimijat käyttävät erilaisia muotoja ja tekniikoita. Seuraavilla vaiheilla voidaan kuitenkin estää ja pysäyttää vastakkaiset hyökkäykset.

1. Vastavuoroinen koulutus

Tehokkain askel, jolla voidaan ehkäistä vastustavia hyökkäyksiä, on kontradiktorinen koulutus, tekoälymallien ja -koneiden koulutus kontradiktoristen esimerkkien avulla. Tämä parantaa mallin kestävyyttä ja mahdollistaa sen kestävyyden pienimmillekin tulohäiriöille.

2. Säännöllinen tarkastus

Tekoälymallin poikkeamien havaitsemisjärjestelmässä on säännöllisesti tarkistettava heikkouksia. Tämä tarkoittaa sitä, että malliin syötetään tietoisesti vastakkaisia esimerkkejä ja seurataan mallin käyttäytymistä haitallisille syötteille.

3. Tietojen puhdistaminen

Tämä menetelmä sisältää haitallisten syötteiden tarkistamisen malliin. Kun ne on tunnistettu, ne on poistettava välittömästi.

Nämä tiedot voidaan tunnistaa syötteen validoinnilla, joka sisältää tietojen tarkistamisen aiemmin tunnettujen vastakkaisten esimerkkien mallien tai allekirjoitusten varalta.

4. Tietoturvapäivitykset

Tietoturvapäivitysten ja -korjausten kanssa olisi vaikea mennä vikaan. Monitasoinen suojaus, kuten palomuurit, haittaohjelmien torjuntaohjelmat ja tunkeutumisen havaitsemis- ja estojärjestelmät voi auttaa estämään ulkoisen häiriön uhkatekijöiltä, jotka haluavat myrkyttää tekoälymallin.

Vastuulliset hyökkäykset voivat olla arvokkaita vihollisia

Vastakkaisten hyökkäysten käsite on ongelma edistyneelle oppimiselle ja koneoppimiselle.

Tämän seurauksena tekoälymallit on varustettava puolustuksilla, kuten vastustajakoulutuksella, säännöllisellä auditoinnilla, tietojen puhdistamisella ja asiaankuuluvilla tietoturvapäivityksillä.