Egészen bizarr, de első ránézésre (legalábbis hunyorítva) valódi videó terjed a neten, amelyen Schwab Richárd gasztroenterológus leteremti az egész orvostársadalmat, amiért hagyják szenvedni a szív- és érrendszeri betegségekben szenvedőket azzal, hogy eltitkolják előlük a csodaszert, amely egy pillanat alatt meggyógyítana mindenkit. Ezek után ugyanezzel a lendülettel reklámozni kezdi az említett csodaszert, amely már százezer betegnek segített Európa-szerte. Mindez – legalábbis úgy tűnik, hogy – Friderikusz Sándor podcastjában hangzik el, a műsorvezető felkonferálásával.
Persze az egész videó hamis; aki látott már hasonló technológiával, azaz deepfake-kel készült tartalmat, az viszonylag könnyen kiszúrhatja, de lássuk be, ez az ország elenyésző részére igaz, a többiek el nem ítélhető módon könnyedén bedőlhetnek a csalásnak.
Aki figyelmesen nézi és hallgatja, annak persze számítástechnikai háttértudás nélkül is feltűnhet, hogy kilóg a lóláb. Némileg már az is árulkodó, hogy a „podcastot” így vezeti fel „Friderikusz Sándor” (a gasztroenterológus keresztnevét fonetikusan írom):
Az interneten hatalmas botrány tört ki Schwab Ricsárd ismert orvos éles kritikája miatt.
„Ricsárd” pedig többek közt a következőt „nyilatkozza” a videóban:
Kifejlesztettünk egy forradalmi szert, amely három napon belül teljesen megszűnteti a tüneteket (mármint a stroke-ét és az aneurizmáét – a szerk.), és megkezdi a sérült szív belső gyógyulását. A memóriájuk 55-szörösére növekszik (!) és százezer új neuron keletkezik.
Most eltekintve az apróságoktól, hogy nem hogy orvos, de felnőtt, értelmes ember sem beszél 55-szörös memórianövekedésről, és talán van némi sejtése arról, hogy a neuronokat inkább billiókban (tehát ezermilliárdokban) érdemes számolni, mint százezrekben, Schwab doktor hangja sem stimmel: időnként egészen életszerű, aztán azonban mindig átvált a TikTok- és Insta Reel-videókból ismert fahangú, monoton, AI-beszédhangra. Ettől azonban igaz, hogy a – valószínűleg nem véletlenül rossz minőségű – videót könnyedén valódinak hihetik azok, akik nem láttak még deepfake-et, vagy nem tudják, mire kell figyelni. (Most, hogy tisztáztuk, hogy kamu, óvatosan linkeljük: itt nézhetitek meg.)
Valódinak is hiszik: Schwab Richárd az eset kapcsán elmondta, „akármennyire nyilvánvalónak látszik a hamisítás, sajnos nagyon sok rászoruló, megtévesztett beteg keresi a klinikát az idézett tartalmak miatt, ezért döntöttünk úgy, hogy a sajtóhoz fordulunk, és nemcsak rendőrségi feljelentést teszünk”. Ő és vállalkozásai egyébként sem árulnak semmilyen étrend-kiegészítőt és gyógyszert, és nem is reklámoznak ilyesmiket. A Schwab doktor által alapított Mind Klinika igazgatója, Entz László pedig elmondta az erről szóló közleményben:
A mesterséges intelligencia fontos eszköz a modern orvoslásban, de – mint ahogy jelen esetben is látjuk –, veszélyes bűncselekmények elkövetésére is alkalmas. Ezen veszélyforrás szerepe a jövőben nőni fog, ezért kiemelten fontosnak érzem, hogy zéró toleranciát hirdessünk azon bűnelkövetőkkel szemben, akik AI által generált, betegeket félrevezető, hamis egészségügyi tartalmakat terjesztenek.
Ideje tehát tisztázni, mi ez az egész, és hogyan szúrhatod ki.
Mi az a deepfake?
Egyrészt szomorú időszak vár ránk, hiszen innentől kezdve minden kicsit is ellentmondásos – értsd: vagy túl szép, vagy túl csúnya, hogy igaz legyen – fotóról, videóról és hangfelvételről feltételeznünk kell, hogy hamisított, másrészt szerencsére vannak eszközeink, amelyekkel kiszúrható ez – konkrét szoftverek is, ha kell, de általában elég a szemünket és a fülünket használnunk. A deepfake ezzel együtt is új távlatokat nyit a hamisításban, nem azért, mert annyira meggyőző – bár ügyesen, körültekintően és a megfelelő nyersanyag betáplálásával igenis az –, hanem mert bárki által hozzáférhető. Nem kell 3D-s modellezőnek, animátornak lennünk, elég egy csomó kép a kiszemeltről – ezzel sincs nehéz dolga a csalóknak, ha közszereplő, vagy ismert személy képmásával szeretnének visszaélni –, a többit már egy laptop is elvégzi.
A deepfake technológia általánosságban azt jelent, hogy mozgó- vagy állóképeket – vagy ideális esetben ez utóbbiak tömegét – megmutatják egy AI-algoritmusnak, és a mesterséges intelligencia így képes „megtanulni”, hogyan néz ki és viselkedik a képeken látható tárgy. Ez a legtöbbször egy emberi arc: ha egy adott emberről elég képet mutatunk a rendszernek – lehetőleg minél több szögből –, az létrehoz egy adatbázist, amely alapján újraalkotja az arcot adott kontextusban, értsd: beilleszti egy másik videóba. Ha megfelelő az alapanyag és kellően érzékeny, fejlett az algoritmus, a betáplált képek látószögétől és fényviszonyaitól függetlenül képes lesz létrehozni és megmozdítani bárki arcát. Ezek után már csak egy megfelelő videó kell, amelyen valaki eljátssza a hamisítani kívánt „célszemélyt”, az algoritmus pedig ezek után kicseréli az arcát és a hangját.
Az utóbbi években egyre hihetőbbé vált a mesterséges intelligenciával manipulált vagy létrehozott ember hang is: most már a kellő mennyiségű hangminta betáplálásával bárkit utánoz az AI, méghozzá egészen hatékonyan. Így mondja fel például a TikTok-videók jó részének szövegét Antony Hopkins, vagy Morgan Freeman. Azaz ezen sem múlik a hamisítás.
Az egyik legismertebb – és legveszélyesebb – deepfake-videó az utóbbi években az volt, amelyiken Zelenszkij elnök videoüzenetben kapitulál és hirdeti ki Oroszország győzelmét. Ez természetesen nem történt meg, de pár apróságot leszámítva – és azokat is csak a hozzáértők szúrták ki – szinte teljes a hasonlóság.
A Schwab-féle videóban egyébként ránézésre nem erről van szó. Bőséges és jó minőségű alapanyag állt ugyan rendelkezésre, hiszen az eredeti Friderikusz-podcast videója hozzáférhető, a csalóknak elég volt kiemelniük pár részletet, amelyekben megfelelőek voltak a gasztroenterológus gesztusai, mozdulatai, és láthatóan ki sem cserélték az arcát, egyszerűen módosították a szájmozgását, hogy az szinkronban legyen a szöveggel. Amely egyértelműen egy írott szöveg AI általi felolvasása, és még arra sem vették a fáradságot, hogy helyesek és jól formáltak legyenek a mondatok.
Ez tehát egy kifejezetten olcsó és gagyi, minimális ráfordítással készült kamuvideó, amely szigorú értelemben véve nem is deepfake.
A készítők mégis tudták, hogy még így is rengetegen bedőlnek majd. Így is lett.
Hogyan szúrjuk ki a hamis videókat?
Ahogy a legtöbb AI által létrehozott tartalomra, a deepfake-videókra is igaz: elsőre meggyőzően néznek ki ugyan, ám ahogy elkezd az ember figyelni a részletekre, kiderül, hogy automatikusan generált fércmunkáról van szó. (Méghozzá szó szerint: az AI lényege minden esetben az, hogy emberek alkotta tartalmakat – fotókat, videókat, szövegeket – szed szét alkotóelemeire, kategorizálja be azokat és illeszti őket össze újra és újra a megadott paraméterek, azaz promptok alapján.) Ez a titok nyitja tehát: figyelj a részletekre!
A hagyományos „arckicserélős” deepfake-videók esetében a legtöbbször elég, ha az arc széleire figyelsz: ha azt látod, hogy a bőr hirtelen „színt vált”, más tónusban folytatódik a test, megváltoznak a fényviszonyok, hiányoznak bizonyos árnyékok, jó eséllyel hamisítványról van szó. Schwab Richárd esetében a szájmozgás árulkodó: életszerűtlen, mesterséges, az eleve nem éppen hihető beszédhangot csak ímmel-ámmal követi. A legerősebb pillanat talán az, amikor egy pillanatra az arca elé teszi a kezét, amely hirtelen mintha átlátszóvá válna, pedig csak arról van szó, hogy az algoritmus megpróbálja a helyén tartani az általa generált szájat – akkor is, ha van valami előtte.
Ha egy valódi ember beszél, a deepfake algoritmus pedig „ráfeszíti” az arcára a mesterségesen létrehozott, hamis arcot, az eredmény még csak-csak elmegy, de ha eleve az AI mozgatja az ajkakat, az végképp nem hihető. Az emberi arc animálása még a veterán 3D-s animátorokon is kifog, különösen, ha valóban létezett, fotorealisztikusnak szánt embereket alkotnak újra, vagy akár élesztenek fel, a mesterséges intelligencia pedig sajnos (pontosabban szerencsére) végképp a kanyarban sincs. Visszatérve Schwabra:
Kicsit olyan az egész, mintha nagyon részegen beszélne, majd szinkronizálná saját magát teljesen józanul.
Nyilatkozatai alapján márpedig a híres gasztroenterológus esetében kizárt a részegség.
A mesterséges intelligencia ráadásul általában megbukik, ha sűrű, ismétlődő mintát kell létrehoznia: rendszeresen elrontja például a fogakat. Ha azok látszanak egy ilyen videón, általában elég erre figyelni, rögtön kiderül, honnan fúj a szél.
Az AI és vele együtt a deepfake rohamosan fejlődik – ám ezekkel együtt szerencsére azok a szoftverek is, amelyek kiszúrják és szűrik az általuk létrehozott tartalmakat. Ezek egy része szabadon használható, igaz, nem árt vigyázni az alkalmazásboltokból ingyenesen letölthető (vagy ingyenesnek hazudott) megoldásokkal: hogy mennyire megbízhatóak, az finoman szólva kiszámíthatatlan. Ajánljuk azonban a Microsoft megoldását, illetve a Buffalói Egyetem által fejlesztett (értsd: nem nagy cégek érdekeit szolgáló) Deepfake-o-Meter nevű webes felületet.
A legjobb tanács azonban, amit adhatok, és amely bármely helyzetben és viszonylag megbízhatóan működik, a következő:
Hallgass a megérzésedre!
„Nesze semmi, fogd meg jól” közhelynek hangzik, tudom, de tényleg ez a legbiztosabb eszközöd, hogy kiszúrd a kamuvideókat és -képeket: a megérzésed. Az ugyanis sosem hagy cserben, legfeljebb elfelejtettünk hallgatni rá. Pedig kellene, a helyzet ugyanis az, hogy az emberi test és arc, illetve azok mozgásának rutinos szakértője vagy – te is, én is, mindenki –, és ideje, hogy ezt a tudásod használni kezdd. Mióta megszülettél ugyanis, akaratlanul is tanulmányozod az embert, a legapróbb, önkéntelen gesztusokig és arcizom-rándulásokig, és ha valami nem stimmel, azonnal kiszúrod, legfeljebb elhessegeted a gondolatot.
A jelenségnek neve is van: uncanny valley, azaz a kényelmetlenség völgye. Még a hetvenes években írták le a robotika kedvéért (ekkor kezdtek azzal próbálkozni, hogy az emberre megszólalásig hasonló mesterséges lényt alkossanak, természetesen nem sikerült): az uncanny valley, azaz nagyjából a furcsaság völgye. Lényege, hogy minél jobban hasonlít egy tárgy (vagy akár számítógépes modell) egy emberre, a néző annál inkább elfogadja emberként – ez nem különösebben meglepő. Igen ám, de amikor már tényleg nem sok hiányzik, és a tárgy (robot, filmes szereplő) majdnem olyan, mint egy ember, azt a néző ellöki magától, furcsának, hátborzongatónak találja: érti, hogy szinte tökéletes az illúzió, de érzi, hogy valami mégsem stimmel. Ezért van az, hogy egy olyan emberi szereplőt, akit meg sem próbálnak valóságosként eladni – videójátékhősök, a Pixar-filmek szereplői stb. – sokkal inkább elfogadunk emberi lényként, mint azokat, akiket hús-vér karakternek szántak.
A végső tanulság, amely még évekig érvényes marad, a következő tehát:
Ha egy képet, vagy videót látva úgy érzed, hogy van benne valami megmagyarázhatatlanul furcsa, még ha nem is tudod megmondani, mi az, akkor tudd: jó eséllyel hamisítványt látsz.
Ha tehát eléd tesznek egy „döbbenetes” tartalmat, amely „mindent megváltoztat”, először a megérzésedre hallgass, és csak aztán bármi másra.