"Akivaizdžiai" aptiktų vaizdo įrašų nustatymas akimirksniu

Anonim

Naujoji dezinformacijos forma yra pasirengusi plisti per internetines bendruomenes, nes 2018 m. Vidutinės trukmės rinkimų kampanijos šildomos. Pavadinęs "giliai" po pseudoniminės internetinės paskyros, kuri populiarino techniką - galbūt pasirinko pavadinimą, nes procese naudojamas techninis metodas, vadinamas "gilus mokymasis", - šie netikri vaizdo įrašai atrodo labai tikroviški.

Iki šiol žmonės naudojo gilius vaizdo įrašus pornografijoje ir satyre, kad atrodytų, kad žinomi žmonės daro tai, ko jie paprastai nepadarė. Bet kampanijos sezono metu pasirodys beveik visi tam tikri giliai šūviai, kuriuose būtų vaizduojami kandidatai, sakydami, kad kažkas ar vyks vietose, kurių tikrasis kandidatas nebūtų.

Kadangi šie metodai yra tokie nauji, žmonėms kyla sunkumų suprasti realių vaizdo įrašų ir gilių vaizdo įrašų skirtumus. Mano darbas su mano kolega Ming-Ching Chang ir mūsų doktorantais. studentas Yuezun Li, rado būdą, kaip patikimai pasakyti realius vaizdo įrašus iš gilių vaizdo įrašų. Tai nėra ilgalaikis sprendimas, nes technologijos pagerės. Tačiau tai yra pradžia ir siūlo viltį, kad kompiuteriai galės padėti žmonėms pasakyti tiesą iš fantastikos.

Bet kas yra "giliai"?

Gilus vaizdo įrašas yra panašus į kalbų vertimą. Paslaugos, tokios kaip "Google Translate", naudoja mašininį mokymąsi - kompiuterių dešimčių tūkstančių tekstų įvairiose kalbose analizė, siekiant aptikti vertimo žodžiu naudojimo šablonus.

Deepfake algoritmai veikia taip pat: jie naudoja mašininio mokymo sistemą, vadinamą giliu neuroniniu tinklu, kad ištirtų vieno žmogaus veido judesius. Tada jie sintezuoja kito žmogaus veido vaizdus, ​​kurdami analogiškus judesius. Tai taip efektyviai sukuria vaizdo įrašą apie tikslinį asmenį, kuris pasirodo ar sako, ką padarė šaltinis.

Kad jie galėtų tinkamai dirbti, giliems neuroniniams tinklams reikia daug šaltinio informacijos, pvz., Asmenų, kurie yra šališkojo ar įpročio objekto, nuotraukos. Kuo gilesnio algoritmo gilumoje naudojami daugiau vaizdų, tuo realesnė bus vaizdo įrašų išdavystė.

Aptikimas mirksi

Šio naujo tipo algoritmo vis dar yra trūkumų. Vienas iš jų yra susijęs su tuo, kaip simuliuojami veidai mirksi arba ne. Sveiki suaugę žmonės mirksi kažkur tarp 2 ir 10 sekundžių, o vienas mirksėjimas trunka nuo vieno dešimtojo iki keturiasdešimt sekundės. Būtent tai būtų įprasta, kad pamatytumėte vaizdo įrašą apie kalbantį asmenį. Tačiau tai nėra tai, kas atsitinka daugelyje gilių vaizdo įrašų.

Kai "gilus" algoritmas mokomas asmens veidui, jis priklauso nuo to, kokie yra internete esantys vaizdai, kuriuos galima naudoti kaip mokymo duomenis. Net ir žmonėms, kurie dažnai fotografuojami, galima rasti keletą vaizdų, rodančių, kad jų akys uždarytos. Ne tik tokios nuotraukos yra reta, nes žmonių akys yra daugiausia atviros, bet fotografai paprastai nerenka vaizdų, kuriuose pagrindinės temos yra uždarytos.

Nepamirškite, kad žmonės mirksi, kai mirksi žmonės, giliai įsišakniję algoritmai greičiausiai sukurs veidus, kurie paprastai mirksi. Apskaičiuojant bendrą mirksintį greitį ir lyginant jį su natūraliu diapazono rodikliu, pastebėjome, kad gilių vaizdo įrašų simboliai mirksi daug rečiau nei realūs žmonės. Mūsų tyrimai naudoja mašinų mokymąsi, siekiant išnagrinėti akių atidarymą ir uždarymą vaizdo įrašuose.

Tai suteikia įkvėpimo aptikti giliasdešimt vaizdo įrašus. Vėliau mes sukūrėme metodą, kaip aptikti, kada vaizdo įraše esantis asmuo mirksi. Kad būtų tikslesnis, jis nuskaito kiekvieną atitinkamo vaizdo įrašo rėmelį, aptinka veidus jame ir automatiškai aptinka akis. Tada jis naudoja kitą gilų neuronų tinklą, kad nustatytų, ar aptiktoji akis yra atidaryta ar uždaryta, naudojant akies išvaizdą, geometrines savybes ir judėjimą.

Mes žinome, kad mūsų darbas naudojamas tam tikrų duomenų trūkumų, kad būtų galima mokyti giliasdešimt algoritmus. Norint išvengti panašaus trūkumo, mes sukūrėme savo sistemą didelėje atvirų ir uždarų akių atvaizdų bibliotekoje. Atrodo, kad šis metodas gerai veikia, todėl mes pasiekėme daugiau nei 95 proc. Aptikimo lygį.

Žinoma, tai nėra galutinis žodis "deepfakes" aptikimui. Technologija sparčiai plečiasi, o konkurencija tarp filmų kūrimo ir nustatymo yra panaši į šachmatų žaidimą. Visų pirma mirksėjimas gali būti pridedamas prie gilių vaizdo įrašų, įtraukiant veido atvaizdus uždaromis akimis arba naudojant vaizdo įrašų sekas mokymui. Žmonės, kurie nori supainioti visuomenę, bus lengviau kurdami klaidingus vaizdo įrašus - ir mes, ir kiti, technologijų bendruomenėje turėsime ir toliau ieškoti būdų juos aptikti.

menu
menu