Apa itu deepfakes? AI yang menipu

Deepfakes adalah media - selalunya video tetapi kadang-kadang audio - yang dibuat, diubah, atau disintesis dengan bantuan pembelajaran mendalam untuk menipu beberapa penonton atau pendengar untuk mempercayai peristiwa yang salah atau mesej palsu.

Contoh asal deepfake (oleh pengguna reddit / u / deepfake) menukar wajah seorang pelakon ke badan pelakon porno dalam video - yang, tentu saja, tidak beretika, walaupun pada mulanya tidak menyalahi undang-undang. Deepfake lain telah mengubah apa yang dikatakan oleh orang terkenal, atau bahasa yang mereka bercakap.

Deepfakes memperluas idea penggabungan video (atau filem), yang telah dilakukan selama beberapa dekad. Kemahiran, masa, dan peralatan video yang penting masuk ke dalam penyusunan video; deepfake video memerlukan kemahiran, masa (dengan andaian anda mempunyai GPU), dan peralatan yang lebih sedikit, walaupun sering kali tidak meyakinkan para pemerhati yang berhati-hati.

Cara membuat deepfakes

Pada asalnya, deepfakes bergantung pada autoencoder, sejenis rangkaian saraf tanpa pengawasan, dan masih banyak yang dilakukan. Sebilangan orang telah memperhalusi teknik itu menggunakan GAN (jaringan lawan generatif). Kaedah pembelajaran mesin lain juga telah digunakan untuk deepfakes, kadang-kadang digabungkan dengan kaedah pembelajaran bukan mesin, dengan hasil yang berbeza-beza.

Pengekod automatik

Pada dasarnya, autoencoder untuk wajah deepfake dalam gambar menjalankan proses dua langkah. Langkah pertama adalah menggunakan jaringan saraf untuk mengekstrak wajah dari gambar sumber dan menyandikannya ke dalam sekumpulan fitur dan mungkin topeng, biasanya menggunakan beberapa lapisan konvolusi 2D, beberapa lapisan padat, dan lapisan softmax. Langkah kedua adalah menggunakan jaringan saraf lain untuk mendekodekan fitur, menaikkan wajah yang dihasilkan, memutar dan menskalakan wajah sesuai kebutuhan, dan menerapkan wajah yang ditingkatkan ke gambar lain.

Melatih autoencoder untuk pembuatan wajah deepfake memerlukan banyak gambar sumber dan wajah sasaran dari pelbagai sudut pandangan dan dalam keadaan pencahayaan yang berbeza-beza. Tanpa GPU, latihan boleh memakan masa berminggu-minggu. Dengan GPU, ia berjalan lebih pantas.

GAN

Rangkaian lawan generatif dapat menyempurnakan hasil autoencoder, misalnya, dengan mengadu dua jaringan saraf satu sama lain. Rangkaian generatif cuba membuat contoh yang mempunyai statistik yang sama dengan yang asal, sementara rangkaian diskriminatif cuba mengesan penyimpangan dari pengedaran data asal.

Training GANs adalah teknik berulang yang memakan masa yang sangat meningkatkan kos dalam masa pengiraan berbanding autoencoder. Pada masa ini, GAN lebih sesuai untuk menghasilkan bingkai gambar tunggal realistik orang khayalan (contohnya StyleGAN) daripada membuat video deepfake. Itu boleh berubah apabila perkakasan pembelajaran mendalam menjadi lebih cepat.

Cara mengesan deepfakes

Pada awal tahun 2020, sebuah konsortium dari AWS, Facebook, Microsoft, Jawatankuasa Pemandu Integriti Media Kemitraan di AI, dan ahli akademik membina Cabaran Pengesanan Deepfake (DFDC), yang berlangsung di Kaggle selama empat bulan.

Peraduan ini merangkumi dua penyelesaian prototaip yang didokumentasikan dengan baik: pengenalan, dan starter kit. Penyelesaian kemenangan, oleh Selim Seferbekov, juga mempunyai penulisan yang cukup baik.

Perincian penyelesaian akan membuat mata anda melintas jika anda tidak memasuki rangkaian saraf dan pemprosesan gambar. Pada dasarnya, penyelesaian yang berjaya dilakukan adalah pengesanan wajah bingkai demi bingkai dan mengekstrak topeng indeks SSIM (Structural Similarity). Perisian ini mengekstrak wajah yang dikesan ditambah margin 30 peratus, dan menggunakan EfficientNet B7 yang telah dipratrakan di ImageNet untuk pengekodan (klasifikasi). Penyelesaiannya kini adalah sumber terbuka.

Malangnya, walaupun penyelesaian yang berjaya hanya dapat menangkap sekitar dua pertiga dari deepfake dalam pangkalan data ujian DFDC.

Aplikasi pembuatan dan pengesanan Deepfake

Salah satu aplikasi pembuatan deepfake video sumber terbuka terbaik pada masa ini ialah Faceswap, yang menggunakan algoritma deepfake yang asal. Pengarang Ars Technica, Tim Lee memerlukan dua minggu, menggunakan Faceswap, untuk membuat deepfake yang menukar wajah Leftenan Komander Data (Brent Spiner) dari  Star Trek: The Next Generation ke dalam video Mark Zuckerberg yang memberi keterangan di hadapan Kongres. Seperti biasa untuk deepfakes, hasilnya tidak lulus ujian mengendus bagi sesiapa yang mempunyai kecanggihan grafik yang signifikan. Jadi, keadaan seni untuk deepfakes masih tidak begitu baik, dengan pengecualian yang jarang berlaku yang lebih bergantung pada kemahiran "artis" daripada teknologi.

Itu agak selesa, kerana penyelesaian pengesanan DFDC yang menang juga tidak begitu baik. Sementara itu, Microsoft telah mengumumkan, tetapi belum mengeluarkan tulisan ini, Microsoft Video Authenticator. Microsoft mengatakan bahawa Video Authenticator dapat menganalisis foto atau video pegun untuk memberikan peluang peratusan, atau skor keyakinan, bahawa media dimanipulasi secara artifisial.

Pengesah Video diuji terhadap set data DFDC; Microsoft belum melaporkan sejauh mana yang lebih baik daripada penyelesaian Kaggle yang menang Seferbekov. Adalah biasa bagi penaja peraduan AI untuk membangun dan memperbaiki penyelesaian yang menang dari peraduan ini.

Facebook juga menjanjikan pengesan deepfake, tetapi merancang untuk menutup kod sumber. Satu masalah dengan pengesan deepfake sumber terbuka seperti Seferbekov adalah bahawa pembangun generasi deepfake dapat menggunakan pengesan sebagai pembeda dalam GAN untuk menjamin bahawa yang palsu akan melewati pengesan itu, akhirnya memacu perlumbaan senjata AI antara generator deepfake dan pengesan deepfake.

Di bahagian depan audio, Descript Overdub dan Adobe yang ditunjukkan tetapi belum dirilis VoCo dapat menjadikan teks-ke-ucapan hampir realistik. Anda melatih Overdub selama kira-kira 10 minit untuk membuat versi sintetik suara anda sendiri; setelah dilatih, anda boleh mengedit suara anda sebagai teks.

Teknologi yang berkaitan ialah Google WaveNet. Suara yang disintesis WaveNet lebih realistik daripada suara teks-ke-pertuturan standard, walaupun tidak cukup pada tahap suara semula jadi, menurut pengujian Google sendiri. Anda pernah mendengar suara WaveNet jika anda menggunakan output suara dari Pembantu Google, Carian Google, atau Terjemahan Google baru-baru ini.

Deepfake dan pornografi tanpa persetujuan

Seperti yang saya nyatakan sebelumnya, deepfake asli menukar wajah seorang pelakon ke badan pelakon porno dalam sebuah video. Reddit sejak itu melarang sub-Reddit / r / deepfake yang menjadi tuan rumah dan deepfake pornografi lain, kerana sebahagian besar kandungannya adalah pornografi tanpa persetujuan, yang kini tidak sah, sekurang-kurangnya di beberapa bidang kuasa.

Sub-Reddit lain untuk deepfakes bukan -pornografi masih wujud di / r / SFWdeepfakes. Walaupun penghuni sub-Reddit itu mendakwa mereka melakukan kerja dengan baik, anda harus menilai sendiri sama ada, katakanlah, melihat wajah Joe Biden yang dipalsukan ke badan Rod Serling mempunyai nilai - dan apakah ada deepfakes di sana ujian menghidu untuk kredibiliti. Pada pendapat saya, ada yang hampir menjual diri mereka sebagai nyata; kebanyakannya boleh digambarkan sebagai kasar.

Melarang / r / deepfake, tentu saja, tidak menghilangkan pornografi tanpa persetujuan, yang mungkin mempunyai pelbagai motivasi, termasuk pornografi balas dendam, yang merupakan jenayah di AS. Laman web lain yang telah melarang deepfakes tanpa persetujuan termasuk Gfycat, Twitter, Discord, Google, dan Pornhub, dan akhirnya (setelah banyak berjalan kaki) Facebook dan Instagram.

Di California, individu yang disasarkan oleh kandungan deepfake eksplisit seksual yang dibuat tanpa persetujuan mereka mempunyai sebab tindakan terhadap pencipta kandungan tersebut. Juga di California, larangan penyebaran media audio atau visual mendalam yang menyasarkan calon yang mencalonkan diri ke pejabat awam dalam 60 hari pemilihan mereka dilarang. China menghendaki bahawa deepfakes dilabel dengan jelas seperti itu.

Kepincangan dalam politik

Banyak bidang kuasa lain yang tidak mempunyai undang-undang yang menentang deepfake politik. Itu boleh merisaukan, terutama ketika tokoh politik yang berkualiti tinggi membuatnya menjadi sebaran luas. Adakah penipuan Nancy Pelosi akan lebih buruk daripada video Pelosi yang diperlambat secara konvensional yang dimanipulasi untuk membuatnya terdengar seperti dia menghirup kata-katanya? Boleh jadi, jika dihasilkan dengan baik. Sebagai contoh, lihat video ini dari CNN, yang memusatkan perhatian pada deepfakes yang berkaitan dengan kempen presiden 2020.

Deepfake sebagai alasan

"Ini adalah deepfake" juga merupakan alasan yang mungkin bagi para politisi yang videonya yang nyata dan memalukan telah bocor. Perkara itu baru-baru ini berlaku (atau diduga berlaku) di Malaysia apabila pita seks gay ditolak sebagai tindakan mendalam oleh Menteri Hal Ehwal Ekonomi, walaupun lelaki lain yang ditunjukkan dalam pita itu bersumpah itu nyata.

Di sisi lain, penyebaran kemungkinan mendalam dari amatur Presiden Ali Bongo dari Gabon adalah faktor penyumbang kepada rampasan kuasa tentera berikutnya terhadap Bongo. Video deepfake memberitahu pihak tentera bahawa ada sesuatu yang tidak kena, lebih-lebih lagi daripada ketidakhadiran Bongo dari media.

Contoh yang lebih mendalam

Video deepfake All Star baru-baru ini , klasik Smash Mouth 1999, adalah contoh memanipulasi video (dalam kes ini, mashup dari filem popular) hingga lip bibir palsu. Pencipta, pengguna YouTube ontyj, menyatakan bahawa dia "Terlalu menguji wav2lip dan sekarang ini ada ..." Ini menggembirakan, walaupun tidak meyakinkan. Walaupun begitu, ini menunjukkan betapa jauh lebih baik gerakan bibir palsu. Beberapa tahun yang lalu, gerakan bibir yang tidak wajar biasanya merupakan pemberian video palsu.

Ia boleh menjadi lebih teruk. Lihatlah video mendalam Presiden Obama sebagai sasaran dan Jordan Peele sebagai pendorongnya. Sekarang bayangkan bahawa itu tidak termasuk konteks apa pun yang mengungkapkannya sebagai palsu, dan termasuk ajakan bertindak yang membakar.

Adakah anda sudah ketakutan?

Baca lebih lanjut mengenai pembelajaran mesin dan pembelajaran mendalam:

  • Pembelajaran mendalam berbanding pembelajaran mesin: Memahami perbezaan
  • Apa itu pembelajaran mesin? Kecerdasan yang diperoleh daripada data
  • Apa itu pembelajaran mendalam? Algoritma yang meniru otak manusia
  • Algoritma pembelajaran mesin dijelaskan
  • Pembelajaran mesin automatik atau AutoML dijelaskan
  • Pembelajaran yang diselia dijelaskan
  • Pembelajaran separa penyeliaan dijelaskan
  • Pembelajaran tanpa pengawasan dijelaskan
  • Pembelajaran pengukuhan dijelaskan
  • Apakah penglihatan komputer? AI untuk gambar dan video
  • Apakah pengecaman wajah? AI untuk Abang Besar
  • Apakah pemprosesan bahasa semula jadi? AI untuk ucapan dan teks
  • Kaggle: Tempat para saintis data belajar dan bersaing
  • Apa itu CUDA? Pemprosesan selari untuk GPU