Perkembangan Teknologi AI (Artificial Intelligence) Sudah Memasuki Ranah Foto Editor

23 Mei 2023

Technology

Deep generation models, seperti Generative Adversarial Networks (GAN)  telah menunjukkan keefektifan dalam menghasilkan gambar fotorealistik acak. Dalam aplikasi dunia nyata, kemampuan kontrol atas input visual gabungan sangat penting untuk learning-based picture synthesis methods. Misalnya, pengguna media sosial mungkin ingin mengubah lokasi, bentuk, ekspresi, dan pose tubuh seseorang atau hewan dalam foto candid, editor media profesional mungkin perlu dengan cepat membuat sketsa tata letak adegan tertentu untuk film, dan perancang mobil mungkin ingin mengubah bentuk desain mereka secara interaktif.

Untuk memenuhi beragam tujuan pengguna ini, picture synthesis technique yang ideal harus memiliki karakteristik berikut : 

  1. Fleksibilitas : Dapat mengontrol berbagai fitur spasial, seperti lokasi, sikap, ekspresi, dan penataan objek atau makhluk yang diproduksi.
  2. Akurasi : Mampu mengelola fitur spasial dengan sangat tepat.
  3. Keumuman : Berlaku untuk berbagai jenis objek tanpa spesifik untuk salah satu dari mereka.

Panduan teks pada picture synthesis technique ini hanya mengelola karakteristik spasial dalam jumlah terbatas atau memberikan akses edit pengguna yang terbatas. Panduan teks juga perlu meningkatkan kemampuan beradaptasi dan akurasinya saat mengubah fitur spasial. Contohnya, tidak dapat memindahkan objek ke jumlah piksel tertentu. Sehingga dalam studi ini, terdapat interactive point-based yang kuat namun kurang dimanfaatkan untuk mendapatkan GAN yang fleksibel, tepat, dan dapat dikontrol secara umum. Pengguna dapat mengklik titik pegangan dan titik target sebanyak yang mereka suka pada gambar, dan tujuannya adalah untuk memindahkan titik pegangan ke arah titik target yang sesuai.

Berikut contoh penggunaannya : 

https://www.youtube.com/watch?v=55Smbt38KgM 


sumber : 

https://pkbnews.in/generative-image-manifold/ 

https://vcai.mpi-inf.mpg.de/projects/DragGAN/