Mengapa syarikat beralih dari TensorFlow ke PyTorch

Subkategori pembelajaran mesin, pembelajaran mendalam menggunakan rangkaian saraf berlapis untuk mengautomatikkan tugas mesin yang sukar dari segi sejarah — seperti pengecaman gambar, pemprosesan bahasa semula jadi (NLP), dan terjemahan mesin — pada skala.

TensorFlow, yang muncul dari Google pada tahun 2015, telah menjadi kerangka pembelajaran mendalam sumber terbuka yang paling popular untuk penyelidikan dan perniagaan. Tetapi PyTorch, yang keluar dari Facebook pada tahun 2016, dengan cepat menyusul, berkat peningkatan yang didorong oleh masyarakat dalam kemudahan penggunaan dan penyebaran untuk semakin banyak kes penggunaan.

PyTorch melihat penerapan yang sangat kuat dalam industri automotif — di mana ia dapat digunakan untuk sistem pemanduan autonomi dari Tesla dan Lyft Level 5. Kerangka ini juga digunakan untuk klasifikasi kandungan dan cadangan di syarikat media dan untuk membantu menyokong robot dalam aplikasi industri.

Joe Spisak, peneraju produk untuk kecerdasan buatan di Facebook AI, mengatakan bahawa walaupun dia senang dengan peningkatan penggunaan syarikat PyTorch, masih banyak yang harus dilakukan untuk mendapatkan penerapan industri yang lebih luas.

"Gelombang adopsi berikutnya akan datang dengan mengaktifkan pengurusan kitaran hidup, MLOps, dan saluran pipa Kubeflow dan masyarakat di sekitarnya," katanya. "Bagi mereka yang awal dalam perjalanan, alatnya cukup bagus, menggunakan perkhidmatan terurus dan beberapa sumber terbuka dengan sesuatu seperti SageMaker di AWS atau Azure ML untuk memulakan."

Disney: Mengenal pasti wajah animasi dalam filem

Sejak tahun 2012, jurutera dan saintis data di gergasi media Disney telah membangun apa yang disebut syarikat itu sebagai Content Genome, sebuah grafik pengetahuan yang mengumpulkan metadata kandungan untuk memperkuat aplikasi carian dan pemperibadian berasaskan mesin pembelajaran di seluruh perpustakaan kandungan Disney.

"Metadata ini meningkatkan alat yang digunakan oleh pencerita Disney untuk menghasilkan kandungan; memberi inspirasi kepada kreativiti berulang dalam penceritaan; pengalaman pengguna yang kuat melalui enjin cadangan, navigasi digital dan penemuan kandungan; dan aktifkan kecerdasan perniagaan, ”tulis pemaju Disney Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro, dan Cesc Guitart dalam catatan blog pada bulan Julai.

Sebelum itu dapat terjadi, Disney harus melabur dalam projek anotasi konten yang luas, beralih kepada para saintis datanya untuk melatih saluran penandaan automatik menggunakan model pembelajaran mendalam untuk pengecaman gambar untuk mengenal pasti sejumlah besar gambar orang, watak, dan lokasi.

Jurutera Disney bermula dengan bereksperimen dengan pelbagai kerangka kerja, termasuk TensorFlow, tetapi memutuskan untuk menggabungkan sekitar PyTorch pada tahun 2019. Jurutera beralih dari perangkaan histogram konvensional gradien berorientasi (HOG) dan model mesin vektor sokongan (SVM) yang popular ke versi seni bina pengesanan objek yang dijuluki kawasan dengan rangkaian saraf konvolusional (R-CNN). Yang terakhir ini lebih kondusif untuk menangani kombinasi aksi langsung, animasi, dan kesan visual yang biasa terdapat dalam kandungan Disney.

"Sulit untuk menentukan apa itu wajah dalam kartun, jadi kami beralih ke metode pembelajaran mendalam menggunakan alat pengesan objek dan menggunakan pembelajaran pemindahan," jelas jurutera Penyelidik Disney, Monica Alfaro. Setelah beberapa ribu wajah diproses, model baru telah mengenal pasti wajah secara meluas dalam ketiga-tiga kes penggunaan. Ia mula dikeluarkan pada Januari 2020.

"Kami menggunakan hanya satu model sekarang untuk tiga jenis wajah dan sangat bagus untuk menjalankan filem Marvel seperti Avengers, di mana ia perlu mengenali Iron Man dan Tony Stark, atau watak apa pun yang memakai topeng," katanya.

Oleh kerana para jurutera berurusan dengan data video dalam jumlah yang tinggi untuk melatih dan menjalankan model secara selari, mereka juga ingin menggunakan GPU berprestasi tinggi yang mahal ketika bergerak ke produksi.

Peralihan dari CPU membolehkan jurutera melatih semula dan mengemas kini model dengan lebih cepat. Ini juga mempercepat penyebaran hasil kepada berbagai kumpulan di Disney, mengurangi waktu pemrosesan dari kira-kira satu jam untuk filem berdurasi panjang, hingga mendapatkan hasil antara lima hingga 10 minit hari ini.

"Pengesan objek TensorFlow membawa masalah memori dalam pengeluaran dan sukar untuk dikemas kini, sedangkan PyTorch mempunyai alat pengesan objek yang sama dan Faster-RCNN, jadi kami mulai menggunakan PyTorch untuk semuanya," kata Alfaro.

Peralihan dari satu kerangka ke kerangka lain sangat mengejutkan bagi pasukan kejuruteraan juga. "Perubahan [ke PyTorch] itu mudah kerana semuanya terpasang, anda hanya memasukkan beberapa fungsi dan dapat memulakan dengan cepat, jadi ini bukan kurva pembelajaran yang curam," kata Alfaro.

Ketika mereka menghadapi sebarang masalah atau masalah, komuniti PyTorch yang bersemangat bersedia membantu.

Teknologi Blue River: Robot pembunuh rumpai

Teknologi Blue River telah merancang sebuah robot yang menggunakan kombinasi mudah mencari digital, kamera bersepadu, dan penglihatan komputer untuk menyemburkan rumpai dengan racun herba sambil meninggalkan tanaman bersendirian dalam waktu dekat, membantu petani menjimatkan racun rumpai yang mahal dan berpotensi merosakkan alam sekitar dengan lebih cekap.

Syarikat yang berpangkalan di California, Sunnyvale, mendapat perhatian pembuat alat berat John Deere pada tahun 2017, ketika ia diperoleh dengan harga $ 305 juta, dengan tujuan untuk mengintegrasikan teknologi tersebut ke dalam peralatan pertaniannya.

Penyelidik Blue River bereksperimen dengan pelbagai kerangka pembelajaran mendalam sambil berusaha melatih model penglihatan komputer untuk mengenali perbezaan antara rumpai dan tanaman, satu cabaran besar ketika anda berhadapan dengan tanaman kapas, yang memiliki kemiripan dengan rumput liar.

Ahli agronomi terlatih dirancang untuk melakukan tugas pelabelan gambar manual dan melatih jaringan saraf konvolusional (CNN) menggunakan PyTorch "untuk menganalisis setiap bingkai dan menghasilkan peta tepat piksel di mana tanaman dan rumpai berada," Chris Padwick, pengarah komputer visi dan pembelajaran mesin di Blue River Technology, menulis dalam catatan blog pada bulan Ogos.

"Seperti syarikat lain, kami mencuba Caffe, TensorFlow, dan kemudian PyTorch," kata Padwick. "Ia berfungsi dengan baik di luar kotak untuk kami. Kami sama sekali tidak mempunyai laporan bug atau bug penyekat. Pada komputasi yang diedarkan, ia benar-benar bersinar dan lebih mudah digunakan daripada TensorFlow, yang untuk paralelisme data agak rumit. "

Padwick mengatakan populariti dan kesederhanaan kerangka kerja PyTorch memberinya kelebihan ketika menambah pekerja baru dengan cepat. Oleh itu, Padwick mengimpikan dunia di mana "orang berkembang dalam apa sahaja yang mereka selesa. Ada yang suka Apache MXNet atau Darknet atau Caffe untuk penyelidikan, tetapi dalam pengeluarannya mesti dalam satu bahasa, dan PyTorch mempunyai semua yang kita perlukan untuk berjaya. "

Datarock: Analisis imej berasaskan awan untuk industri perlombongan

Diasaskan oleh sekumpulan ahli sains geografi, Datarock pemula Australia menggunakan teknologi penglihatan komputer untuk industri perlombongan. Lebih khusus lagi, model pembelajaran mendalamnya membantu ahli geologi menganalisis citra sampel inti lebih cepat daripada sebelumnya.

Biasanya, seorang ahli geologi akan memeriksa sampel ini dengan sentimeter hingga sentimeter untuk menilai mineralogi dan struktur, sementara jurutera akan mencari ciri fizikal seperti kerosakan, patah tulang, dan kualiti batu. Proses ini lambat dan terdedah kepada kesalahan manusia.

"Komputer dapat melihat batu seperti jurutera," kata Brenton Crawford, COO Datarock. "Jika anda dapat melihatnya dalam gambar, kami dapat melatih model untuk menganalisisnya dan juga manusia."

Mirip dengan Blue River, Datarock menggunakan varian model RCNN dalam pengeluaran, dengan para penyelidik beralih ke teknik peningkatan data untuk mengumpulkan data latihan yang cukup pada tahap awal.

"Setelah periode penemuan awal, tim mulai menggabungkan teknik untuk membuat alur kerja pemprosesan gambar untuk citra inti gerudi. Ini melibatkan pengembangan satu siri model pembelajaran mendalam yang dapat memproses gambar mentah menjadi format terstruktur dan menyegmentasikan maklumat geologi penting, ”tulis para penyelidik dalam catatan blognya.

Dengan menggunakan teknologi Datarock, klien dapat memperoleh hasil dalam setengah jam, berbanding lima atau enam jam yang diperlukan untuk mencatat penemuan secara manual. Ini membebaskan ahli geologi dari bahagian pekerjaan mereka yang lebih sukar, kata Crawford. Namun, "ketika kita mengotomatisasi hal-hal yang lebih sukar, kita mendapat sedikit tolakan, dan harus menjelaskan bahawa mereka adalah bagian dari sistem ini untuk melatih model dan mendapatkan gelung maklum balas itu."

Seperti banyak syarikat yang melatih model visi komputer pembelajaran mendalam, Datarock bermula dengan TensorFlow, tetapi segera beralih ke PyTorch.

"Pada mulanya kami menggunakan TensorFlow dan ia akan menimpa kami kerana alasan misteri," kata Duy Tin Truong, ketua pembelajaran mesin di Datarock. "PyTorch dan Detecton2 dibebaskan pada masa itu dan sesuai dengan keperluan kita, jadi setelah beberapa ujian kita melihat lebih mudah untuk melakukan debug dan bekerja dengan dan menggunakan memori yang lebih sedikit, jadi kami menukarnya," katanya.

Datarock juga melaporkan peningkatan prestasi inferensi 4x dari TensorFlow ke PyTorch dan Detectron2 ketika menjalankan model pada GPU - dan 3x pada CPU.

Truong memetik komuniti PyTorch yang berkembang, antara muka yang dirancang dengan baik, kemudahan penggunaan, dan penyahpepijatan yang lebih baik sebagai alasan untuk beralih dan menyatakan bahawa walaupun "mereka sangat berbeza dari sudut pandangan antara muka, jika anda tahu TensorFlow, agak mudah untuk menukar , terutamanya jika anda mengenali Python. "