Ulasan: Google Cloud AutoML adalah pembelajaran mesin yang benar-benar automatik

Semasa anda berusaha melatih model pembelajaran mesin terbaik untuk data anda secara automatik, ada AutoML, atau pembelajaran mesin automatik, dan kemudian ada Google Cloud AutoML. Google Cloud AutoML adalah potongan di atas. 

Pada masa lalu saya telah mengkaji H2O Driverless AI, Amazon SageMaker, dan Azure Machine Learning AutoML. AI tanpa pemandu secara automatik melakukan teknik penalaan dan penyesuaian hyperparameter, dan mengaku berprestasi sama seperti master Kaggle. Amazon SageMaker menyokong pengoptimuman hyperparameter. Azure Machine Learning AutoML secara automatik menyapu ciri, algoritma, dan hiperparameter untuk algoritma pembelajaran mesin asas; kemudahan penalaan hyperparameter Azure Machine Learning yang berasingan membolehkan anda menyapu hyperparameter tertentu untuk eksperimen yang ada.

Ini bagus, tetapi Google Cloud AutoML melangkah ke tahap yang sama sekali berbeza dan menyesuaikan rangkaian neural dalam dengan ketepatan tinggi yang diuji oleh pertempuran Google untuk data anda yang ditandai. Daripada bermula dari awal ketika melatih model dari data anda, Google Cloud AutoML menerapkan pembelajaran pemindahan mendalam secara automatik (yang bermaksud bahawa ia bermula dari rangkaian neural dalam yang ada yang dilatih pada data lain) dan carian seni bina saraf (bermaksud bahawa ia menemui kombinasi tambahan yang tepat lapisan rangkaian) untuk terjemahan pasangan bahasa, klasifikasi bahasa semula jadi, dan klasifikasi gambar.

Di setiap kawasan, Google sudah mempunyai satu atau lebih perkhidmatan pra-latihan berdasarkan rangkaian neural dalam dan sekumpulan besar data berlabel. Ini mungkin berfungsi untuk data anda yang tidak diubah suai, dan anda harus mengujinya untuk menjimatkan masa dan wang anda. Sekiranya perkhidmatan ini tidak melakukan apa yang anda perlukan, Google Cloud AutoML membantu anda membuat model yang sesuai, tanpa memerlukan anda tahu bagaimana melakukan pembelajaran transfer atau bagaimana membuat rangkaian neural.

Pembelajaran transfer menawarkan dua kelebihan besar daripada melatih rangkaian saraf dari awal. Pertama, ia memerlukan lebih banyak data untuk latihan, kerana kebanyakan lapisan rangkaian sudah terlatih dengan baik. Kedua, ia berjalan lebih cepat, kerana hanya mengoptimumkan lapisan akhir.

Terjemahan Google Cloud AutoML

Jadi, sebagai contoh, anda boleh berlatih melawan 1,000 pasangan ayat dua bahasa dalam satu atau dua jam dengan pembelajaran pemindahan Terjemahan Google Cloud AutoML. Jaringan saraf dasar yang disesuaikan, NMT, memerlukan ratusan hingga ribuan jam untuk melatih dari awal untuk setiap pasangan bahasa, pada sebilangan besar CPU dan GPU. Perhatikan bahawa caj setiap jam untuk melatih model terjemahan tersuai pada masa ini adalah $ 76.

Panduan Pemula Terjemahan AutoML menerangkan asas-asas mengenai apa yang boleh dilakukan Terjemahan AutoML Google Cloud, dan mengapa anda menggunakannya. Pada dasarnya, ia menyempurnakan model terjemahan umum yang ada untuk tujuan khusus. Anda tidak perlu melakukan latihan untuk terjemahan umum dari seratus bahasa yang sudah disokong oleh Google, tetapi anda perlu menjalankan pembelajaran pemindahan jika anda ingin membuat rangkaian terjemahan untuk perbendaharaan kata atau penggunaan khusus . Salah satu contoh yang disebutkan oleh Google ialah menerjemahkan dokumen kewangan yang sensitif terhadap masa dalam masa nyata. Terjemahan tujuan umum tidak akan selalu menggunakan istilah seni yang betul untuk kewangan.

 Menyiapkan latihan untuk Google Cloud AutoML Translation adalah proses lima langkah, seperti yang ditunjukkan dalam tangkapan layar di bawah, setelah anda menyiapkan fail dengan pasangan ayat. Saya menggunakan 8,720 pasangan bahasa Inggeris-Sepanyol untuk arahan aplikasi yang disediakan oleh Google dalam Quickstart Terjemahan AutoML, diformat sebagai fail nilai yang dipisahkan tab. Google Cloud AutoML Translation juga menyokong format Terjemahan Memori eXchange (TMX) berasaskan XML untuk pasangan ayat.

Anda akan perhatikan bahawa tidak ada pilihan untuk mengendalikan perkakasan (CPU, GPU, TPU, dan memori) yang digunakan untuk melakukan latihan. Itu sengaja: Latihan akan menggunakan apa yang diperlukannya. Juga tidak ada pilihan untuk mengontrol lapisan jaringan saraf yang ditambahkan ke model, jumlah zaman untuk dijalankan, atau kriteria berhenti.

Setelah latihan model selesai, anda dapat melihat peningkatan (jika semuanya berjalan lancar) dalam skor BLEU berbanding model dasar, dan cuba membuat ramalan dengan model tersebut. Latihan ini memakan masa 0.9 jam (kurang dari yang diramalkan) dan berharga $ 68.34.

Bahasa Asli Google Cloud AutoML

API Bahasa Asli Google mengambil teks dan meramalkan entiti, sentimen, sintaks, dan kategori (dari senarai yang telah ditentukan). Sekiranya masalah klasifikasi teks anda tidak sesuai, anda boleh memberikan satu set pernyataan berlabel dan menggunakan Google Natural AutoML Natural Language untuk membuat pengkelasan tersuai.

Untuk menyediakan Bahasa Asli AutoML untuk latihan, anda perlu mendapatkan data anda, melabelkannya, menyiapkannya sebagai fail CSV, dan menjalankan latihan. Anda juga boleh menggunakan UI Bahasa Asli AutoML untuk memuat naik dan melabel data jika anda mahu.

Setelah latihan model selesai, anda dapat melihat matriks ketepatan, ingatan, dan kekeliruan model. Anda juga boleh menyesuaikan ambang skor untuk pertukaran tepat / ingat yang diingini. Untuk mengurangkan negatif palsu, optimumkan untuk mengingat kembali. Untuk mengurangkan positif positif, optimalkan ketepatan.

Latihan ini memakan masa 3.63 jam (kira-kira seperti yang diramalkan) dan berharga $ 10.88.

Visi AutoML Awan Google

Google Cloud Vision API mengklasifikasikan gambar menjadi ribuan kategori yang telah ditentukan, mengesan objek dan wajah individu dalam gambar, dan mencari dan membaca perkataan bercetak yang terdapat dalam gambar. Google Cloud AutoML Vision membolehkan anda menentukan dan melatih senarai kategori anda sendiri. Beberapa aplikasi kehidupan sebenar termasuk mengesan kerosakan turbin angin dari gambar drone, dan mengklasifikasikan bahan kitar semula untuk pengurusan sampah.

Untuk menyediakan satu set data Google Cloud AutoML Vision, anda mesti mendapatkan sekurang-kurangnya 100 gambar untuk setiap kategori, dan melabelkannya dalam fail CSV. Semua gambar dan fail CSV perlu berada dalam baldi Penyimpanan Awan Google.

Saya menetapkan latihan ini untuk dijalankan selama maksimum satu jam, yang percuma sehingga 10 model sebulan. Saya terkejut melihat hasil yang baik dari latihan percuma, dan tidak bersusah payah meneruskan latihan untuk meningkatkan ketepatan dan mengingat kembali.

Google Cloud AutoML memberikan pilihan yang sesuai untuk melakukan terjemahan yang disasarkan, klasifikasi teks disesuaikan, dan klasifikasi gambar yang disesuaikan. Setiap API ini berfungsi dengan baik jika anda memberikannya data berlabel yang cukup tepat, dan memerlukan lebih sedikit masa dan kemahiran daripada membina model rangkaian neural anda sendiri atau bahkan model pembelajaran transfer anda sendiri. Dengan Google Cloud AutoML, anda sebenarnya mencipta model TensorFlow, tanpa semestinya mengetahui apa-apa mengenai TensorFlow, Python, seni bina rangkaian neural, atau perkakasan latihan.

Terdapat banyak cara untuk membuat persiapan data salah, tetapi untungnya ketiga-tiga API memeriksa kesilapan yang paling biasa, seperti terlalu sedikit atau terlalu banyak contoh untuk kategori apa pun. Diagnostik yang ditunjukkan selepas latihan memberi anda idea yang baik tentang seberapa baik model anda berfungsi, dan anda dapat mengubah model dengan mudah dengan menambahkan lebih banyak data latihan berlabel dan menjalankan semula latihan.

-

Kos: Terjemahan Google Cloud AutoML: Latihan berharga $ 76.00 sejam, terjemahan $ 80 per juta watak selepas 500K pertama. Google Cloud AutoML Natural Language: Latihan berharga $ 3.00 sejam, klasifikasi $ 5 per seribu rekod teks selepas 30K pertama. Google Cloud AutoML Vision: Latihan berharga $ 20 sejam selepas jam pertama, klasifikasi $ 3 per seribu gambar selepas seribu pertama. 

Platform: Platform Awan Google