Peranan sains data hari ini tidak akan wujud dalam 10 tahun

Dalam dekad yang akan datang, peranan saintis data seperti yang kita ketahui akan kelihatan sangat berbeza daripada yang ada sekarang. Tetapi jangan risau, tidak ada yang meramalkan kehilangan pekerjaan, hanya mengubah pekerjaan.

Para saintis data akan baik-baik saja - menurut Biro Statistik Tenaga Kerja, peranannya masih diproyeksikan akan berkembang pada klip yang lebih tinggi daripada rata-rata hingga tahun 2029. Tetapi kemajuan dalam teknologi akan menjadi dorongan untuk perubahan besar dalam tanggungjawab saintis data dan dalam cara perniagaan mendekati analisis secara keseluruhan. Dan alat AutoML, yang membantu mengautomasikan saluran pembelajaran mesin dari data mentah ke model yang dapat digunakan, akan memimpin revolusi ini.

Dalam 10 tahun, saintis data akan mempunyai set kemahiran dan alat yang sama sekali berbeza, tetapi fungsinya akan tetap sama: berfungsi sebagai panduan teknologi yang yakin dan kompeten yang dapat memahami data yang kompleks untuk menyelesaikan masalah perniagaan.

AutoML mendemokrasikan sains data

Sehingga baru-baru ini, algoritma dan proses pembelajaran mesin hampir secara eksklusif merupakan domain peranan sains data yang lebih tradisional — yang mempunyai pendidikan formal dan peringkat lanjutan, atau bekerja untuk syarikat teknologi besar. Saintis data telah memainkan peranan yang tidak ternilai dalam setiap bahagian spektrum pengembangan pembelajaran mesin. Tetapi pada waktunya, peranan mereka akan menjadi lebih kolaboratif dan strategik. Dengan alat seperti AutoML untuk mengautomasikan beberapa kemahiran akademik mereka yang lebih banyak, saintis data dapat menumpukan perhatian untuk membimbing organisasi ke arah penyelesaian masalah perniagaan melalui data.

Dalam banyak cara, ini kerana AutoML mendemokrasikan usaha menerapkan pembelajaran mesin. Vendor dari startup hingga cloud hyperscalers telah melancarkan penyelesaian yang cukup mudah untuk digunakan oleh para pembangun dan bereksperimen tanpa halangan pendidikan atau pengalaman yang besar untuk masuk. Begitu juga, beberapa aplikasi AutoML cukup intuitif dan sederhana sehingga pekerja bukan teknikal dapat berusaha mencari penyelesaian masalah di jabatan mereka sendiri - mewujudkan "saintis data warganegara" macam-macam dalam organisasi.

Untuk meneroka kemungkinan jenis alat ini dapat dibuka untuk kedua-dua pembangun dan saintis data, pertama-tama kita harus memahami keadaan sains data semasa kerana ia berkaitan dengan pengembangan pembelajaran mesin. Paling mudah difahami ketika diletakkan pada skala kematangan.

Organisasi dan perniagaan yang lebih kecil dengan peranan yang lebih tradisional yang bertanggungjawab dalam transformasi digital (iaitu, bukan saintis data terlatih secara klasik) biasanya jatuh pada skala ini. Sekarang ini, mereka adalah pelanggan terbesar untuk aplikasi pembelajaran mesin di luar kotak, yang lebih ditujukan kepada penonton yang tidak terbiasa dengan selok-belok pembelajaran mesin.

  • Kelebihan: Aplikasi turnkey ini cenderung mudah dilaksanakan, dan agak murah dan mudah digunakan. Bagi syarikat yang lebih kecil dengan proses yang sangat spesifik untuk mengotomatisasi atau memperbaiki, kemungkinan terdapat beberapa pilihan yang dapat dilaksanakan di pasaran. Kekangan masuk yang rendah menjadikan aplikasi ini sempurna untuk saintis data yang memasuki pembelajaran mesin untuk pertama kalinya. Kerana beberapa aplikasi sangat intuitif, mereka bahkan memberi peluang kepada pekerja bukan teknikal untuk bereksperimen dengan automasi dan kemampuan data canggih — berpotensi memperkenalkan kotak pasir yang berharga ke dalam organisasi.
  • Kekurangan: Kelas aplikasi pembelajaran mesin ini sangat tidak fleksibel. Walaupun mudah diimplementasikan, tidak mudah disesuaikan. Oleh itu, tahap ketepatan tertentu mungkin mustahil untuk aplikasi tertentu. Selain itu, aplikasi ini dapat dibatasi dengan ketergantungan pada model dan data yang telah dilatih. 

Contoh aplikasi ini termasuk Amazon Comprehend, Amazon Lex, dan Amazon Forecast dari Amazon Web Services dan Azure Speech Services dan Azure Language Understanding (LUIS) dari Microsoft Azure. Alat-alat ini seringkali cukup mencukupi bagi para saintis data yang sedang berkembang untuk mengambil langkah pertama dalam pembelajaran mesin dan mengarahkan organisasi mereka ke bawah spektrum kematangan.

Penyelesaian yang boleh disesuaikan dengan AutoML

Organisasi dengan set data yang besar namun agak umum — berpendapat data transaksi pelanggan atau metrik e-mel pemasaran — memerlukan lebih banyak fleksibiliti ketika menggunakan pembelajaran mesin untuk menyelesaikan masalah. Masukkan AutoML. AutoML mengambil langkah aliran kerja pembelajaran mesin manual (penemuan data, analisis data eksploratori, penalaan hyperparameter, dll.) Dan memadatkannya ke dalam timbunan yang dapat dikonfigurasi.

  • Kelebihan: Aplikasi AutoML membolehkan lebih banyak eksperimen dijalankan pada data di ruang yang lebih besar. Tetapi kuasa besar AutoML yang sebenarnya adalah kebolehaksesan - konfigurasi khusus dapat dibina dan input dapat diperbaiki dengan mudah. Terlebih lagi, AutoML tidak dibuat secara eksklusif dengan para saintis data sebagai penonton. Pembangun juga boleh bermain dengan mudah di dalam kotak pasir untuk memasukkan elemen pembelajaran mesin ke dalam produk atau projek mereka sendiri.
  • Kekurangan: Walaupun sudah dekat, batasan AutoML bermaksud ketepatan dalam output akan sukar disempurnakan. Oleh kerana itu, saintis data pemegangan kad, pemegang kad sering melihat aplikasi yang dibina dengan bantuan AutoML - walaupun hasilnya cukup tepat untuk menyelesaikan masalah yang dihadapi.

Contoh aplikasi ini termasuk Amazon SageMaker AutoPilot atau Google Cloud AutoML. Para saintis data sedekad dari sekarang pasti perlu memahami alat seperti ini. Seperti pembangun yang mahir dalam banyak bahasa pengaturcaraan, para saintis data perlu mempunyai kemahiran dengan pelbagai persekitaran AutoML agar dapat dianggap sebagai bakat terbaik.

Penyelesaian pembelajaran mesin "hand-rolled" dan homegrown 

Perniagaan berskala perusahaan terbesar dan syarikat Fortune 500 adalah di mana sebahagian besar aplikasi pembelajaran mesin maju dan proprietari sedang dikembangkan. Para saintis data di organisasi ini adalah sebahagian daripada pasukan besar yang menyempurnakan algoritma pembelajaran mesin menggunakan banyak data syarikat bersejarah, dan membangun aplikasi ini dari awal. Aplikasi khusus seperti ini hanya dapat dilakukan dengan sumber dan bakat yang besar, itulah sebabnya hasil dan risikonya sangat besar.

  • Kelebihan: Seperti mana-mana aplikasi yang dibina dari awal, pembelajaran mesin kustom adalah "canggih" dan dibina berdasarkan pemahaman mendalam tentang masalah yang dihadapi. Ia juga lebih tepat - jika hanya dengan margin kecil - daripada AutoML dan penyelesaian pembelajaran mesin di luar kotak.
  • Kekurangan: Mendapatkan aplikasi pembelajaran mesin khusus untuk mencapai ambang ketepatan tertentu boleh menjadi sangat sukar, dan sering memerlukan peningkatan berat oleh pasukan saintis data. Selain itu, pilihan pembelajaran mesin tersuai adalah paling memakan masa dan paling mahal untuk dikembangkan.

Contoh penyelesaian pembelajaran mesin gulung tangan adalah bermula dengan buku nota Jupyter kosong, mengimport data secara manual, dan kemudian melakukan setiap langkah dari analisis data eksplorasi melalui penalaan model dengan tangan. Ini sering dicapai dengan menulis kod tersuai menggunakan kerangka pembelajaran mesin sumber terbuka seperti Scikit-learn, TensorFlow, PyTorch, dan banyak lagi yang lain. Pendekatan ini memerlukan tahap pengalaman dan intuisi yang tinggi, tetapi dapat menghasilkan hasil yang sering mengungguli kedua-dua perkhidmatan pembelajaran mesin turnkey dan AutoML.

Alat seperti AutoML akan mengalihkan peranan dan tanggungjawab sains data dalam tempoh 10 tahun akan datang. AutoML mengambil beban mengembangkan pembelajaran mesin dari awal para saintis data, dan sebaliknya meletakkan kemungkinan teknologi pembelajaran mesin secara langsung di tangan penyelesai masalah lain. Dengan masa yang terluang untuk fokus pada apa yang mereka ketahui - data dan input sendiri - saintis data satu dekad dari sekarang akan berfungsi sebagai panduan yang lebih berharga untuk organisasi mereka.

Eric Miller berperanan sebagai pengarah kanan strategi teknikal di Rackspace, di mana dia memberikan kepemimpinan perunding strategik dengan rekod prestasi latihan yang terbukti dalam ekosistem Rangkaian Rakan Amazon (APN). Pemimpin teknologi yang berjaya dengan 20 tahun kejayaan yang terbukti dalam perusahaan IT, Eric telah memimpin beberapa inisiatif seni bina AWS dan penyelesaian, termasuk Program Rakan Penilaian AWS Well Architected Framework (WAF), Amazon EC2 untuk Program Penyampaian Perkhidmatan AWS Windows Server, dan pelbagai AWS menulis semula untuk organisasi berbilion-bilion dolar.

-

Forum Teknologi Baru menyediakan tempat untuk meneroka dan membincangkan teknologi perusahaan yang baru muncul dalam kedalaman dan luas yang belum pernah terjadi sebelumnya. Pemilihannya bersifat subjektif, berdasarkan pilihan teknologi yang kami percayai penting dan menarik minat pembaca. tidak menerima jaminan pemasaran untuk penerbitan dan berhak untuk mengedit semua kandungan yang disumbangkan. Hantarkan semua pertanyaan ke [email protected]