Cara memilih platform analisis data

Sama ada anda mempunyai tanggungjawab dalam pembangunan perisian, devops, sistem, awan, automasi ujian, kebolehpercayaan laman web, pasukan scrum terkemuka, infosec, atau bidang teknologi maklumat lain, anda akan mempunyai peluang dan keperluan yang semakin meningkat untuk bekerja dengan data, analisis, dan pembelajaran mesin .

Sorotan Teknologi: Analitis

  • Cara memilih platform analisis data ()
  • 6 amalan terbaik untuk visualisasi data perniagaan (Computerworld)
  • Analisis penjagaan kesihatan: 4 kisah kejayaan (CIO)
  • SD-WAN dan analitik: Perkahwinan yang dibuat untuk yang baru (Dunia Rangkaian)
  • Cara melindungi algoritma sebagai harta intelek (CSO)

Pendedahan anda terhadap analitik mungkin melalui data IT, seperti mengembangkan metrik dan pandangan dari metrik tangkas, devop, atau laman web. Tidak ada cara yang lebih baik untuk mempelajari kemahiran asas dan alat seputar data, analitik, dan pembelajaran mesin daripada menerapkannya pada data yang Anda ketahui dan yang dapat anda tentukan untuk mendapatkan wawasan untuk mendorong tindakan.

Segala-galanya menjadi sedikit lebih rumit setelah anda keluar dari dunia data IT dan memberikan perkhidmatan kepada pasukan saintis data, saintis data warganegara, dan penganalisis perniagaan lain yang melakukan visualisasi data, analisis, dan pembelajaran mesin.

Pertama, data mesti dimuat dan dibersihkan. Kemudian, bergantung pada jumlah, kepelbagaian, dan kecepatan data, anda mungkin akan menemui banyak pangkalan data belakang dan teknologi data awan. Terakhir, selama beberapa tahun terakhir, apa yang menjadi pilihan antara kecerdasan perniagaan dan alat visualisasi data telah berkembang menjadi matriks kompleks analisis kitaran hidup penuh dan platform pembelajaran mesin.

Kepentingan analisis dan pembelajaran mesin meningkatkan tanggungjawab IT dalam beberapa bidang. Sebagai contoh:

  • IT sering menyediakan perkhidmatan di sekitar semua integrasi data, pangkalan data back-end, dan platform analisis.
  • Pasukan Devops sering menyebarkan dan meningkatkan infrastruktur data untuk membolehkan bereksperimen pada model pembelajaran mesin dan kemudian menyokong pemprosesan data pengeluaran.
  • Pasukan operasi rangkaian mewujudkan hubungan selamat antara alat analisis SaaS, multicloud, dan pusat data.
  • Pasukan pengurusan perkhidmatan IT bertindak balas terhadap permintaan dan insiden perkhidmatan data dan analitik.
  • Infosec mengawasi tadbir urus dan pelaksanaan keselamatan data.
  • Pembangun mengintegrasikan model analisis dan pembelajaran mesin ke dalam aplikasi.

Memandangkan ledakan analitik, platform data awan, dan kemampuan pembelajaran mesin, berikut adalah primer untuk lebih memahami kitaran hidup analitik, dari penyatuan dan pembersihan data, hingga dataops dan modelop, ke pangkalan data, platform data, dan penawaran analisis itu sendiri.

Analisis bermula dengan penyatuan data dan pembersihan data

Sebelum penganalisis, saintis data warganegara, atau pasukan sains data dapat melakukan analisis, sumber data yang diperlukan mesti dapat diakses oleh mereka dalam platform visualisasi data dan analisis mereka.

Untuk memulakan, mungkin ada keperluan perniagaan untuk mengintegrasikan data dari beberapa sistem perusahaan, mengekstrak data dari aplikasi SaaS, atau mengalirkan data dari sensor IoT dan sumber data masa nyata yang lain.

Ini adalah semua langkah untuk mengumpulkan, memuat, dan mengintegrasikan data untuk analisis dan pembelajaran mesin. Bergantung pada kerumitan masalah data dan kualiti data, ada peluang untuk terlibat dalam dataops, katalogisasi data, manajemen data induk, dan inisiatif tadbir urus data lain.

Kita semua tahu ungkapan, "sampah masuk, sampah keluar." Penganalisis mesti prihatin terhadap kualiti data mereka, dan saintis data mesti prihatin terhadap bias dalam model pembelajaran mesin mereka. Juga, ketepatan masa mengintegrasikan data baru sangat penting bagi perniagaan yang ingin menjadi lebih berasaskan data masa nyata. Atas sebab-sebab ini, saluran paip yang memuat dan memproses data sangat penting dalam analisis dan pembelajaran mesin.

Pangkalan data dan platform data untuk semua jenis cabaran pengurusan data

Memuat dan memproses data adalah langkah pertama yang perlu, tetapi kemudian perkara menjadi lebih rumit ketika memilih pangkalan data yang optimum. Pilihan hari ini merangkumi gudang data perusahaan, tasik data, platform pemprosesan data besar, dan pangkalan data NoSQL, grafik, nilai kunci, dokumen, dan kolumnar khusus. Untuk menyokong pergudangan data dan analitik berskala besar, terdapat platform seperti Snowflake, Redshift, BigQuery, Vertica, dan Greenplum. Terakhir, terdapat platform data besar, termasuk Spark dan Hadoop.

Perusahaan besar cenderung mempunyai banyak repositori data dan menggunakan platform data awan seperti Platform Data Cloudera atau Platform Data MapR, atau platform orkestrasi data seperti InfoWorks DataFoundy, untuk membuat semua repositori tersebut dapat diakses untuk analisis.

Awan awam utama, termasuk AWS, GCP, dan Azure, semuanya mempunyai platform dan perkhidmatan pengurusan data untuk diselesaikan. Sebagai contoh, Azure Synapse Analytics adalah gudang data SQL Microsoft di awan, sementara Azure Cosmos DB menyediakan antara muka ke banyak kedai data NoSQL, termasuk Cassandra (data kolumnar), MongoDB (data kunci-nilai dan dokumen), dan Gremlin (data grafik) .

Tasik data adalah dermaga pemuatan yang popular untuk memusatkan data tidak terstruktur untuk analisis cepat, dan seseorang dapat memilih dari Azure Data Lake, Amazon S3, atau Google Cloud Storage untuk memenuhi tujuan tersebut. Untuk memproses data besar, awan AWS, GCP, dan Azure semuanya mempunyai persembahan Spark dan Hadoop juga.

Platform analitis mensasarkan pembelajaran dan kolaborasi mesin

Dengan data yang dimuat, dibersihkan, dan disimpan, para saintis dan penganalisis data dapat mula melakukan analisis dan pembelajaran mesin. Organisasi mempunyai banyak pilihan bergantung pada jenis analisis, kemahiran pasukan analitik melakukan kerja, dan struktur data yang mendasari.

Analisis boleh dilakukan dalam alat visualisasi data layan diri seperti Tableau dan Microsoft Power BI. Kedua-dua alat ini menargetkan saintis data warganegara dan memaparkan visualisasi, pengiraan, dan analisis asas. Alat-alat ini menyokong penyatuan data asas dan penyusunan semula data, tetapi pergolakan data yang lebih kompleks sering berlaku sebelum langkah analisis. Tableau Data Prep dan Azure Data Factory adalah alat pendamping untuk membantu mengintegrasikan dan mengubah data.

Pasukan analitik yang ingin mengautomasikan lebih daripada sekadar penyatuan dan persiapan data dapat melihat platform seperti Automasi Proses Analisis Alteryx. Platform kerjasama hujung-ke-hujung ini menghubungkan pemaju, penganalisis, saintis data warganegara, dan saintis data dengan automasi aliran kerja dan pemprosesan data layan diri, analisis, dan kemampuan pemprosesan pembelajaran mesin.

Alan Jacobson, ketua analitik dan pegawai data di Alteryx, menjelaskan, "Kemunculan automatik proses analitik (APA) sebagai kategori menggarisbawahi harapan baru bagi setiap pekerja dalam organisasi untuk menjadi pekerja data. Pembangun IT tidak terkecuali, dan luasnya Platform APA Alteryx sangat berguna untuk pekerja pengetahuan ini. "

Terdapat beberapa alat dan platform yang menyasarkan para saintis data yang bertujuan menjadikannya lebih produktif dengan teknologi seperti Python dan R sambil mempermudah banyak langkah operasi dan infrastruktur. Sebagai contoh, Databricks adalah platform operasi sains data yang membolehkan menyebarkan algoritma ke Apache Spark dan TensorFlow, sambil mengurus sendiri kluster pengkomputeran di awan AWS atau Azure. 

Kini beberapa platform seperti SAS Viya menggabungkan penyediaan data, analisis, ramalan, pembelajaran mesin, analisis teks, dan pengurusan model pembelajaran mesin menjadi satu platform modelop tunggal. SAS mengoperasikan analitik dan mensasarkan saintis data, penganalisis perniagaan, pemaju, dan eksekutif dengan platform kolaborasi ujung ke ujung.

David Duling, pengarah penyelidikan dan pengembangan pengurusan keputusan di SAS, mengatakan, "Kami melihat modelops sebagai praktik membuat saluran operasi berulang yang dapat diaudit untuk menyebarkan semua analisis, termasuk model AI dan ML, ke dalam sistem operasi. Sebagai sebahagian daripada modelop, kita dapat menggunakan amalan devops moden untuk pengurusan kod, pengujian, dan pemantauan. Ini membantu meningkatkan frekuensi dan kebolehpercayaan penggunaan model, yang seterusnya meningkatkan ketangkasan proses perniagaan yang dibangun berdasarkan model-model ini. "

Dataiku adalah platform lain yang berusaha untuk membawa persiapan data, analitik, dan pembelajaran mesin kepada pasukan sains data dan kolaborator mereka. Dataiku mempunyai model pengaturcaraan visual untuk membolehkan kolaborasi dan buku nota kod untuk pembangun SQL dan Python yang lebih maju.

Platform analitik dan pembelajaran mesin lain dari vendor perisian perusahaan terkemuka bertujuan untuk membawa keupayaan analitik ke pusat data dan sumber data awan. Sebagai contoh, Oracle Analytics Cloud dan SAP Analytics Cloud kedua-duanya bertujuan untuk memusatkan kecerdasan dan mengautomasikan pandangan untuk membolehkan keputusan dari hujung ke hujung.

Memilih platform analisis data

Memilih alat integrasi data, pergudangan, dan analisis dulu lebih mudah sebelum munculnya data besar, pembelajaran mesin, dan tata kelola data. Hari ini, terdapat gabungan istilah, kemampuan platform, keperluan operasi, keperluan tadbir urus, dan personaliti pengguna yang disasarkan yang menjadikan pemilihan platform lebih kompleks, terutama kerana banyak vendor menyokong pelbagai paradigma penggunaan. 

Perniagaan berbeza dalam keperluan dan keperluan analitik tetapi harus mencari platform baru dari sudut pandang apa yang sudah ada. Sebagai contoh:

  • Syarikat yang telah berjaya dengan program sains data warganegara dan yang sudah memiliki alat visualisasi data mungkin ingin memperluas program ini dengan automasi proses analisis atau teknologi persiapan data.
  • Syarikat yang mahukan rantai alat yang membolehkan saintis data yang bekerja di pelbagai bahagian perniagaan boleh mempertimbangkan platform analitik ujung ke ujung dengan kemampuan modelops.
  • Organisasi dengan pelbagai, platform data belakang yang berbeza boleh memanfaatkan platform data awan untuk membuat katalog dan menguruskannya secara terpusat.
  • Syarikat yang menyeragamkan semua atau sebahagian besar kemampuan data pada satu vendor awan awam harus menyelidiki integrasi data, pengurusan data, dan platform analisis data yang ditawarkan.

Dengan analitik dan pembelajaran mesin menjadi kecekapan teras penting, teknolog harus mempertimbangkan untuk memperdalam pemahaman mereka mengenai platform dan kemampuan mereka yang ada. Kekuatan dan nilai platform analisis hanya akan meningkat, begitu juga pengaruhnya di seluruh perusahaan.