Apa itu analisis data besar? Jawapan pantas dari pelbagai set data

Ada data, dan kemudian ada data besar. Jadi, apa bezanya?

Data besar ditentukan

Definisi data besar yang jelas sukar untuk dijelaskan kerana data besar dapat merangkumi banyak kes penggunaan. Tetapi secara umum istilah ini merujuk kepada kumpulan data yang jumlahnya sangat besar dan begitu kompleks sehingga produk perisian pemprosesan data tradisional tidak mampu menangkap, mengurus, dan memproses data dalam jangka waktu yang wajar.

Kumpulan data besar ini dapat merangkumi data terstruktur, tidak terstruktur, dan semi-terstruktur, masing-masing dapat ditambang untuk mendapatkan pandangan.

Berapa banyak data yang sebenarnya "besar" terbuka untuk diperdebatkan, tetapi biasanya dapat dalam jumlah petabyte — dan untuk projek terbesar dalam rentang exabyte.

Selalunya, data besar dicirikan oleh tiga V:

  • jumlah data yang melampau
  • yang luas pelbagai jenis data
  • yang halaju pada yang memerlukan data untuk diproses dan dianalisis

Data yang merupakan kedai data besar dapat berasal dari sumber yang merangkumi laman web, media sosial, aplikasi desktop dan mudah alih, eksperimen saintifik, dan — semakin banyak — sensor dan peranti lain di internet sesuatu (IoT).

Konsep data besar dilengkapi dengan sekumpulan komponen yang berkaitan yang membolehkan organisasi menggunakan data tersebut untuk penggunaan praktikal dan menyelesaikan sejumlah masalah perniagaan. Ini termasuk infrastruktur IT yang diperlukan untuk menyokong teknologi data besar, analisis yang diterapkan pada data; platform data besar yang diperlukan untuk projek, set kemahiran yang berkaitan, dan kes penggunaan sebenar yang masuk akal untuk data besar.

Apa itu analisis data?

Yang benar-benar memberikan nilai dari semua organisasi data besar yang dikumpulkan adalah analisis yang diterapkan pada data. Tanpa analisis, yang melibatkan pemeriksaan data untuk mengetahui corak, korelasi, pandangan, dan arah aliran, data tersebut hanyalah sekumpulan data dan angka nol dengan penggunaan perniagaan yang terhad.

Dengan menerapkan analisis pada data besar, perusahaan dapat melihat keuntungan seperti peningkatan penjualan, peningkatan layanan pelanggan, kecekapan yang lebih besar, dan peningkatan daya saing secara keseluruhan.

Analisis data melibatkan pemeriksaan set data untuk mendapatkan pandangan atau membuat kesimpulan tentang apa yang terdapat di dalamnya, seperti trend dan ramalan mengenai aktiviti masa depan.

Dengan menganalisis maklumat menggunakan alat analisis data besar, organisasi dapat membuat keputusan perniagaan yang lebih tepat seperti kapan dan di mana menjalankan kempen pemasaran atau memperkenalkan produk atau perkhidmatan baru.

Analitis boleh merujuk kepada aplikasi kecerdasan perniagaan asas atau analisis ramalan yang lebih maju seperti yang digunakan oleh organisasi saintifik. Antara jenis analisis data yang paling maju adalah perlombongan data, di mana penganalisis menilai set data yang besar untuk mengenal pasti hubungan, corak, dan trend.

Analisis data boleh merangkumi analisis data eksploratori (untuk mengenal pasti corak dan hubungan dalam data) dan analisis data pengesahan (menerapkan teknik statistik untuk mengetahui sama ada anggapan mengenai set data tertentu adalah benar.

Perbezaan lain adalah analisis data kuantitatif (atau analisis data berangka yang mempunyai pemboleh ubah yang dapat diukur yang dapat dibandingkan secara statistik) berbanding analisis data kualitatif (yang memfokuskan pada data bukan angka seperti video, gambar, dan teks).

Infrastruktur IT untuk menyokong data besar

Agar konsep data besar dapat berfungsi, organisasi perlu menyediakan infrastruktur untuk mengumpulkan dan menyimpan data, menyediakan akses ke dalamnya, dan melindungi maklumat semasa penyimpanan dan transit. Ini memerlukan penggunaan alat analisis data besar.

Pada tahap yang tinggi, ini termasuk sistem penyimpanan dan pelayan yang dirancang untuk data besar, perisian pengurusan dan integrasi data, kecerdasan perniagaan dan perisian analisis data, dan aplikasi data besar.

Sebilangan besar infrastruktur ini kemungkinan akan berada di tempat, kerana syarikat ingin terus memanfaatkan pelaburan pusat data mereka. Tetapi organisasi semakin bergantung pada perkhidmatan pengkomputeran awan untuk menangani banyak keperluan data besar mereka.

Pengumpulan data memerlukan sumber untuk mengumpulkan data. Sebilangan besar - seperti aplikasi web, saluran media sosial, aplikasi mudah alih, dan arkib e-mel - sudah ada Tetapi ketika IoT menjadi kuat, syarikat mungkin perlu menggunakan sensor pada semua jenis perangkat, kenderaan, dan produk untuk mengumpulkan data, serta aplikasi baru yang menghasilkan data pengguna. (Analisis data besar berorientasikan IoT mempunyai teknik dan alat tersendiri.)

Untuk menyimpan semua data yang masuk, organisasi perlu mempunyai simpanan data yang mencukupi. Antara pilihan penyimpanan adalah gudang data tradisional, tasik data, dan penyimpanan berasaskan awan.

Alat infrastruktur keselamatan mungkin merangkumi enkripsi data, pengesahan pengguna dan kawalan akses lain, sistem pemantauan, firewall, pengurusan mobiliti perusahaan, dan produk lain untuk melindungi sistem dan data,

Teknologi data besar

Sebagai tambahan kepada infrastruktur IT sebelumnya yang digunakan untuk data secara umum. Terdapat beberapa teknologi khusus untuk data besar yang harus disokong oleh infrastruktur IT anda.

Ekosistem Hadoop

Hadoop adalah salah satu teknologi yang sangat berkaitan dengan data besar. Projek Apache Hadoop mengembangkan perisian sumber terbuka untuk pengkomputeran yang diedarkan dan diskalakan.

Perpustakaan perisian Hadoop adalah kerangka yang memungkinkan pemprosesan set data besar yang diedarkan di sekumpulan komputer menggunakan model pengaturcaraan sederhana. Ia dirancang untuk meningkatkan dari pelayan tunggal hingga ribuan, masing-masing menawarkan pengiraan dan penyimpanan tempatan.

Projek ini merangkumi beberapa modul:

  • Hadoop Common, utiliti biasa yang menyokong modul Hadoop lain
  • Sistem Fail Terdistribusi Hadoop, yang menyediakan akses throughput tinggi ke data aplikasi
  • Hadoop YARN, kerangka kerja penjadualan pekerjaan dan pengurusan sumber kelompok
  • Hadoop MapReduce, sistem berasaskan YARN untuk pemprosesan selari set data yang besar.

Apache Spark

Sebagai bagian dari ekosistem Hadoop, Apache Spark adalah kerangka pengkomputeran kluster sumber terbuka yang berfungsi sebagai mesin untuk memproses data besar dalam Hadoop. Spark telah menjadi salah satu kerangka pemprosesan diedarkan data besar utama, dan dapat digunakan dengan berbagai cara. Ini menyediakan pengikat asli untuk Java, Scala, Python (terutama distro Anaconda Python), dan bahasa pengaturcaraan R (R sangat sesuai untuk data besar), dan ia menyokong SQL, streaming data, pembelajaran mesin, dan pemrosesan grafik.

Data tasik

Data tasik adalah repositori penyimpanan yang menyimpan data mentah dalam jumlah yang sangat besar dalam format asalnya sehingga data tersebut diperlukan oleh pengguna perniagaan. Membantu pertumbuhan pertumbuhan tasik data adalah inisiatif transformasi digital dan pertumbuhan IoT. Data tasik dirancang untuk memudahkan pengguna mengakses sejumlah besar data apabila diperlukan.

Pangkalan data NoSQL

Pangkalan data SQL konvensional direka untuk transaksi yang boleh dipercayai dan pertanyaan ad hoc, tetapi ia dilengkapi dengan sekatan seperti skema tegar yang menjadikannya kurang sesuai untuk beberapa jenis aplikasi. Pangkalan data NoSQL menangani batasan tersebut, dan menyimpan dan mengurus data dengan cara yang memungkinkan kelajuan operasi yang tinggi dan fleksibiliti yang tinggi. Banyak yang dikembangkan oleh syarikat yang mencari cara yang lebih baik untuk menyimpan kandungan atau memproses data untuk laman web besar-besaran. Tidak seperti pangkalan data SQL, banyak pangkalan data NoSQL dapat diskalakan secara mendatar di ratusan atau ribuan pelayan.

Pangkalan data dalam memori

Pangkalan data dalam memori (IMDB) adalah sistem pengurusan pangkalan data yang terutama bergantung pada memori utama, bukan cakera, untuk penyimpanan data. Pangkalan data dalam memori lebih cepat daripada pangkalan data yang dioptimumkan cakera, pertimbangan penting untuk penggunaan analisis data besar dan pembuatan gudang data dan data mart.

Kemahiran data besar

Usaha analitik data besar dan data besar memerlukan kemahiran khusus, sama ada berasal dari dalam organisasi atau melalui pakar luar.

Sebilangan besar kemahiran ini berkaitan dengan komponen teknologi data utama yang penting, seperti pangkalan data Hadoop, Spark, NoSQL, pangkalan data dalam memori, dan perisian analisis.

Yang lain khusus untuk disiplin seperti sains data, perlombongan data, analisis statistik dan kuantitatif, visualisasi data, pengaturcaraan tujuan umum, dan struktur data dan algoritma. Terdapat juga keperluan bagi orang yang mempunyai kemahiran pengurusan keseluruhan untuk melihat projek data besar hingga selesai.

Memandangkan seberapa besar projek analisis data besar telah menjadi dan kekurangan orang dengan jenis kemahiran ini, mencari profesional yang berpengalaman mungkin merupakan salah satu cabaran terbesar bagi organisasi.

Kes penggunaan analisis data yang besar

Data dan analitik yang besar dapat diterapkan pada banyak masalah perniagaan dan kes penggunaan. Berikut adalah beberapa contoh:

  • Analisis pelanggan. Syarikat dapat memeriksa data pelanggan untuk meningkatkan pengalaman pelanggan, meningkatkan kadar penukaran, dan meningkatkan pengekalan.
  • Analisis operasi. Meningkatkan prestasi operasi dan memanfaatkan aset korporat dengan lebih baik adalah matlamat banyak syarikat. Alat analisis data yang besar dapat membantu perniagaan mencari jalan untuk beroperasi dengan lebih cekap dan meningkatkan prestasi.
  • Pencegahan penipuan. Alat dan analisis data yang besar dapat membantu organisasi mengenal pasti aktiviti dan corak yang mencurigakan yang mungkin menunjukkan tingkah laku penipuan dan mengurangkan risiko.
  • Pengoptimuman harga. Syarikat boleh menggunakan analisis data besar untuk mengoptimumkan harga yang mereka kenakan untuk produk dan perkhidmatan, membantu meningkatkan pendapatan.