Apache Eagle mengawasi penggunaan data yang besar

Apache Eagle, yang awalnya dikembangkan di eBay, kemudian disumbangkan kepada Yayasan Perisian Apache, mengisi ceruk keselamatan data besar yang tetap berpenduduk padat, jika tidak telanjang: Ini mengendali kemungkinan masalah keselamatan dan prestasi dengan kerangka data besar.

Untuk melakukannya, Eagle menggunakan komponen sumber terbuka Apache yang lain, seperti Kafka, Spark, dan Storm, untuk menghasilkan dan menganalisis model pembelajaran mesin dari data tingkah laku kumpulan data besar.

Melihat dari dalam

Data untuk Eagle boleh berasal dari log aktiviti untuk pelbagai sumber data (HDFS, Hive, MapR FS, Cassandra) atau dari metrik prestasi yang diambil secara langsung dari kerangka seperti Spark. Data kemudian dapat disalurkan oleh kerangka streaming Kafka ke dalam sistem pengesanan masa nyata yang dibangun dengan Apache Storm atau ke dalam sistem latihan model yang dibangun di atas Apache Spark. Yang pertama untuk menghasilkan amaran dan laporan berdasarkan dasar yang ada; yang terakhir adalah untuk membuat model pembelajaran mesin untuk mendorong dasar baru.

Penekanan pada tingkah laku masa nyata mendahului senarai "kualiti utama" dalam dokumentasi untuk Eagle. Ini diikuti dengan "skalabilitas", "metadata didorong" (artinya perubahan pada kebijakan diterapkan secara automatik ketika metadata mereka diubah), dan "ekstensibilitas." Ini terakhir bermaksud sumber data, sistem amaran, dan enjin polisi yang digunakan oleh Eagle dibekalkan oleh pemalam dan tidak terhad pada apa yang ada di dalam kotak.

Oleh kerana Eagle disatukan dari bahagian dunia Hadoop yang ada, ia mempunyai dua kelebihan teori. Yang pertama, kurang terdapat penemuan semula roda. Dua, mereka yang sudah berpengalaman dengan karya yang bersangkutan akan memiliki kekuatan.

Apa khabar orang saya?

Selain daripada kes penggunaan yang disebutkan di atas seperti menganalisis prestasi kerja dan memantau tingkah laku yang tidak normal, Eagle juga dapat menganalisis tingkah laku pengguna. Ini bukan mengenai, katakanlah, menganalisis data dari aplikasi web untuk mengetahui tentang pengguna awam aplikasi, melainkan pengguna dari kerangka data besar itu sendiri - orang-orang membangun dan mengurus Hadoop atau Spark back end. Contoh bagaimana menjalankan analisis semacam itu disertakan, dan dapat digunakan sebagaimana adanya atau diubah.

Eagle juga membolehkan akses data aplikasi diklasifikasikan mengikut tahap kepekaan. Hanya aplikasi HDFS, Hive, dan HBase yang dapat menggunakan fitur ini sekarang, tetapi interaksinya dengan mereka memberikan model bagaimana sumber data lain juga dapat diklasifikasikan.

Mari jaga perkara ini

Kerana kerangka data besar adalah ciptaan yang bergerak pantas, sukar untuk membina keselamatan yang boleh dipercayai di sekitarnya. Premis Eagle adalah bahawa ia dapat memberikan analisis berdasarkan dasar dan memberi amaran sebagai pelengkap yang mungkin untuk projek lain seperti Apache Ranger. Ranger memberikan pengesahan dan kawalan akses di Hadoop dan teknologinya yang berkaitan; Eagle memberi anda idea tentang apa yang dilakukan orang apabila mereka dibenarkan masuk.

Pertanyaan terbesar yang berlegar di masa depan Eagle - ya, bahkan pada awal ini - adalah sejauh mana vendor Hadoop akan memasukkannya secara elegan ke dalam pengedaran yang ada atau menggunakan tawaran keselamatan mereka sendiri. Keselamatan dan tadbir urus data telah lama menjadi salah satu kekurangan yang boleh ditawarkan oleh persaingan komersial.