Apache Spark 3.0 menambah sokongan GPU Nvidia untuk pembelajaran mesin

Apache Spark, kerangka pemprosesan data besar dalam memori, akan menjadi GPU yang dipercepat sepenuhnya dalam penjelmaan 3.0 yang akan segera dikeluarkan. Yang terbaik, aplikasi Spark hari ini dapat memanfaatkan pecutan GPU tanpa pengubahsuaian; API Spark yang ada semuanya berfungsi sebagaimana mestinya.

Komponen pecutan GPU, yang disediakan oleh Nvidia, dirancang untuk melengkapkan semua fasa aplikasi Spark termasuk operasi ETL, latihan pembelajaran mesin, dan penyajian inferensi.

Sumbangan Nvidia Spark menggunakan rangkaian perpustakaan sains data yang dipercepat GPU RAPIDS. Sebilangan besar struktur data dalaman RAPIDS, seperti kerangka data, melengkapkan Spark sendiri, tetapi membuat Spark menggunakan RAPIDS secara semula jadi telah mengambil masa hampir empat tahun bekerja.

Kecepatan Spark 3.0 tidak hanya datang dari pecutan GPU. Spark 3.0 juga mengaut keuntungan prestasi dengan meminimumkan pergerakan data ke dan dari GPU. Apabila data perlu dipindahkan melintasi kluster, kerangka Unified Communication X mematikannya secara langsung dari satu blok memori GPU ke yang lain dengan overhead minimum.

Menurut Nvidia, rilis pratonton Spark 3.0 yang berjalan di platform Databricks menghasilkan peningkatan prestasi tujuh kali ganda ketika menggunakan percepatan GPU, walaupun perincian mengenai beban kerja dan set datanya tidak tersedia. 

Tidak ada tarikh yang pasti untuk ketersediaan umum Spark 3.0. Anda boleh memuat turun siaran pratonton dari laman web projek Apache Spark.