6 hambatan tersembunyi dalam penghijrahan data awan

Seth Noble adalah pengasas dan presiden Ekspedisi Data.

Memindahkan terabyte atau bahkan petabyte data ke cloud adalah tugas yang menakutkan. Tetapi penting untuk melihat melebihi jumlah bait. Anda mungkin tahu bahawa aplikasi anda akan berkelakuan berbeza ketika diakses di awan, struktur kosnya akan berbeza (semoga lebih baik), dan memerlukan masa untuk memindahkan semua data tersebut.

Kerana syarikat saya, Data Expedition, menjalankan perniagaan pemindahan data berprestasi tinggi, pelanggan datang kepada kami ketika mereka mengharapkan kelajuan rangkaian menjadi masalah. Tetapi dalam proses menolong syarikat mengatasi masalah itu, kita telah melihat banyak faktor lain yang mengancam untuk menggagalkan migrasi awan jika dibiarkan.

Mengumpulkan, mengatur, memformat, dan mengesahkan data anda dapat memberikan cabaran yang jauh lebih besar daripada memindahkannya. Berikut adalah beberapa faktor umum yang perlu dipertimbangkan dalam peringkat perancangan migrasi awan, jadi anda dapat mengelakkan masalah yang memakan masa dan mahal kemudian.

Hambatan penghijrahan awan # 1: Penyimpanan data

Kesalahan yang paling biasa kita lihat dalam migrasi awan adalah memasukkan data ke penyimpanan awan tanpa mempertimbangkan bagaimana data tersebut akan digunakan. Proses pemikiran khas adalah, "Saya ingin meletakkan dokumen dan pangkalan data saya di awan dan penyimpanan objek adalah murah, jadi saya akan meletakkan fail dokumen dan pangkalan data saya di sana." Tetapi fail, objek, dan pangkalan data berkelakuan sangat berbeza. Memasukkan byte anda ke salah boleh melumpuhkan rancangan awan anda.

Fail disusun oleh hierarki jalan, pokok direktori. Setiap fail dapat diakses dengan cepat, dengan latensi minimum (waktu hingga bait pertama) dan kelajuan tinggi (bit per saat setelah data mulai mengalir). Fail individu dapat dipindahkan, diganti nama, dan ditukar ke tingkat bait dengan mudah. Anda boleh mempunyai banyak fail kecil, sebilangan kecil fail besar, atau campuran ukuran dan jenis data. Aplikasi tradisional dapat mengakses fail di awan seperti yang mereka lakukan di tempat, tanpa kesedaran awan khas.

Semua kelebihan ini menjadikan penyimpanan berasaskan fail sebagai pilihan paling mahal, tetapi menyimpan fail di awan mempunyai beberapa kelemahan lain. Untuk mencapai prestasi tinggi, kebanyakan sistem fail berasaskan awan (seperti Amazon EBS) dapat diakses oleh hanya satu mesin maya berasaskan awan pada satu masa, yang bermaksud semua aplikasi yang memerlukan data tersebut mesti dijalankan pada satu VM awan. Untuk melayani beberapa VM (seperti Azure Files) memerlukan penyebaran penyimpanan dengan protokol NAS (penyimpanan yang dilampirkan rangkaian) seperti SMB, yang dapat membatasi prestasi. Sistem fail cepat, fleksibel, dan serasi dengan warisan, tetapi ia mahal, hanya berguna untuk aplikasi yang berjalan di awan, dan tidak berskala dengan baik.

Objek bukan fail. Ingatlah itu, kerana senang dilupakan. Objek tinggal di ruang nama yang rata, seperti satu direktori raksasa. Latensi tinggi, kadang-kadang beratus-ratus atau ribuan milisaat, dan throughputnya rendah, sering melebihi 150 megabit sesaat kecuali muslihat pintar digunakan. Banyak mengenai mengakses objek datang ke trik pintar seperti muat naik berbilang bahagian, akses julat bait, dan pengoptimuman nama kunci. Objek dapat dibaca oleh banyak aplikasi berbasis cloud dan web berdasarkan sekaligus, dari dalam dan luar awan, tetapi aplikasi tradisional memerlukan penyelesaian yang melumpuhkan prestasi. Sebilangan besar antara muka untuk mengakses penyimpanan objek menjadikan objek kelihatan seperti fail: nama kunci disaring oleh awalan agar kelihatan seperti folder, metadata khusus dilampirkan ke objek untuk muncul seperti metadata fail,dan beberapa sistem seperti objek cache FUSE pada sistem fail VM untuk membenarkan akses oleh aplikasi tradisional. Tetapi penyelesaian seperti itu adalah prestasi rapuh dan getah. Penyimpanan awan murah, berskala, dan asli awan, tetapi juga lambat dan sukar diakses.

Pangkalan data mempunyai strukturnya yang rumit, dan mereka diakses oleh bahasa pertanyaan seperti SQL. Pangkalan data tradisional mungkin disokong oleh penyimpanan fail, tetapi memerlukan proses pangkalan data langsung untuk melayani pertanyaan. Ini dapat diangkat ke awan dengan menyalin file dan aplikasi pangkalan data ke VM, atau dengan memindahkan data ke dalam perkhidmatan pangkalan data yang dihosting awan. Tetapi menyalin fail pangkalan data ke penyimpanan objek hanya berguna sebagai sandaran luar talian. Skala pangkalan data juga merupakan sebahagian daripada perkhidmatan yang dihoskan oleh awan, tetapi sangat penting untuk memastikan bahawa aplikasi dan proses yang bergantung pada pangkalan data sepenuhnya serasi dan asli awan. Penyimpanan pangkalan data sangat khusus dan khusus untuk aplikasi.

Mengimbangi penjimatan kos penyimpanan objek dengan fungsi fail dan pangkalan data yang jelas memerlukan pertimbangan yang teliti mengenai fungsi apa yang diperlukan. Sebagai contoh, jika anda ingin menyimpan dan mengedarkan beribu-ribu fail kecil, arkibkannya ke dalam fail ZIP dan simpan sebagai satu objek dan bukannya cuba menyimpan setiap fail individu sebagai objek yang berasingan. Pilihan penyimpanan yang tidak betul boleh menyebabkan kebergantungan kompleks yang sukar dan mahal untuk diubah kemudian.

Hambatan penghijrahan awan # 2: Penyediaan data

Memindahkan data ke awan tidak semudah menyalin bait ke jenis penyimpanan yang ditentukan. Banyak persiapan perlu dilakukan sebelum sesuatu disalin, dan masa itu memerlukan penganggaran yang teliti. Projek bukti konsep sering mengabaikan langkah ini, yang boleh mengakibatkan perbelanjaan yang mahal kemudian.

Menyaring data yang tidak diperlukan dapat menjimatkan banyak masa dan kos penyimpanan. Sebagai contoh, satu set data mungkin mengandungi sandaran, versi sebelumnya, atau fail calar yang tidak perlu menjadi sebahagian daripada aliran kerja awan. Mungkin bahagian penapisan yang paling penting adalah mengutamakan data mana yang perlu dipindahkan terlebih dahulu. Data yang digunakan secara aktif tidak akan bertoleransi tidak selaras dengan minggu, bulan, atau tahun yang diperlukan untuk menyelesaikan keseluruhan proses migrasi. Kuncinya di sini adalah dengan mencari kaedah automatik untuk memilih data mana yang akan dihantar dan kapan, kemudian simpanlah dengan teliti segala yang ada dan yang tidak dilakukan.

Aliran kerja awan yang berbeza mungkin memerlukan data dalam format atau organisasi yang berbeza daripada aplikasi di tempat. Sebagai contoh, aliran kerja undang-undang mungkin memerlukan menterjemahkan ribuan dokumen Word atau PDF kecil dan membungkusnya dalam fail ZIP, aliran kerja media mungkin melibatkan transkoding dan pembungkusan metadata, dan aliran kerja bioinformatika mungkin memerlukan pengambilan dan penstabilan terabyte data genomik. Pemformatan semula ini boleh menjadi proses yang sangat manual dan memakan masa. Ia mungkin memerlukan banyak percubaan, banyak penyimpanan sementara, dan banyak pengendalian pengecualian. Kadang-kadang menggoda untuk menangguhkan pemformatan semula ke lingkungan awan, tetapi ingat bahawa ini tidak menyelesaikan masalah, ia hanya beralih ke persekitaran di mana setiap sumber yang anda gunakan mempunyai harga.

Sebahagian daripada soalan penyimpanan dan pemformatan mungkin melibatkan keputusan mengenai pemampatan dan pengarkiban. Sebagai contoh, masuk akal untuk ZIP berjuta-juta fail teks kecil sebelum menghantarnya ke awan, tetapi bukan sebilangan kecil fail media multi-gigabait. Pengarkiban dan pemampatan data menjadikannya lebih mudah untuk memindahkan dan menyimpan data, tetapi pertimbangkan masa dan ruang penyimpanan yang diperlukan untuk mengemas dan membongkar arkib tersebut di kedua hujungnya.

Hambatan penghijrahan awan # 3: Pengesahan maklumat

Pemeriksaan integriti adalah satu-satunya langkah terpenting, dan juga yang paling mudah untuk salah. Seringkali diasumsikan bahawa korupsi akan terjadi selama pengangkutan data, baik itu melalui media fizikal atau pemindahan jaringan, dan dapat ditangkap dengan melakukan pemeriksaan sebelum dan sesudahnya. Checksum adalah bahagian penting dari proses ini, tetapi sebenarnya penyediaan dan pengimportan data di mana anda kemungkinan besar mengalami kerugian atau kerosakan.

Apabila data beralih format dan aplikasi, makna dan fungsi dapat hilang walaupun baitnya sama. Ketidaksesuaian yang sederhana antara versi perisian boleh menjadikan petabyte "betul" data tidak berguna. Membuat proses yang dapat diskalakan untuk mengesahkan bahawa data anda betul dan boleh digunakan boleh menjadi tugas yang menakutkan. Paling parah, ia mungkin berubah menjadi proses manual yang padat karya dan tidak tepat "nampaknya baik bagi saya." Tetapi itu lebih baik daripada tidak ada pengesahan sama sekali. Perkara yang paling penting adalah memastikan anda dapat mengenali masalah sebelum sistem warisan dinyahaktifkan!

Hambatan penghijrahan awan # 4: Transfer marshaling

Semasa mengangkat satu sistem ke awan, agak mudah untuk hanya menyalin data yang disiapkan ke media fizikal atau mendorongnya ke seluruh Internet. Tetapi proses ini sukar dilakukan, terutamanya untuk media fizikal. Apa yang tampak "sederhana" dalam konsep bukti dapat menjadi "mimpi ngeri" ketika banyak dan beragam sistem ikut bermain.

Peranti media, seperti Bola Salji AWS, mesti disambungkan ke setiap mesin. Ini boleh bermaksud berjalan secara fizikal peranti di sekitar satu atau lebih pusat data, menyulap penyambung, mengemas kini pemandu, dan memasang perisian. Menyambungkan melalui rangkaian tempatan menjimatkan pergerakan fizikal, tetapi penyediaan perisian masih boleh mencabar dan kelajuan penyalinan dapat turun jauh di bawah yang dapat dicapai dengan muat naik Internet langsung. Memindahkan data secara langsung dari setiap mesin melalui Internet akan menjimatkan banyak langkah, terutama jika data siap digunakan.

Sekiranya penyediaan data melibatkan penyalinan, pengeksportan, pemformatan ulang, atau pengarkiban, penyimpanan tempatan dapat menjadi hambatan. Mungkin diperlukan untuk menyiapkan penyimpanan khusus untuk menyusun data yang disiapkan. Ini mempunyai kelebihan untuk membolehkan banyak sistem melakukan persiapan secara selari, dan mengurangkan titik hubungan media dan perisian pemindahan data yang dapat dihantar kepada hanya satu sistem.

Hambatan penghijrahan awan # 5: Pemindahan data

Semasa membandingkan pemindahan rangkaian dengan penghantaran media, mudah untuk memusatkan perhatian hanya pada waktu penghantaran. Sebagai contoh, peranti Snowball 80 terabyte mungkin dihantar oleh kurir pada hari berikutnya, mencapai kadar data yang jelas lebih dari lapan gigabit sesaat. Tetapi ini mengabaikan masa yang diperlukan untuk memperoleh peranti, mengkonfigurasi dan memuatkannya, menyiapkannya untuk dikembalikan, dan membiarkan vendor awan menyalin data di bahagian belakang. Pelanggan kami yang melakukan ini secara berkala melaporkan bahawa masa pemulihan empat minggu (dari pesanan peranti ke data yang tersedia di awan) adalah perkara biasa. Itu menjadikan kadar pemindahan data sebenar penghantaran peranti menjadi hanya 300 megabit sesaat, lebih kurang jika peranti tidak diisi sepenuhnya.

Kelajuan pemindahan rangkaian juga bergantung pada beberapa faktor, yang paling utama adalah uplink tempatan. Anda tidak dapat mengirim data lebih cepat daripada kadar bit fizikal, walaupun penyediaan data yang teliti dapat mengurangkan jumlah data yang perlu anda hantar. Protokol lama, termasuk yang digunakan oleh vendor awan secara lalai untuk penyimpanan objek, mengalami kepantasan dengan kelajuan dan kebolehpercayaan merentasi jalur Internet jarak jauh, yang dapat menjadikan pencapaian kadar bit itu sukar. Saya boleh menulis banyak artikel mengenai cabaran yang dihadapi di sini, tetapi ini adalah satu perkara yang tidak perlu anda selesaikan sendiri. Ekspedisi Data adalah salah satu dari beberapa syarikat yang mengkhususkan diri dalam memastikan jalan tersebut digunakan sepenuhnya tanpa mengira seberapa jauh data anda dari destinasi awannya. Sebagai contoh, satu sambungan Internet gigabit dengan perisian pecutan seperti CloudDat menghasilkan 900 megabit sesaat,tiga kali hasil bersih bola salji AWS.

Perbezaan terbesar antara penghantaran fizikal dan pemindahan rangkaian juga merupakan salah satu yang paling sering diabaikan semasa konsep bukti. Dengan penghantaran fizikal, bait pertama yang anda muatkan ke peranti mesti menunggu sehingga bait terakhir dimuat sebelum anda dapat menghantar. Ini bermaksud bahawa jika memerlukan beberapa minggu untuk memuatkan peranti, beberapa data anda akan menjadi minggu yang sudah usang pada saat ia tiba di awan. Walaupun set data mencapai tahap petabyte di mana penghantaran fizikal mungkin lebih cepat dari keseluruhannya, kemampuan untuk mengekalkan data keutamaan semasa proses migrasi masih dapat memihak kepada pemindahan rangkaian untuk aset utama. Perancangan yang teliti semasa fasa penyaringan dan keutamaan penyediaan data sangat penting, dan mungkin memungkinkan untuk pendekatan hibrid.

Mendapatkan data ke penyedia awan mungkin bukan akhir dari langkah pemindahan data. Sekiranya perlu ditiru ke beberapa wilayah atau penyedia, rencanakan dengan teliti bagaimana ia akan sampai ke sana. Muat naik melalui Internet adalah percuma, sementara AWS, misalnya, mengenakan bayaran sehingga dua sen per gigabait untuk pemindahan data antara wilayah dan sembilan sen per gigabait untuk pemindahan ke vendor awan lain. Kedua-dua kaedah tersebut akan menghadapi had lebar jalur yang boleh memanfaatkan percepatan pengangkutan seperti CloudDat.

Hambatan penghijrahan awan # 6: Peningkatan awan

Sebaik sahaja data tiba di tempat tujuannya di awan, proses migrasi hanya separuh selesai. Checksum didahulukan: Pastikan bait yang tiba sesuai dengan yang dihantar. Ini boleh menjadi lebih sukar daripada yang anda sedar. Penyimpanan fail menggunakan lapisan cache yang dapat menyembunyikan kerosakan data yang baru sahaja dimuat naik. Kerosakan seperti itu jarang berlaku, tetapi sehingga anda telah membersihkan semua cache dan membaca semula failnya, anda tidak dapat memastikan adanya cek. Memulihkan semula instance atau melepaskan storan melakukan kerja yang boleh diterima untuk membersihkan cache.

Mengesahkan checksum penyimpanan objek memerlukan setiap objek dibaca menjadi contoh untuk pengiraan. Bertentangan dengan kepercayaan popular, objek "E-tag" tidak berguna sebagai checksum. Objek yang dimuatkan menggunakan teknik multipart secara khusus hanya dapat disahkan dengan membacanya kembali.